momente şi schiţe de informatică şi matematică
To attain knowledge, write. To attain wisdom, rewrite.

Noul orar (partea a doua)

limbajul R | orar şcolar
2024 oct

Forma normală a lecțiilor cls|prof promite repartizarea pe zile a acestora, uniformă față de un criteriu sau altul. Matricea orară a lecțiilor unei zile din orarul curent, permite socotirea vizuală a ferestrelor existente.

Noul orar (partea întâia)

limbajul R | orar şcolar
2024 oct

Ce poate fi mai plăcut decât să știi că și mâine ai ceva anume, de făcut… eventual "doar" s-o iei de la capăt !?

Recunoașterea textului și extragerea datelor unui orar școlar prezentat în format PDF (VIII)

Bash | ImageMagick | R | Tesseract
2024 sep

Constituim un nou model "cop.traineddata" — unde "cop" ar aminti "cls|obj|prof" și de fapt… vine de la "COPy", că asta facem: „copiem” conținuturi ad-hoc din poze ale orarelor (folosind Tesseract, Bash, ImageMagick), în scopul de a le organiza (folosind R) ca set coerent de date.

Recunoașterea textului și extragerea datelor unui orar școlar prezentat în format PDF (VII)

Bash | ImageMagick | Tesseract
2024 sep

Avem chipurile, un „tabel de date” aferente unui orar școlar — dar cu defectele rezultate în urma formatării vizuale (sub Microsoft-Word sau -Excel) și în urma scanării ulterioare a paginilor PDF respective; în plus, textul de pe imaginile respective este scris "de mână"…
În aceste condiții, rezultatele recunoașterii textului folosind Tesseract sunt nesatisfăcătoare; însă dacă separăm cumva celulele din tabelul inițial și aplicăm Tesseract pe „celulele PNG” rezultate (scurtându-le pe cât se poate — eliminând astfel, în mod implicit, diversele artefacte), atunci textul conținut va fi mult mai bine, recunoscut.

Recunoașterea textului și extragerea datelor unui orar școlar prezentat în format PDF (VI)

Bash | ImageMagick | Tesseract
2024 sep

Investigând rezultatele OCR curente, ajungem la o idee aproape evidentă: dacă indicăm recunoașterea corectă pentru fiecare zonă de pixeli aferente câte unui cuvânt, atunci Tesseract ar recunoaște fără greșală, toate imaginile inițiale (… presupunând că acestea nu conțin și zone-artefact).


Prev
Next
ALL (347 titluri)

vezi Cărţile mele (de programare)

despre acesta ~ Home
(sau https://vlad.bazon.net/

Factoriale | Graficul funcţiilor

PGN browser | chess JS engine

Load

in /slightchess

/slightchess

626 partide analizate cu Crafty

(R) Computer Art | Decoraţiuni

Aplicaţii şcolare (javaScript)

Sinteze: