Recunoașterea textului și extragerea datelor unui orar școlar prezentat în format PDF (VI)
Investigând rezultatele OCR curente, ajungem la o idee aproape evidentă: dacă indicăm recunoașterea corectă pentru fiecare zonă de pixeli aferente câte unui cuvânt, atunci Tesseract ar recunoaște fără greșală, toate imaginile inițiale (… presupunând că acestea nu conțin și zone-artefact).
Recunoașterea textului și extragerea datelor unui orar școlar prezentat în format PDF (V)
Trecând automat de la "-22.04", la Ubuntu-24.04, mi s-a instalat (automat) o interfață grafică de "telefon inteligent" (și ca obiect central figurează "Office"); eu unul prefer pe cea coerentă, pe care o obținusem fără efort pentru Xubuntu-22.04 (și… ignor, în continuare, "Office").
Recunoașterea textului și extragerea datelor unui orar școlar prezentat în format PDF (IV)
Pentru situația concretă în care este provocat, Tesseract „judecă” (angajând rețeaua de neuroni cu care este înzestrat) pe baza unor exemple de recunoaștere corectă pe care a fost „antrenat” în prealabil — exemple din care s-au sintetizat anumite caracteristici de limbă și de scriere, organizate din timp în anumite "baze de date" (fișiere "*.traineddata").
Recunoașterea textului și extragerea datelor unui orar școlar prezentat în format PDF (III)
Redenumirea fișierelor, după clasa al cărei orar este conținut. Eliminarea unor zone de pixeli inutile; programul interactiv display, comanda mogrify, etc. din ImageMagick.
Recunoașterea textului și extragerea datelor unui orar școlar prezentat în format PDF (II)
transformări între diverse formate de fișier, pentru a folosi Tesseract
vezi Cărţile mele (de programare)