Recunoașterea textului și extragerea datelor unui orar școlar prezentat în format PDF (V)
Trecând automat de la "-22.04", la Ubuntu-24.04, mi s-a instalat (automat) o interfață grafică de "telefon inteligent" (și ca obiect central figurează "Office"); eu unul prefer pe cea coerentă, pe care o obținusem fără efort pentru Xubuntu-22.04 (și… ignor, în continuare, "Office").
Recunoașterea textului și extragerea datelor unui orar școlar prezentat în format PDF (IV)
Pentru situația concretă în care este provocat, Tesseract „judecă” (angajând rețeaua de neuroni cu care este înzestrat) pe baza unor exemple de recunoaștere corectă pe care a fost „antrenat” în prealabil — exemple din care s-au sintetizat anumite caracteristici de limbă și de scriere, organizate din timp în anumite "baze de date" (fișiere "*.traineddata").
Recunoașterea textului și extragerea datelor unui orar școlar prezentat în format PDF (III)
Redenumirea fișierelor, după clasa al cărei orar este conținut. Eliminarea unor zone de pixeli inutile; programul interactiv display, comanda mogrify, etc. din ImageMagick.
Recunoașterea textului și extragerea datelor unui orar școlar prezentat în format PDF (II)
transformări între diverse formate de fișier, pentru a folosi Tesseract
Recunoașterea textului și extragerea datelor unui orar școlar prezentat în format PDF (I)
Cum extragi datele de pe un orar scris „de mână”?
vezi Cărţile mele (de programare)