Statistici pe judeţ, mediu şi grupe de medii, folosind R (partea a II-a)
Sintetizăm şi restructurăm datele examenului de Evaluare Naţională 2015, în scopul evidenţierii unor aspecte şi relaţii posibil relevante, privitoare la judeţul şi mediul în care se încadrează şcolile din care provin candidaţii şi respectiv, media finală a elevilor.
Avem câte 14 valori 'freq
' pentru fiecare judeţ - procentele a 6 categorii de medii finale plus procentul de elevi absenţi, pentru fiecare categorie de 'Mediu
- exceptând "M.Bucureşti
" la care avem numai 7. Ar fi de comparat situaţiile, după 'Mediu
' şi după judeţ; dar numai în trecere vom consemna eventuale concluzii şi "semnale de alarmă", urmărind de fapt formularea câtorva grafice statistice (conturând eventual anumite caracteristici ale datelor), folosind R (pachetele de bază şi pachetul ggplot2).
Statistici pe judeţ, mediu şi grupe de medii, folosind R (partea I)
Sintetizăm şi restructurăm datele examenului de Evaluare Naţională 2015, în scopul evidenţierii unor aspecte şi relaţii posibil relevante, privitoare la judeţul şi mediul în care se încadrează şcolile din care provin candidaţii şi respectiv, media finală a elevilor.
Statistici pe probe şi grupe de medii, folosind R
Obţinem folosind limbajul R statistici pe medii şi judeţe şi vizualizări grafice aferente, pentru datele de la "examenul de evaluare naţională" din 2015 (163418 observaţii pentru 21 de variabile).
Explorarea şi analiza datelor (partea a II-a)
În [1] am văzut că este foarte plauzibilă o relaţie liniară între numărul de şcoli şi numărul de locuitori şi că în raport cu dreapta de regresie respectivă, Olt prezenta surplusul cel mai mare (138 de şcoli "mai mult decât s-ar cuveni" conform regresiei - cu mult peste media surplusurilor altor judeţe) în timp ce M.Bucureşti prezenta "lipsa" de şcoli cea mai mare (mai mult de 400 de şcoli în minus, faţă de valoarea liniei de regresie); iar acum vedem că Olt are şi procentul cel mai mare de absenţi la examen (11.278% - de 3.8 ori media), în timp ce M.Bucureşti are procentul cel mai scăzut de absenţi, 0.514%.
Constatăm că marea majoritate a candidaţilor au vârsta standard (14 sau 15 ani), sau apropiată de aceasta (13 ani, sau 16 ani); există şi excepţii (sub 13 ani, sau 17 ani, sau 18..35 de ani) pe care probabil că Ministerul le-ar putea eventual explica. Vedem însă că există şi candidaţi cu vârsta de peste 100 de ani - însemnând că s-au strecurat anumite erori la înregistrarea datelor.
Explorarea şi analiza datelor (partea I)
Intenţia de transparenţă este probată întâi de modul în care se pot extrage datele; dacă nu pot face altceva decât să descarc, să tipăresc şi doar să mă uit la datele (pozate) respective, atunci este vorba numai de falsă transparenţă - dar acesta şi este cazul obişnuit la noi: site-urile instituţiilor publice oferă "*.DOC" (documente Microsoft Word Document), sau PDF, sau SWF (cadre Adobe Flash) şi JPG, iar programele şcolare de la noi chiar nu au legături cu "Open-", fiind subjugate produselor comerciale Microsoft şi educaţiei funcţionăreşti asociate, "point-and-click".
//data.gov.ro
inspiră încredere, din acest prim punct de vedere; datele sunt emise în format machine-readable, încât şi utilizatorul poate să le investigheze (cu propriile instrumente) şi le poate eventual restructura şi integra în vreun context propriu.
Vom folosi aici setul de date EVNAT-2015.csv, reprezentând rezultatele "Evaluării Naţionale". Am ales până la urmă acest set de date, fiindcă înregistrează suficient de multe observaţii individuale (linii de date), iar pe de altă parte - nu conţine decât datele brute respective (putem ignora că s-a intervenit asupra acestora pentru "anonimizare" şi probabil, pentru calculul câmpurilor de "notă finală" şi "medie"); în plus, acoperă o bună parte dintre greşelile tipice şi formatele defectuoase cu care ne-au obişnuit instituţiile noastre.
vezi Cărţile mele (de programare)