În [2] am produs în final structura 'jud.med
', conţinând denumirile judeţelor şi mediile corespunzătoare, pe linii ordonate descrescător după medie; lista începea cu Cluj 7.598
, M.Bucureşti 7.592
, Brăila 7.533
, etc. şi se încheia cu Vaslui 6.296
, Mehedinţi 6.270
, ..., Giurgiu 5.945
. Media judeţului rezulta ca valoarea medie a tuturor mediilor finale ale elevilor din judeţul respectiv…
Dar situaţia depinde considerabil şi de 'Mediu
', cum am evidenţiat în [4]; prin urmare lista tocmai amintită este principial greşită - cel mai evident, în privinţa încadrării M.Bucureşti
("judeţ" care are numai 'URBAN
', spre deosebire de judeţele propriu-zise). Pentru corectitudine era necesar să ţinem seama de proporţia celor două categorii de mediu, în fiecare judeţ; sau, cum vom proceda mai simplu aici - să tratăm separat cele două cazuri.
Statistici pe judeţ, mediu şi grupe de medii, folosind R (partea a II-a)
Sintetizăm şi restructurăm datele examenului de Evaluare Naţională 2015, în scopul evidenţierii unor aspecte şi relaţii posibil relevante, privitoare la judeţul şi mediul în care se încadrează şcolile din care provin candidaţii şi respectiv, media finală a elevilor.
Avem câte 14 valori 'freq
' pentru fiecare judeţ - procentele a 6 categorii de medii finale plus procentul de elevi absenţi, pentru fiecare categorie de 'Mediu
- exceptând "M.Bucureşti
" la care avem numai 7. Ar fi de comparat situaţiile, după 'Mediu
' şi după judeţ; dar numai în trecere vom consemna eventuale concluzii şi "semnale de alarmă", urmărind de fapt formularea câtorva grafice statistice (conturând eventual anumite caracteristici ale datelor), folosind R (pachetele de bază şi pachetul ggplot2).
Statistici pe judeţ, mediu şi grupe de medii, folosind R (partea I)
Sintetizăm şi restructurăm datele examenului de Evaluare Naţională 2015, în scopul evidenţierii unor aspecte şi relaţii posibil relevante, privitoare la judeţul şi mediul în care se încadrează şcolile din care provin candidaţii şi respectiv, media finală a elevilor.
Statistici pe probe şi grupe de medii, folosind R
Obţinem folosind limbajul R statistici pe medii şi judeţe şi vizualizări grafice aferente, pentru datele de la "examenul de evaluare naţională" din 2015 (163418 observaţii pentru 21 de variabile).
Explorarea şi analiza datelor (partea a II-a)
În [1] am văzut că este foarte plauzibilă o relaţie liniară între numărul de şcoli şi numărul de locuitori şi că în raport cu dreapta de regresie respectivă, Olt prezenta surplusul cel mai mare (138 de şcoli "mai mult decât s-ar cuveni" conform regresiei - cu mult peste media surplusurilor altor judeţe) în timp ce M.Bucureşti prezenta "lipsa" de şcoli cea mai mare (mai mult de 400 de şcoli în minus, faţă de valoarea liniei de regresie); iar acum vedem că Olt are şi procentul cel mai mare de absenţi la examen (11.278% - de 3.8 ori media), în timp ce M.Bucureşti are procentul cel mai scăzut de absenţi, 0.514%.
Constatăm că marea majoritate a candidaţilor au vârsta standard (14 sau 15 ani), sau apropiată de aceasta (13 ani, sau 16 ani); există şi excepţii (sub 13 ani, sau 17 ani, sau 18..35 de ani) pe care probabil că Ministerul le-ar putea eventual explica. Vedem însă că există şi candidaţi cu vârsta de peste 100 de ani - însemnând că s-au strecurat anumite erori la înregistrarea datelor.
vezi Cărţile mele (de programare)