avataravataravataravataravataravataravataravataravataravataravataravataravataravataravataravataravataravataravataravataravataravataravataravataravataravataravataravataravatar
Oś Świata/Kolokolo Bird

PISA 2012 – próba analizy krytycznej

03.01
2014

By nie spamować u Danusi technikaliami analizy danych, podkradam temat…

Włożyłem trochę wysiłku w odczytanie źle zdokumentowanych surowych danych PISA z ostatniego badania. No i, oczywiście, włożyłem też troszkę pracy w niezależną analizę tych danych. Jak dotąd — nie znalazłem w tym żadnych rewelacji merytorycznych. Choć parę ciekawostek metodologicznych już tak. Przede wszystkim można mieć sporo zastrzeżeń (uzasadnionych wątpliwości) co do „surowości” owych „surowych danych”.

Uspokoję Waldemara — według tych danych każde z zadań rozwiązywane jest przez około 30% uczniów, są drobne (rzędu 3%) różnice pomiędzy krajami, jednak nie widać żadnej korelacji pomiędzy krajami, a użyciem specyficznych zadań. Wyjątkiem jest tu grupa krajów uczestniczących w PISA po raz pierwszy, która „na zachętę” dostała inne (łatwiejsze) zestawy. To ułatwienie nie dotyczy jednak ani czołówki rankingu PISA, ani Polski, ani Kanady. W Europie korzysta z tego tylko Bułgaria, reszta to głównie kraje arabskie i Ameryki Południowej. Wśród większości krajów nie ma różnic skorelowanych z trudnością. Polska w żadnym wypadku nie jest tu uprzywilejowana w jakikolwiek sposób. Najsilniejszą rozbieżność w przydziale zadań w stosunku do większości krajów mają Włochy, ale nadal nie przekracza to 3%.

Chodzą wprawdzie plotki, że w różnych krajach (w tym Polsce — ponoć uczniowie nie odpowiadali na pytania z rachunku prawdopodobieństwa) część zadań nie była oceniana, a ich wyniki byłý ekstrapolowane z wyników innych zadań. O ile to podejrzenie wydaje się być całkiem realne w kontekście (patrz niżej) innych ewidentnych manipulacji danymi, o tyle nie udało mi się potwierdzić go wyłącznie na podstawie analizy opublikowanych danych — co, oczywiście, nie wyklucza prawdziwości tego podejrzenia, a znaczy tylko, że dane są niewystarczające ani do jego potwierdzenia ani zaprzeczenia.


Odsetek dobrych odpowiedzi

Odsetek dobrych odpowiedzi

Ciekawostka merytoryczna

Nie znając punktacji ani przydziału do „skali trudności” poszczególnych zadań, postanowiłem sprawdzić jaki odsetek uczniów odpowiedział na każde z nich.
Zadania uszeregowałem w kolejności „trudności” — czyli tym „trudniejsze” im mniej uczniów na całym świecie na nie odpowiedziało. Wykres pokazuje odsetek uczniów (a raczej opublikowanych przez PISA przesianych ankiet), którzy poprawnie odpowiedzieli na to pytanie.
Widać skalę trudności, wybraną przzez PISA: połowa pytań jest tak łatwa, że odpowiada na nie ponad 75% uczniów. Dominują zadania bardzo łatwe, a jedynie 30% zadań jest na tyle „trudne”, że ponad połowa uczniów od nich odpada.
Patrząc na te liczby weźmy poprawkę na manipulację danymi (patrz niżej) — magiczne zniknięcie ankiet z bardzo złymi wynikami. Zauważmy, że na tym obrazku nie są przedstawione wyniki polskich uczniów, ani ich losowej czy reprezentatywnej próby: sa to uczniowie-aniołowie, spośród których ponad 98% odpowiada na najprostsze zadania! To tak, jakbyśmy w 30-osobowej klasie gimnazjalnej nie mieli ani jednego matoła, oddającego pustą kartkę, albo pokazującego nam gest Kozakiewicza na prośbę o wypełnienie testu. Albo jak 98% głosów oddawanych na PZPR w wyborach w latach 1970′.

Odsetek poprawnych odpowiedzi

Odsetek poprawnych odpowiedzi


Na tym wykresie pokazuję liczbę poprawnych odpowiedzi (a raczej odsetek poprawnych odpowiedzi w odniesieniu do liczby zadanych pytań) dla polskich uczniów (znów, pamiętajmy o całkiem uprawdopodobnionej niereprezentatywności danych PISA).
Jak widać, większość uczniów ujętych w publikowanych danych poprawnie odpowiedziała na mniej więcej dwie trzecie pytań.
Zastanówmy się jednak nad realnością sytuacji, że na 30% najłatwiejszych pytań potrafiło odpowiedzieć (i odpowiedziało) ponad 98% uczniów. Mamy tylko 2% matołów i olewaczy? To jest dopiero sukces polskiej szkoły!
Z drugiej strony popatrzmy na prawą stronę tego wykresu: tylko 5% uczniów (i to już tych przeselekcjonowanych manipulacją PISA…) umie odpowiedzieć na co najmniej 90% pytań — z tego, co można wnioskować po przeczytaniu tych kilku ujawnionych — pytań trywialnych i oczywistych dla każdego, kto uzyskał maturę za czasów minionego ustroju.


Zmanipulowane „surowe” dane PISA

Błędna dokumentacja

PISA opublikowała „surowe dane” jako plik tekstowy wraz z opisem jego składni (jak zapisane są informacje). Ten opis jest ewidentnie fałszywy, w szczególności według opisu każda linijka tych danych powinna zawierać 545 znaków, natomiast plik składa się z linijek o długości 541 znaków. Korzystając z tego opisu nie dałoby się w ogóle odczytać tych ujawnionych „surowych danych”: bo niby skąd miałbym wziąć tę informację, która według opisu zapisana jest na pozycjach 542 i dalszych? Na szczęście PISA opublikowała poza oficjalnym opisem w „ludzkim języku” również pomocnicze definicje składni dla dwóch, używanych przez nich programów do analizy (nadal te opisy są niespójne), z których sporym nakładem pracy udaje się odtworzyć, jak te dane są zapisane i dowiedzieć się, że to ze środka linijki wyleciały jakieś mało istotne dane, a resztę trzeba przesunąć o 4 znaki…
Przynajmniej udaje się w ten sposób uzyskać dane nie będące wewnętrznie sprzecznymi ;)

Brak informacji o zadaniach

W publikowanych danych nie ma treści zadań. Nie ma też o nich tak ważnych informacji, jak to, to jakiej grupy trudności były zaliczone i jaka była ich punktacja. Jedyne, co można się dowiedzieć, to:
– Nazwa pytania, np. „MATH – P2003 Cash Withdrawal Q1 – original responses”
– To, czy dany uczeń w ogóle dostał to zadanie, jeśli tak, to czy w ogóle udzielił jakiejkolwiek odpowiedzi, jeśli tak, to czy została oceniona na „no/partial/full credit”

Z nazwy (zaczynającej się na MATH/READ/SCIE/CBAM/CBAPS/DRA) można jedynie domyśleć się, czy jest to zadanie z matematyki, czytania, przyrody.
CPAM i CBAPS to matematyka i przyroda badane nie na papierowych testach, ale na tablecie (co było prowadzone tylko w kilku krajach), a czym jest „DRA” nie mam pojęcia).

Brakujące pytania

Na liście znajdujemy pytania o nazwach: „MATH – P2012 Chocolate Q2″, „MATH – P2012 Chocolate Q3″ i „… – Q5″. Ale o pytaniach Q1 i Q4 do tego tekstu ani widu, ani słychu. Podobnych brakujących pytań jest bardzo dużo, dotyczy to niemal połowy zadań. W najgorszym przypadku (najtrudniejsze z zadań z serii ‚Reading’: „Narcissus”) mamy Q1, Q6 i Q7, ale Q2-5 nie istnieją. Uczniowie na te pytania odpowiadali, ale oceny odpowiedzi na nie zniknęły przed opublikowaniem zbioru „surowych” danych.

Nie mam możliwości sprawdzić, czy jakieś zadania nie wypadły w całości (z wszystkimi pytaniami do danego tekstu).

Jedno z zadań, które PISA ujawniła (o Helen jeżdżącej na rowerze) w ogóle nie znalazło się w wynikach uczniów z większości krajów — odpowiedzi są wyłącznie w rekordach ułatwionych zestawów (uczniowie z Bułgarii, Urugwaju, etc.)

Brakujące ankiety

Z ogromnym zaskoczeniem zauważyłem, że w Polsce nie zdarzył się ani jeden przypadek ucznia, który oddałby pusty formularz: nie próbując nawet odpowiedzieć na żadne z pytań. Cóż za budująca masowość zaangażowania gimnazjalistów w badania naukowe! ;)
W wielu krajach sytuacja jest podobna, w niektórych innych takie formularze zdarzają się, ale ich liczba jest nierealistycznie niska (poniżej 1%)

Nie potrafię znaleźć innego wytłumaczenia dla tego braku pustych odpowiedzi, niż usunięcie ich z pliku „surowych” danych.

Brak bardzo złych odpowiedzi

W całym Polskim badaniu (na 4607 formularzy uczniowskich opublikowanych w zbiorze) jest aż jeden (tak, dokładnie jeden na 4607 opublikowanych formularzy) uczeń, który nie odpowiedział poprawnie na żadne z pytań. W innych krajach jest niewiele lepiej. W Kanadzie na 21,544 opublikowanych wyników jest tylko 48 takich „zupełnych analfabetów”.

Duplikaty pytań

Kilka zadań występuje w dwóch wersjach, np. „MATH – P2000 Pop Pyramids Q4 – original responses” i „MATH – P2000 Pop Pyramids Q4″. Takich par „pytanie / pytanie-original responses” jest kilkanaście. Odpowiedzi na nie są identyczne.

Przydział pytań

Spośród normalnych pytań (spoza specjalnego bułgarsko-urugwajskiego zestawu) każde zostało zadane ok. 30% badanych uczniów. Różnice między krajami są tu niewielkie (poniżej 3%) i wytłumaczalne jako fluktuacja statystyczna losowego przydzielania zestawów pytań uczniom.

Zaskakujące jednak jest przyjrzenie się liczbie pytań, na które odpowiadali poszczególni uczniowie. Drobne różnice byłyby zrozumiałe — do jednego zestawu weszło zadanie z 4 pytaniami Q1-Q4, a do drugiego takie z Q1-Q5. Tymczasem obserwowane różnice liczby pytań, za jakie oceniany był uczeń, są dramatycznie różne: od 13 do 45. Taka rozpiętość sugeruja raczej nie bałagan w tworzeniu zestawów pytań o niespójnej objętości, ale raczej usunięcie części odpowiedzi z publikowanych danych.

Trzeba jednak zauważyć, że nie widać korelacji pomiędzy liczbą pytań, na jaką odpowiadał jakiś uczeń, a ich trudnością.

Zniekształcona grupa odniesienia

PISA deklaruje, że stara się z każdego kraju badać próbę uczniów tej samej wielkości (ok. 5000). Już to podejście tworzy zafałszowany obraz odniesienia populacji wszystkich badanych krajów (w domyśle całego świata) — Estonia wnosi do tej puli tyle samo co Francja, czyli estoński uczeń ponad 50 razy więcej, niż francuski. Te proporcje zotały jednak dodatkowo zniekształcone: z większości krajów próby sa wprawdzie około 5000, to kilka krajów jest bardzo silnie nadreprezentowana, nawet do liczności ponad 20,000, czyli ponad czterokrotnie. Takimi nadreprezentowanymi w tworzeniu obrazu odniesienia krajami są m.in. Emiraty Arabskie, Kanada i Finlandia.

Identyczne odpowiedzi

Około 10% polskich formularzy (419 na 4607) odpowiedzi jest w 100% zgodne z jakimś innym formularzem. Nie jest to ani efekt typu „obaj uczniowie odpowiedzieli dobrze na wszystkie pytania”, ani „obaj nie odpowiedzieli na żadne” — dotyczy to również formularzy, gdzie poprawnie odpowiedziano na połowę czy 2/3 pytań. Przypadkowa zbiezność jest nieprawdopodobna.
O dziwo, tylko niewielka część „rozmnożonych” zestawów odpowiedzi pochodzi z jednej szkoły — trudno więc uznać to za efekt ściągania.
Przyznam, że nie mam pomysłu na to, kto i po co miałby tworzyć takie duplikaty, ani jaki inny mógłby być mechanizm ich powstawania.

Uzupełnienie:
Muszę się wycofać z tych niesłusznych podejrzeń, że duplikaty są wynikiem jakiejś machlojki. W innych krajach liczba duplikatów jest podobna, a w krajach o większej liczbie ankiet nawet większa. Wygląda na to, że podsuwający mi to tłumaczenie pan Przemysław Biecek miał rację i jest to jednak jakiś efekt statystyczny z rodziny „birthday paradox”. Szacując jego prawdopodobieństwo niedoceniłem, że nawet słabe korelacje pomiędzy zadaniami wystarczają żeby znacznie podnieść prawdopodobieństwo jego wystąpienia i wygenerować sporo duplikatów.




Mam te dane przekonwertowane do systemu analizy danych CERN-Root-Framework. Jeśli ktoś jest zainteresowany ich użyciem, albo procedurami, jakich użyłem do analizy, to na życzenie udostępnię zarówno dane w postaci pliku w formacie Root Tree, zawierające kompletne ustandaryzowane rekordy odpowiedzi poszczególnych uczniów, jak i programy analizy.
Dane w formacie Root zajmują dziesięciokrotnie mniej miejsca (15 MB) od publikowanych przez PISA i najprostsza ich analiza zajmuje tylko kilkanaście sekund typowego domowego peceta.

Jeśli ktoś ma pomysły, co warto byłoby przeliczyć/sprawdzić/zweryfikować, używając tych danych, a sam nie ma wprawy w programowaniu, to też niech śmiało pisze, a przeliczę jego pomysł.

CERN Root jest darmowym, otwartym, dobrze zdokumentowanym środowiskiem analizy danych eksperymentalnych, opracowanym przez CERN i powszechnie stosowanym w fizyce i pokrewnych naukach. Wymagającym od użytkownika, by rozumiał co liczy — Root nie podtyka magicznych recept, a jedynie ułatwia mechaniczną część pracy, od przechowywania danych po rysowanie wykresów.



Wykres do komentarza nr.3:

poprawne odpowiedzi

poprawne odpowiedzi

Zobaczcie jeszcze jeden wykres: porównanie odsetka poprawnych odpowiedzi na pytania PISA w gimazjach publicznych i niepublicznych.

Oczywiście, nie jest to dowód, że szkoły prywatne uczą lepiej od państwowych. Równie dobrze może to być (a zapewne jest) efekt „cherry picking”.

Proszę jednak popatrzeć na ten wykres i zastanowić się, czy sądzicie, że:
1. PISA mierzy jakość edukacji, a szkoły prywatne są o klasę lepsze od państwowych?
2. jest to efekt „cherry picking”, a PISA nie mierzy „jakości edukacji”, tylko jakieś umiejętności/cechy uczniów, wynikające z zupełnie niezależnych od szkoły przyczyn — choćby ich wyniesionego z domu kapitału kulturowego?

Ale w jedno i drugie (że PISA jest obiektywnym miernikiem jakości systemu edukacji i że edukacja państwowa nie ustępuje prywatnej) jednocześnie wierzyć nie można nie popadając w samosprzeczność…




Kolejne uzupełnienie — wykresy do kolejnego komentarza.
Uwaga: klikając na wykresie można go powiększyć na cały ekran — wtedy jest dużo czytelniejszy.
PISA - matematyka. Polska i Świat

PISA – matematyka. Porównanie odsetka dobrych odpowiedzi dla Polski i Świata

Przyjrzyjmy się jeszcze raz wykresowi liczby uczniów w zależności od odsetka poprawnych odpowiedzi, jakie udzielili.

Nie znamy zasad punktacji zadań, ale dla tego rozumowania nie są one specjalnie istotne — przyjmijmy dla prostoty, że ta punktacja jest po prostu 1 punkt za dobrą odpowiedź, 0 punktów za złą lub jej brak. Przyjmijmy też dla uproszczenia, żeby nie bawić się w procenty, że każdy uczeń odpowiadał na taką samą liczbę pytań: 40 (zakładam, że ankiety z bardzo niską liczbą pytań, jak 13, to efekt zniknięcia części zadań z publikowanego zbioru). Te upraszczające założenia nie mają wpływu na wynik tego rozumowania. Uczniowie średnio odpowiedzieli na 60% pytań, czyli na 24 pytania. Szerokość tego rozkładu liczby odpowiedzi (RMS, $\sigma$, odchylenie standardowe z próby — jak wolicie to zwać) to 18%, czyli 7 pytań.

PISA przekształca punkty za zadania w ostateczny wynik poprzez zaaplikowanie pewnych niejasnych poprawek, a następnie przez przesunięcie i rozciągnięcie skali tak, żeby średnia w badaniu 2000 wypadała na 500, a RMS na 100. Wynik rankingu Polski: 518 tak przeskalowanych punktów oznacza, że średnia wyniku polskich uczniów jest wyższa od ówczesnej średniej światowej o 0.18 (ok. 1/5) szerokości rozkładu wyników uczniowskich.
W przeliczeniu na liczbę poprawnych odpowiedzi, odpowiada to sytuacji, że na całym świecie uczniowie średnio odpowiadali na 24 pytania z 40 im zadanych, a polscy odpowiadają na 25 — o mniej więcej jedno więcej. Tak jest dla matematyki, ale w pozostałych „konkurencjach” (czytanie i rozumowanie w naukach ścisłych) liczba pytań jest dwukrotnie niższa. Tu wspaniały polski wynik oznacza już, że średnio polski uczeń odpowiada na pół pytania więcej, niż średnia światowa.

Gdyby uczniom spoza Polski dodać po jednym zadaniu...

Gdyby uczniom spoza Polski dodać po jednym dobrze rozwiązanym zadaniu…

Zobaczmy, jak wyglądałoby to samo porównanie, gdyby wszystkim uczniom na całym świecie zaliczyć po jedną prawidłową odpowiedź więcej — teraz już Polska nie odstawałaby od przeciętnej.

Nie zapominajmy też, że tę liczbę dobrych odpowiedzi w przeważającej części tworzą odpowiedzi na najtrywialniejsze pytania, na które (według publikowanych danych) odpowiada bez problemu 98% uczniów. Ten wynik średniej do rankingu tworzony jest właśnie przez to, czy na najłatwiejsze pytania odpowie 96% czy 98% uczniów. I ten obszar jest też ewidentnie zmanipulowany — przez zniknięcie pustych i większości bardzo złych ankiet, prowadzące do zupełnie nierealistycznej (ponad 98%) liczby poprawnych odpowiedzi na najłatwiejsze pytania. Dużo wyższy odsetek błednych odpowiedzi musiałby powstać choćby przez najzwyklejsze pomyłki w zakreślaniu na formularzu literki do wyboru przy właściwej odpowiedzi. Zniknięcie pustych i bardzo złych formularzy dotyczy danych z całego świata, jednak w Polsce to zafałszowanie jest silniejsze, niż gdzie indziej.

Wyniki PISA i egzaminu gimnazjalnego

Liczba uczniów w zależności od odsetka poprawnych odpowiedzi – PISA i egzamin gimnazjalny

Nie znamy wprawdzie treści zadań PISA, nie możemy więc od tej ich merytorycznej strony ocenić stopnia ich trudności czy zaawansowania. Możemy jednak z opublikowanych danych odtworzyć ich „trudność egzaminacyjną” — czyli zobaczyć, jaki odsetek uczniów sobie z nimi radzi. Jak widać te zadania są jeszcze bardziej banalne, niż egzamin gimnazjalny. Popatrzmy jeszcze raz na ten wykres rozkładu odsetka uczniów, w zależności od liczby pytań, na które odpowiedzieli. I porównajmy go z analogicznym wykresem dla egzaminu gimnazjalnego. PISA okazuje się bez porównania łatwiejsza! Gros polskich uczniów odpowiada poprawnie tylko na około 30% pytań na egzaminie gimnazjalnym (umówmy się, że też nie będących wielkim wyzwaniem intelektualnym), ale już na ponad 60% w teście PISA. Najwięcej grupa spośród polskich gimnazjalistów rozwiązuje poprawnie około 30% zadań z egzaminu gimnazjalnego. Tymczasem z taką samą częścią (30%) zadań PISA radzi sobie aż 98% badanych uczniów

Nawet przyjmując za dobrą monetę rzetelność badania, należy właściwie interpretować ten „niesamowity polski sukces” — oznacza on, że jeśli uczniom dajemy 40 pytań, w większości banalnych i skrajnie oczywistych, to na całym świecie w roku 2000 średnio uczniowie odpowiadali poprawnie na 24 z nich, a w Polsce dziś aż na 25.
Po raz kolejny okazuje się, że odnosimy sukces i sprostamy wspaniale globalnym wyzwaniom dzięki globalnemu obniżeniu wymagań do poziomu jeszcze denniejszego, niż stawia polska szkoła. W umiejętności kolorowania drwala jesteśmy świetni i będziemy coraz lepsi.



I jeszcze jedno uzupełnienie…

Odsetek bardzo złych odpowiedzi

Odsetek formularzy zawierających mniej niż 5% poprawnych odpowiedzi.

Chyba mamy wyjaśnienie fenomenu „sukcesu” Polski i Estonii. Popatrzcie na wykres (kliknięcie go powiększy) — zależność liczby bardzo złych odpowiedzi (to znaczy, takich formularzy, w których poprawnie odpowiedziano na mniej niż 5% pytań — czyli najwyżej jedno) od kraju. Symbole krajów według prywatnej konwencji PISA (kto im bronił stosować konwencję ISO?), ale daje się domyśleć, że POL to Polska, EST – Estonia, a SWE – Szwecja. QCN to Szanghaj.

„Sukces” w tegorocznym badaniu odniosły właśnie Polska i Estonia — kraje, w których odsetek tak złych odpowiedzi był poniżej 0.1%. Wierzycie, że mniej, niż jeden uczeń na 1000 oddał pusta pracę albo nie odpowiedział na żadne z pytań? Średnia światowa takich najgorszych odpowiedzi to 0.6%. W krajach o dużej tradycji uczciwości, jak Szwecja — nawet troszkę więcej: 0.75%. To i tak wydaje się zaniżone. Ale w Polsce to tylko 0.02% — ponad 30 razy mniej, niż we Szwecji! I jest to też mniej więcej 30 razy mniej, niż w polskim egzaminie gimnazjalnym.

Przypominam, że ostateczna punktacja PISA jest wyjątkowo wyczulona na odsetek bardzo słabych prac. Liczą się one kilkukrotnie bardziej, niż prace o najwyższym odsetku poprawnych odpowiedzi.
Polska odniosła sukces w eliminacji analfabetyzmu poprzez niedopuszczenie złych prac do dalszego przetworzenia? W tej metodzie zwalczania analfabetyzmu jesteśmy światowym liderem. Świętujmy sukces na światową miarę!

Polecam rozważeniu kwestię uczciwości sprawdzających i prowadzących badanie.

Moja protestancka z pochodzenia dusza czuje się zawiedziona, że luterańscy Estończycy oszukują tak samo jak Polacy…



Jeszcze jedna ciekawostka: w zbiorze „surowych” danych z całego świata są dane z tylko 43 krajów. A w PISA uczestniczy 65. Dane z pozostałych wyparowały. Według publikacji PISA badanie dotyczyło „around 510 000 students”, a w udostępnionym pliku są tylko 271,323 rekordy.

W całości zniknęły:
Albania, Argentyna, Kostaryka, Grecja, Islandia, Indonezja, Irlandia, Jordania, Kazachstan, Łotwa, Liechtenstein, Litwa, Luksemburg, Meksyk, Nowa Zelandia, Peru, Qatar, Rumunia, Szwajcaria, Tailandia, Tunezja, Wietnam.



Na stronie PISA pojawił się obok dotychczas przeze mnie analizowanego pliku surowych danych „Cognitive item response data file” drugi: „Scored cognitive item response data file”, który wydaje się zawierać także trochę informacji, brakujących w tym pierwsyzm. Pewnie nie ja jeden zauważyłem, że w tym CIRDF brakuje mnóstwa rzeczy, które PISA zobowiązała się opublikować…

Oczywiście, PISA musiała utrudnić, czyli zapisać oba pliki w trochę różnych formatach. Eeeechhhh… biorę się za odcyfrowywanie tego „scored…”



Po ciężkich bojach udało mi się przeczytać ten „Scored cognitive item response data file”. Nawet pochwalę PISA, że jego dokumentacja jest trochę lepsza, niż dla pierwszego z opublikowanych plików danych.
Nowy plik jest też trochę kompletniejszy: zawiera dane z uprzednio pominiętych krajów (znalazł się nawet mój ukochany Fürstentum Liechtenstein z aż 294 przebadanymi uczniami!), ale nadal brakuje części rekordów: jest ich tylko 485,490, podczas gdy według broszury PISA przebadano 510,000 uczniów. Mimo, że plik zawiera dane ze wszystkich krajów, nadal brakuje ok. 5% rekordów.

Wydaje się, że te nowoopublikowane dane w zasadzie pokrywają się z poprzednimi, choć sa odrobinę mniej szczegółowe: teraz zadania mają ocenę 2,1,0,NA — utożsamia pytania, na które w ogóle nie udzielono żadnej odpowiedzi z tymi, na które odpowiedziano błędnie. Zniknęło też trochę z mniej istotnych informacji uzupełniających.

Z listy pytań zniknęły też te dziwacznie zdublowane „pytanie – original responses”.

Moje wcześniejsze analizy pozostają w zasadzie bez zmian (drobne zmiany wykresów pochodzą od wyrzucenia tych zdublowanych pytań „original responses” i uwzględnienia w odniesieniu światowym większej liczby krajów.

Wracam do babrania się w meritum badania, czyli próby odtworzenia punktacji w modelu Rascha…



Rozkład liczby poprawnych odpowiedzi

Rozkład liczby poprawnych odpowiedzi

Zobaczcie, proszę, rozkład liczby poprawnych odpowiedzi uczniów z jednej szkoły, jednego kraju, całego świata. Wziąłem pierwszą lepszą polską szkołę (o identyfikatorze „POL-41″ — nie mam pojęcia, gdzie jest to gimnazjum, ale chyba nie jest najlepsze…) i narysowałem na czerwono, dane z Polski — na granatowo i dane z całego świata na błękitno.
Obrazek pokazuje rozkład liczby uczniów, czyli jaki procent odpowiada poprawnie na ileś pytań: od 0 do 10%, od 10% do 20% itd.
Zobaczcie, jak niewiele różnią się szerokości tych rozkładów, czyli jak niewiele silniejsze są różnice pomiędzy uczniami z całego świata w porównaniu ze zróżnicowaniem uczniów w jednej szkole. Miarą różnic w danej grupie jest $\sigma$ (inaczej RMS) — odpowiadająca mniej więcej takiej wartości, że 2/3 uczniów w danej grupie nie odstaje od średniej o więcej niż $\sigma$.
Na całym świecie ta rozpiętość liczby poprawnych odpowiedzi wynosi 23.4%. Polscy uczniowie różnią się między sobą o 21.9%. Wyniki Polaków są między sobą podobni tylko o 1/15 bardziej, niż wyniki uczniów z różnych końców świata. Trochę tylko większą spójność mają wyniki uczniów z jednej szkoły. Ta (wybrana na chybił-trafił) szkoła ma rozpiętość wyników $\sigma=17.6$ To już jest zauważalnie bardziej spójna grupa, choć nadal różnice pomiędzy wynikami uczniów tej szkoły są dużo większe, niż różnica między polską średnią, a średnią światową.

PS. Starałem się napisać to tak, żeby nawet „zwykły rodzic” zrozumiał. Całki będą dopiero następnym razem ;)




Rozkład liczby pytań

Rozkład liczby pytań

W odpowiedzi dla Przemysława Biecka — rozkład liczby pytań, na jakie odpowiadali polscy uczniowie.

 
 
 
 
 
 
 
 
 
 
 




Rozkład odpowiedzi według szkół

Rozkład odpowiedzi według szkół

Zobaczcie (jak zwykle kliknięcie powiększy wykres), jak wygląda liczba (odsetek) poprawnych odpowiedzi, policzona niezależnie dla każdej ze 184 szkół, biorących udział w badaniu. Dla czytelności ułożyłem szkoły nie według numerów identyfikacyjnych, nadanych im przez PISA, ale w kolejności coraz to wyższej średniej uczniów z danej szkoły. Każda kreska oznacza dane dla innej szkoły.
O szkołach nie wiem nic (małomiasteczkowe-wielkomiejskie, noname-renomowane, nic takiego), a jedyne, co zaznaczyłem kolorem, to czy to jest szkoła publiczna, czy niepubliczna (ta druga grupa to worek, w którym mieszczą się zarówno ekskluzywne prywatne gimnazja, jak i małe wiejskie szkoły, przekształcone w „fundacyjne” pod groźbą likwidacji). Zaznaczyłem też szerokim czerwonym pasem rozkład odpowiedzi wszystkich uczniów z całej Polski.
Punkty środkowe pokazują średnią dla danej szkoły, a linie rozrzut (RMS) wyników jej uczniów. Z grubsza można to interpretować tak, że 2/3 uczniów danej szkoły daje odpowiedzi mieszczące się w zaznaczonym linią obszarze, a 2/3 uczniów z całej Polski dało odpowiedzi w pokolorowanym przedziale.
Pokolorowanie publiczne-niepubliczne tym razem nie wynika z mojej (nieskrywanej) atencji dla szkolnictwa prywatnego, ale z tego, że jest to jedyne kryterium dostępne w danych, którymi dysponuję już teraz, bez konieczności mozolnego przekopywania się przez odkodowywanie dodatkowych źle zdokumentowanych plików…

Wbrew pozorom (że większość szkół przekrywa się z wynikami ogólnokrajowymi), te różnice między poszczególnymi szkołami są bardzo znaczące — kilkukrotnie większe, niż różnice pomiędzy krajami, uczestniczącymi w badaniu PISA. Nie będę spekulował nad możliwymi tego przyczynami, ale intuicja podpowiada mi, że jest to w znacznie większym stopniu efekt selekcji uczniów (to, co sprawdza Paweł: różnice pomiędzy miastem a wsią), niż „jakości nauczania” w danej szkole.

Patrząc na ten i inne wykresy, tudzież różne interpretacje, wnioski i przekazy medialne osnute wokół badań PISA, miejcie, proszę, w pamięci skalę rozrzutu odpowiedzi indywidualnych uczniów — zarówno rozrzutu w całej Polsce (na całym świecie), jak i w jakiejś wybranej grupie (np. pojedynczej szkole). Te różnice pomiędzy uczniami, nawet w ramach jednej grupy/szkoły są zazwyczaj większe, niż różnice pomiędzy średnimi szkół czy krajów. Nawet przy tej dużej rozpiętości pomiędzy szkołami, jaką tu widać, poza marginesem dwóch najbardziej dennych i kilku najbardziej elitarnych, mamy ciągle w złych szkołach znaczną część uczniów, odpowiadających na więcej pytań, niż słabi uczniowie ze szkół dobrych.

Co ciekawe, skala rozrzutu wyników uczniów z pojedynczej szkoły jest bardzo podobna dla wszystkich szkół (za wyjątkiem tych z najwyższej półki, gdzie jest trochę mniejszy) i zblizona do rzorzutu wyników całej ogólnopolskiej populacji.



Analizy ciąg dalszy w oddzielnym wątku.

Podziel się ze znajomymi

77 komentarze do “PISA 2012 – próba analizy krytycznej

  1. Rozmnożone pytania, to na pewno jakiś efekt ekstrapolacji wyników na uczniów… Nie wiem – nieobecnych w dniu testu? Już we wszystko byłbym w stanie uwierzyć.

    Najbardziej nieprawdopodobne jest dla mnie to, że nikt o to nie pyta. Bendyk rozmawia z Marciniakiem, który w wynikach PISA widzi własny sukces, a dokładniej – sukces programu, w którego przycinaniu do PISA standardu uczestniczył. Marciniak był równocześnie członkiem komitetu PISA w Polsce – ciekawe, czy przycinał pytania i dane, skoro test potwierdzał jego rzekomy sukces. Przenikliwość red. Bendyka mnie osłabia. Na blogu napisał, że polskie wyniki niektórzy komentują tak, jak jest najłatwiej: że PISA mierzy nie to, co trzeba. Głos, który w dyskusji zabiera Bendyk, brzmi „tak jest najłatwiej”. Otóż nie jest najłatwiej, a Bendykowy poziom niezrozumienia problemu jest jednym z dowodów.

      • 15 stycznia u Prezydenta RP odbędzie się konferencja pod tytułem „Edukacja – wyzwania przyszłości. Jak zaspokoić aspiracje i nie zmarnować potencjału pokolenia wiedzy”. Imprezę poprowadzi red. Edwin Bendyk… Pierwszy referat wprowadzający ma tytuł „jak zagospodarować polski sukces w PISA” i wygłosi dr Elżbieta Ostrowska z IFiS PAN i IBE, jedna z autorek ostatniego badania. O kluczowych kompetencjach będzie opowiadał prezes Szomburg, który – jak pamiętamy – zebrał w tej sprawie ogromną wiedzę na kolejnych Kongresach Obywatelskich. Przewidziano dyskusję ekspertów, a w ich liczbie Jacek Strzemieczny. Oraz wiceminister Jabukowski (przedtem pracujący w OECD i związany z Konsorcjum PISA). U Szomburga Jacek mówił kiedyś o szkodliwej „testomanii”. Ściął się wówczas z Jakubowskim, który oczywiście po pierwsze testy lubi, a po drugie widzi w nich bardzo wyraźnie polski postęp. Jakubowski z pewnością nie zmieni zdania – mam ogromną nadzieję, że Jacek również swojego nie zmieni, choć czasy się zmieniają i klimat też, w związku z czym trzymam za Jacka kciuki – choć nie sądzę, żeby dyskusja u Prezydenta czemukolwiek służyła poza konsumpcją sukcesu i była w jakimkolwiek stopniu poważna.

        Przeglądałem też fora internetowe i dyskusje w tej sprawie. Ciekawe. Jeśli kwestionujesz „twarde fakty” i marudzisz w sprawie polskiego sukcesu, jesteś w zasadzie oszalałym wyznawcą smoleńskiej religii. Fakty kwestionować najłatwiej – powiedziałby red. Bendyk…

      • Nie wiem czy podejrzenie o zanizeniu ilości najniższych danych jest słuszne – choc niewykluczone ze jest, ale swiadczyłoby o kiepskiej organizacji badań bo to jest jedna z podstawowych spraw do przypilnowania – to jesteśmy grupie krajów z bardzo różnymi wynikami, fakt że my mamy najmniej ale i nie jestesmy na pierwszym miejscu. Różnice w rozkłądzie wyników gimnazjalnych i PISA łatwo wytłumaczyc trudnością zadań ale nie mozna miec także o to pretensji. Zadania PISA mają porównać bardzo róże poziomy uczniów i ich bezwzględny stopień trudności jest nieistotny. Uwaga że wystarczyłoby zrobić „tylko” jedno (łatwiutkie) zadanie więcej dobrze aby być porównywalnym z nami (tez nie tak do końca, szczególnie wśród najlepszych wyników) w ujeciu statystycznym na tak dużej populacji tez niewiele wnosi. No włąsnie to „tylko” robi różnicę. Zwrócę jeszcze uwagę że chętnych na świecie do zanegowania wyników nie brakuje, nie czytam jednak duzo o takich zastrzeżeniach w prasie zachodniej. Podstawowym zastrzezeniem jest raczej że PISA nie ocenia zdobytych wiadomości szkolnych a jedynie wycinek umiejętności uczniów.

      • Zaniżenie ilości najgorszych danych: nie wiem, jaki jest mechanizm, który do tego doprowadził. Jesteśmy na pierwszym miejscu! W danych z Polski nie ma ani jednej ankiety oddanej jako pusta i jest tylko jedna (na 4607), w której nie odpowiedziano na żadne z pytań. Jest to „najlepszy” pod tym względem wynik na świecie (prawie trzykrotnie lepszy od równie nieralnych wyników z Szanghaju, następnych w kolejności). Są to wyniki zupełnie nierealne.

        Różnice w rozkładzie z egzaminem gimnazjalnym pokazałem właśnie w celu wykazania różnic w trudności pytań. PISA używa pytań znacznie bardziej banalnych, niż (i tak żenująco prosty) egzamin gimnazjalny. A przez to, że jej metodologia faworyzuje wpływ liczby najgorszych odpowiedzi, mniejszą wagę przywiązując do prawego ogona rozkładu, pokazuje to, że ranking tak naprawde nie dotyczy żadnych „wyższych kompetencji” ani „umiejętności myślenia”, a mierzy wyłącznie poziom zupełnego analfabetyzmu i skrajnej głupoty.

        „Właśnie ‚tylko to’ robi różnicę”
        Znów nie jest to dyskusją z założeniami PISA, tylko ilustracją interpretacyjną tego, co okrzyknięto za ogromny sukces. Jesli ktoś uznaje, że człowiek odpowiadający poprawnie na aż 25 z 40 trywialnych pytań jest znacznie lepiej przygotowany do życia w społecześtwie przyszłości, społeczeństwie wiedzy i swiadczy to o jego wybitnej innowacyjności, w porównaniu z kimś, kto odpowiada na tylko (jeden robi różnicę!) 24 pytania z tych 40, to powinien cieszyć się z tych wyników i być dozgonnie wdzięczny ex-min. Hall za doprowadzenie do niego i wprowadzenie Polski do czołówki społeczeństw przyszłości.

        • Hm, zadania są banalne ale jak piszę nie o to chodzi. Nie można tego brać „wprost”, to znaczy załamywać rąk że obrażają one inteligencję absolwenta polskiej uczelni państwowej. Ich celem jest możliwość porównywania bardzo zróznicowanych grup a nie wyłapywania mistrzów dedukcji. I statystyczny uczeń odpowiadający na 25 z 40 banalnych pytań jest prymusem przy tym z 15…Ale jednak zgadzam się, ta znikoma ilość czy też brak prac bardzo złych prawdopodobnie daje pochlebne świadectwo „umiejętności” naszych dorosłych organizatorów. Z tym że nie jesteśmy osamotnieni. Nie wiem jak to wyglądało od strony organizacyjnej. Przecież po prostu musiano jakoś zakładać możliwość tak elementarnych hm, uchybień. Choćby ze względu na to że dobre wyniki PISA od początku są bardzo pożądane przez politykó na prawie całym świecie. W Niemczech dyskusja zawsze jest bardzo żywa a po słabych pierwszych wynikach z roku 2000 zapanowała panika. Wysyłano delegacje do Skandynawii dla zbierania doświadczeń co pamiętają do dzisiaj. Teraz Bild choćby od razu podał jakie grupy etniczne zaniżają wyniki niemieckie (Turcy i Arabowie) a jakie podwyższają (Polacy – miło czytać – i Rosjanie). Jakiś portal Zjednoczonych Emiratów cieszył się że ich uczniowie są w szkole jednymi z najszczęśliwszych na świecie bo i to mierzono…

        • Nie w załamywaniu rąk nad obrazą inteligencji ludziej rzecz, tylko w tym, że badanie posługujące się pytaniami na jakimś poziomie mierzy umiejętności na poziomie tych pytań: czyli jest w stanie rozróżnić pomiędzy zupełnym analfabetą, a kimś, kto ledwo duka. Ale posługując się pytaniami na tym poziomie nie sposób rozróżnić nawet pomiędzy ćwierćinteligentem a półinteligentem. Te zróżnicowane grupy są porównywane wyłącznie pod kątem odsetka analfebetów.
          Użycie pytań na tym poziomie powoduje, że jakiekolwiek umiejętności przewyższające najprostszą umiejętność czytania w ogóle nie sa badane i nie mają wpływu na wynik ostatecznej punktacji.

          „statystyczny uczeń odpowiadający na 25 z 40 banalnych pytań jest prymusem przy tym z 15 ”
          Tak, właśnie o tym piszę. Ćwierćinteligent jest prymusem przy analfabecie. To właśnie mierzy PISA. I z tego powodu rząd i media wpadają w zachwyt. Bada poziom skrajnego analfabetyzmu, a nie dumnie głoszone „zdolności do rozumowania”. A raczej badałoby ten poziom analfabetyzmu, gdyby w wielu krajach (w tym Polsce) nie manipulowano danymi, usuwając ankiety wypełnione przez analfabetów.

          • Być może kwestia braku najgorszych wyników jest efektem tłumaczenia instrukcji. Jeśli instrukcja lub prowadzący badanie w jakiś sposób sugerowaliby że koniecznie trzeba cokolwiek podać to nawet statystycznie można trafić z wyborem dobrej odpowiedzi. Ordynarne fałszowanie wyników nie bardzo mi się mieści w głowie. Inna sprawa: wyniki z każdym badaniem są coraz lepsze. Ten trend też jest wyraźny.Ja znam zastrzeżenia nauczycieli: w szkole żony nikt nie rozumie tych wyników, no ale coś ten postęp obiektywnie powoduje. Choćby miało to oznaczać że coraz mniej jest analfabetów a coraz więcej ćwierćinteligentów. Trudno zakładać że po prostu coraz sprawniej oszukujemy.

          • Nie wnikam w mechanizm manipulacji, nie szukam odpowiedzialnych, ani nie pytam „kto za tym stoi”. Nie oskarżam nikogo, nie szukam usprawiedliwień ani wytłumaczeń.
            Po prostu zauważam nierealistycznie niski poziom bardzo złych odpowiedzi. Dane wejściowe są absurdalne, więc wnioskowanie z nich prowadzi do błędnych wyników niezależnie od przyczyn zafałszowania danych wejściowych. Działa tu zasada przetwarzania danych SISO (Shit-In — Shit-Out). Jeśli ktoś woli metaforę szmoncesową, to moja nauczycielka metodologii eksperymentalnej mawiała studentom, że nie ma takiej siły, żeby z trefnych danych upichcić koszerny wynik. Stwierdzam trefność danych, a nie szukam, kto wlał mleko do potrawki z kurczaka. Poziom błędu, wprowadzanego przez brakujące bardzo złe zadania starałem się oszacować i przedstawiłem w swojej analizie. Potrawkę trzeba wyrzucić, a garnek po niej wyparzyć wrzątkiem.
            Tak samo nie wnikałem w to, czy wyniki wyborcze Frontu Jedności Narodu w latach 1970′ na poziomie 99.6% były wynikiem fałszerstw na poziomie lokalnych, czy centralnej komisji wyborczej. Po prostu tamte wyniki były równie trefne, jak dziś wyniki PISA.

            Swoją drogą – w latach 1970′ Polska miała lepszy odsetek niegłosujących na FJN, niż Czechosłowacja w swoich wyborach. Dziś mamy mniej bardzo złych prac PISA, niż Czesi…
            Wyniki wyborcze PZPR też poprawiały się z wyborów na wybory.

            Zapytaj żony: niech oszacuje, jaki odsetek uczniów oddaje na klasówkach pustą kartkę. Czy to taka rzadkość, żeby nie trafił się ani jeden taki wśród 4706? Ani jeden taki olewacz w 150 klasach gimnazjalnych?
            A w PISA mają jeszcze mniejszą motywację, niż na klasówce — za PISA nie grozi im nawet zły stopień.

            Dane PISA rozróżniają pomiędzy „brak odpowiedzi” a „zła odpowiedź”. Jest całkiem sporo prac, w których na większość pytań mamy „brak odpowiedzi”, a uczeń jakkolwiek odpowiada tylko na kilka z nich. Mimo znacznej liczby prac (zaraz policzę ile ich jest) z tylko kilkoma odpowiedziami, mamy tylko jedną pracę w całej Polsce, gdzie ani jedna odpowiedź nie jest podana poprawnie.

            W danych PISA dla Polski mamy 11 uczniów, którzy w ogóle udzielili odpowiedzi na tylko jedno z pytań (to też nierealistycznie niska liczba) i żadnego, który nie odpowiedział na żadne z pytań.
            Wśród nich jest tylko jeden, który nie odpowiedział poprawnie na to jedyne pytanie, na które w ogóle odpowiadał jakkolwiek. Wśród tych, którzy udzielili odpowiedzi na więcej pytań, już nie ma ani jednego, który nie odpowiedziałby dobrze na żadne.
            Pytania są po części otwarte, albo do wyboru z 4 możliwych, ale nie mam możliwości sprawdzić, o jakie chodziło w tych 11 przypadkach.

  2. Zobaczcie jeszcze jeden wykres: porównanie odsetka poprawnych odpowiedzi na pytania PISA w gimazjach publicznych i niepublicznych.

    obrazek w treści wpisu — niestety nie można włożyć w komentarzu ;(

    Oczywiście, nie jest to dowód, że szkoły prywatne uczą lepiej od państwowych. Równie dobrze może to być (a zapewne jest) efekt „cherry picking”.

    Proszę jednak popatrzeć na ten wykres i zastanowić się, czy sądzicie, że:
    1. PISA mierzy jakość edukacji, a szkoły prywatne są o klasę lepsze od państwowych?
    2. jest to efekt „cherry picking”, a PISA nie mierzy „jakości edukacji”, tylko jakieś umiejętności/cechy uczniów, wynikające z zupełnie niezależnych od szkoły przyczyn — ich odziedziczonego z domu kapitału kulturowego?

    Ale w jedno i drugie (że PISA jest obiektywnym miernikiem jakości systemu edukacji i że edukacja państwowa nie ustępuje prywatnej) jednocześnie wierzyć nie można…

  3. W sprawie PISA jestem totalnym ignorantem, więc poproszę o dokształcenie mnie:
    1. Jaki zakres wiedzy szkolnej badały te testy ? Czy tylko matematykę, czy także inne „przedmioty” ?
    2. Jaki są cele badań PISA ?
    3. Jakie wnioski płyną z wyników tych badań ?

    Martwi mnie jedno: telewizja trąbi o sukcesie polskiej oświaty, a my – zwykli rodzice – nic o tym nie wiemy. Nie rozumiemy na czym polega ten sukces i skąd się wziął – czy to jest sukces władz, nauczycieli czy naszych dzieci ? Na co przełoży się ten sukces, jakich profitów możemy się spodziewać ?

  4. Ksawery, Twoja analiza potwierdza moje przypuszczenia, które nasunęły mi się już po lekturze analiz brytyjskich komentatorów i częściowo potwierdzone w samych dokumentach PISA, mianowicie, że metody jakie PISA stosuje przy konstrukcji pakietów i ekstrapolacji wyników pozwalają na bardzo łatwe manipulowanie wynikami.

    Wydawało mi się, że na tych testach można polegać właśnie dlatego, że manipulowanie wynikami jest wykluczone lub niezwykle trudne. Okazuje się, że tak nie jest. Zważywszy, jak się okazuje, niezwykle silną obecność aspektu politycznego w PISA, nie ma się czemu dziwić.

    Żeby nie było wątpliwości, nie twierdzę, że polskie wyniki zostały zmanipulowane. Po pierwsze, wynik 518, przy średniej OECD 500, jest przyzwoitym wynikiem, ale nie jest to jakiś oszałamiający wynik, zważywszy, że błąd statystyczny może wynieść +/- 10 punktów, przy tak niejasnej metodologii jaką stosuje PISA. Po drugie, jeśli cały system gimnazjalny pracował przez 4 lata na poprawę tych wyników, to takie osiągnięcie jest realistyczne, nawet przy słabości systemu jako całości. Pytanie, czy takimi metodami da się osiągnąć więcej, niż przyzwoitą przeciętną? Osobiście wątpię.

    @ Kanada
    Pięciokrotnie większa liczba uczniów badanych w Kanadzie ma wytłumaczenie w tym, że Kanada jest federacją, gdzie edukacja jest w 100% w gestii rządów prowincjonalnych i główne prowincje (Ontario, Quebec, British Columbia, Alberta) uczestniczą w PISA jako osobne podmioty, każdy ze swoją próbką 5000 uczniów. Jako ciekawostka, Quebec wypadł o wiele wyżej, a Alberta o wiele niżej, niż średnia dla Kanady 518. Podobnie wygląda stuacja w USA, gdzie średnia dla USA wypadła poniżej przeciętnej OECD, ale gdyby policzyć osobno wyniki dla takich stanów jak Massachusetts czy Kalifornia (a jest to uzasadnione o tyle, że edukacja jest w gestii rządów stanowych), okazałoby się, że mają wyniki zbliżone do Tokyo i Szanghaju.

    • Kanada trochę przesadziła ;) Inne federacyjne kraje (z USA na czele) zadowoliły się pojedynczą reprezentacją. Podobnie Wielka Brytania, choć system szkolny Szkocji jest mocno różny od anglo-walijskiego. A Kanada jako jedyna na świecie ma reprezentację poczwórną… Australia i Emiraty Arabskie potrójne, a jeszcze kilka krajów podwójne: Belgia (Flandria i reszta), Hiszpania (Katalonia i reszta), ale i kraje o jednolitych systemach, jak Finlandia.

      Swoją drogą — z Quebec może być ciekawe. Zaraz sprawdzę, czy uda się to wyciągnąć z moich danych, ale warto byłoby popatrzeć na różnice pomiędzy uczniami z Quebec odpowiadającymi po francusku i po angielsku. Sjoberg podkreślał, że drobne różnice w tłumaczeniu zadań mogą prowadzić do znacznych różnic w punktacji PISA: pokazywał to na przykładzie Finlandii i znacznej różnicy pomiędzy uczniami wypełniającymi testy po fińsku i po szwedzku.

      – wykresy dla Quebec posyłam mailem.

  5. Przecież PISA to element działania instytucji bynajmniej nie edukacyjnej ani naukowej tylko OECD. Tej samej, która reklamuje (swoje!) badanie(nikt go nie widział!), z którego rzekomo ma wynikać absurdalna teza o niezależności efektów edukacji od liczby uczniów w klasie. Oczywiście chodzi o to by dać argumenty propagandowe tym, którzy chcą by w III świecie(a do niego ekspresowo zmierza Polska) oświata była przede wszystkim (dla państwa!) tania, tania i jeszcze raz tania!!! ;-)

    • Ja widziałem takie badanie, choć chyba nie to, bo to nie była PISA. Nie widziałem zresztą, żeby PISA się tym chwaliła, choć niejaki Hanushek, autor tych badań dot. USA jest obecnie związany z OECD, jak wszyscy. Hanushek przejrzał dane, z których wynikało, że w ciągu kilkudziesięciu lat wielkość klasy zmnmiejszyła się dwukrotnie, a wyniki uczniów w rozmaitych badaniach (to była metaanaliza danych) nieznacznie, ale wyraźnie się pogorszyły. W PISA natomiast, co łatwo sprawdzić, wielkość klasy koreluje z wynikami w sposób, którego należałoby oczekiwać. Co jednak wcale nie znaczy, że działa tu prostu związek przyczynowo-skutkowy, bo wyjaśnień da się sformułować wiele i wiele z nich potwierdzić obserwacją. Jednym z bardziej prawdopodobnych wyjaśnień jest oczywiści to, że mniejszymi klasami dysponują szkoły botasze, a do takich trafiają uczniowie z wyższego „kapitału”.

      Polskie niesczęście nie na tym polega, że chcemy szkoły taniej. Raczej chcemy szkoły po prostu głupiej, a rankingi pomagają w osiągnięciu tego celu i łatwo zastępują cele inaczej sformułowane. Zależy nam jescze w Polsce na maksymalizacji współczynnika skolaryzac i bardzo skutecznie go podnosimy organizując studia dla ćwierćinteligentów – co przy okazji rzeczywiście okazuje się w dodatku tanie.

      Trzeci świat już nas zresztą zaczyna uczyć pokory. Z różnych względów tam się często nie da inwestować w oświatę w tradycyjnym systemie, więc się oojawiają rozwiązania do niedawna dziwne. Np. kursy online, skoro one są online, to już niekoniecznie najbliższy ośrodek je prowadzi, ale np. Harvard, czy MIT.

  6. Kolejne uzupełnienie (dopisałem je też, wraz z wykresami, na końcu głownego wpisu — tu, w komentarzu nie można dołączać obrazków) — zachęcam do przewinięcia strony trochę w górę i przeczytania tam. Tu zamieszczam to uzupełnienie jeszcze raz, dla porządku dyskusji i ułatwienia komentowania.

    ===================

    Przyjrzyjmy się jeszcze raz wykresowi liczby uczniów w zależności od odsetka poprawnych odpowiedzi, jakie udzielili.

    Nie znamy zasad punktacji zadań, ale dla tego rozumowania nie są one specjalnie istotne — przyjmijmy dla prostoty, że ta punktacja jest po prostu 1 punkt za dobrą odpowiedź, 0 punktów za złą lub jej brak. Przyjmijmy też dla uproszczenia, żeby nie bawić się w procenty, że każdy uczeń odpowiadał na taką samą liczbę pytań: 40 (zakładam, że ankiety z bardzo niską liczbą pytań, jak 13, to efekt zniknięcia części zadań z publikowanego zbioru). Te upraszczające założenia nie mają wpływu na wynik tego rozumowania. Polscy uczniowie średnio odpowiedzieli na 60% pytań, czyli na 24 pytania. Szerokość tego rozkładu liczby odpowiedzi (RMS, $\sigma$, odchylenie standardowe z próby — jak wolicie to zwać) to 18%, czyli 7 pytań.

    PISA przekształca punkty za zadania w ostateczny wynik poprzez zaaplikowanie pewnych niejasnych poprawek, a następnie przez przesunięcie i rozciągnięcie skali tak, żeby średnia w badaniu 2000 wypadała na 500, a RMS na 100. Wynik rankingu Polski: 518 tak przeskalowanych punktów oznacza, że średnia wyniku polskich uczniów jest wyższa od ówczesnej średniej światowej o 0.18 (ok. 1/5) szerokości rozkładu wyników uczniowskich.
    W przeliczeniu na liczbę poprawnych odpowiedzi, odpowiada to sytuacji, że na całym świecie uczniowie średnio odpowiadali na 24 pytania z 40 im zadanych, a polscy odpowiadają na 25 — o mniej więcej jedno więcej. Tak jest dla matematyki, ale w pozostałych „konkurencjach” (czytanie i rozumowanie w naukach ścisłych) liczba pytań jest dwukrotnie niższa. Tu wspaniały polski wynik oznacza już, że średnio polski uczeń odpowiada na pół pytania więcej, niż średnia światowa.
    Zobaczmy, jak wyglądałoby to samo porównanie, gdyby wszystkim uczniom na całym świecie zaliczyć po jedną prawidłową odpowiedź więcej — teraz już Polska nie odstawałaby od przeciętnej.

    Nie zapominajmy też, że tę liczbę dobrych odpowiedzi w przeważającej części tworzą odpowiedzi na najtrywialniejsze pytania, na które (według publikowanych danych) odpowiada bez problemu 98% uczniów. Ten wynik średniej do rankingu tworzony jest właśnie przez to, czy na najłatwiejsze pytania odpowie 96% czy 98% uczniów. I ten obszar jest też ewidentnie zmanipulowany — przez zniknięcie pustych i większości bardzo złych ankiet, prowadzące do zupełnie nierealistycznej (ponad 98%) liczby poprawnych odpowiedzi na najłatwiejsze pytania. Dużo wyższy odsetek błednych odpowiedzi musiałby powstać choćby przez najzwyklejsze pomyłki w zakreślaniu na formularzu literki do wyboru przy właściwej odpowiedzi. Zniknięcie pustych i bardzo złych formularzy dotyczy danych z całego świata, jednak w Polsce to zafałszowanie jest silniejsze, niż gdzie indziej.

    Nie znamy wprawdzie treści zadań PISA, nie możemy więc ocenić stopnia ich trudności czy zaawansowania. Możemy natomiast z opublikowanych danych odtworzyć ich „trudność egzaminacyjną” — czyli zobaczyć, jaki odsetek uczniów sobie z nimi radzi. Jak widać te zadania są jeszcze bardziej banalne, niż egzamin gimnazjalny. Popatrzmy jeszcze raz na ten wykres rozkładu odsetka uczniów, w zależności od liczby pytań, na które odpowiedzieli. PISA jest bez porównania łatwiejsza! Gros polskich uczniów odpowiada poprawnie na około 30% pytań na egzaminie gimnazjalnym, ale na ponad 60% w teście PISA.

    Nawet przyjmując za dobrą monetę rzetelność badania, należy właściwie interpretować ten „niesamowity polski sukces” — oznacza on, że jeśli uczniom dajemy 40 pytań, w większości banalnych i skrajnie oczywistych, to na całym świecie w roku 2000 średnio uczniowie dawali 24 poprawne odpowiedzi, a w Polsce dziś dostajemy 25.

  7. I jeszcze jedno uzupełnienie (znów polecam czytanie w treści postu, to będzie widoczny istotny obrazek).

    Dziękuję Waldemarowi za inspirację do sprawdzenia rozbieżności w Quebec, które przy okazji doprowadziły do zauważenia faktu, że wśród francuskojęzycznych prac w Quebec odsetek bardzo złych był równie absurdalnie niski, jak w Polsce, ale wśród angielskojęzycznych prac z tej prowincji — już był normalny.
    Co z kolei, kazało mi się zastanowić w weberowskim stylu nad wpływem etyki protestanckiej — trop okazał się wprawdzie fałszywy (luterańscy Estończycy oszukują niemal tak samo jak katoliccy Polacy i muzułmańscy Turcy), ale dał porównanie, w których krajach występują takie absurdy — świadczące o silniejszej, niż gdzie indziej manipulacji danymi. Polska jest tu światowym liderem!

    ==============

    Chyba mamy wyjaśnienie fenomenu „sukcesu” Polski i Estonii. Popatrzcie na wykres (kliknięcie go powiększy) — zależność liczby bardzo złych odpowiedzi (to znaczy, takich formularzy, w których mniej niż 5% pytań — czyli najwyżej jedno — było poprawnie odpowiedziane) od kraju. Symbole krajów według prywatnej konwencji PISA, ale daje się domyśleć, że POL to Polska, EST – Estonia, a SWE – Szwecja.

    „Sukces” w tegorocznym badaniu odniosły właśnie Polska i Estonia — kraje, w których odsetek tak złych odpowiedzi był poniżej 0.1%. Wierzycie, że mniej, niż jeden uczeń na 1000 oddał pusta pracę albo nie odpowiedział na żadne z pytań? Średnia światowa takich najgorszych odpowiedzi to 0.6%. W krajach o dużej tradycji uczciwości, jak Szwecja — nawet troszkę więcej: 0.8%. Ale w Polsce to tylko 0.05% — 20 razy mniej, niż we Szwecji! I jest to też mniej więcej 20 razy mniej, niż w polskim egzaminie gimnazjalnym.

    Polska zdecydowanym światowym liderem w nieprzepuszczaniu złych prac do dalszego przetworzenia?

    Przypominam, że ostateczna punktacja PISA jest wyjątkowo wyczulona na odsetek bardzo słabych prac.
    Polecam rozważeniu kwestię uczciwości sprawdzających i prowadzących badanie.

    Moja protestancka z pochodzenia dusza czuje się zawiedziona, że luterańscy Estończycy oszukują tak samo jak Polacy…

    • Ksawery
      Jestem pod wielkim wrażeniem Twojej analizy. Niestety prawdopodobnie mało kto z decydentów się nią przejmie, a też mało kto zrozumie. Trzeba by chcieć.
      Ja ze swej strony bardzo dziękuję.
      Czy umiałbyś na mój własny użytek przybliżyć mi, jak to ew. „oszustwo” mogło wpłynąć na wynik ogólny? Gdyby dane olewaczy były takie jak na naszym egzaminie gimnazjalnym?
      Moje zastrzeżenia co do wszelkich badań uwzględniają właśnie pomyłki (zamierzone, bądź nie) już na etapie zbierania danych. W PISA dane są eksportowane chyba bezpośrednio do komputera, ale w innych badaniach wstukuje je człowiek, który może być omylny.
      Danusia

    • Niestety nie da się tego przeliczyć. Z co najmniej dwóch przyczyn.

      Po pierwsze, nie znamy punktacji zadań i dokładnych zasad późniejszych „poprawek” Wiemy tylko, że są dodatkowe punkty za płeć, biedę w rodzinie, bycie imigrantem, odpowiadanie w języku innym, niż używany w domu, Bóg wie, za co jeszcze.

      Po drugie, stopień zafałszowania moge ocenić tylko dla prac zupełnie złych (jak na wykresie: poniżej 5% poprawnych odpowiedzi). Podejrzane rozbieżności widać co najmniej do prac na poziomie 15-20%, a dalej nie sposób rozróżnić fałszerstwa od rzeczywistych różnic pomiędzy dziećmi z różnych krajów.
      Ale należy sądzić, że fałszerstwa sięgają w takim razie i dalej, że tym co sami dostali 30% też czasem dopisywano po jednej dobrej odpowiedzi. Ale stopnia powszechności tych fałszerstw nie sposób odtworzyć.

      Popatrz na ten problem z własnej intuicji: polski „fenomen” jest na takim poziomie, jakby każdemu uczniowi naciągnięto jedno (z czterdziestu) zadań z błednego na poprawne. Jeśli fałszerstwo ma polegać na usunięciu i wyłączeniu z analizy (jak nożem) jakiegoś odsetka najgorszych prac, to trzeba byłoby wyrzucić tylko około 1% prac. Zauważ, że prawie 10 razy tyle (419/4607) to prace, będące duplikatami innych, spośród których zbieżność styatystyczna i ściąganie to mniej, niż 100.

      W PISA dane też przechodzą przez ludzi: papierowe formularze, sprawdzają je egzaminatorzy. Dane można zafałszować na różnych poziomach: od nauczyciela, który usprawiedliwi nieobecność najgorszym uczniom i każe im tego dnia nie pokazywać się w szkole, przez dostawianie krzyżyków na ankietach, oddanych jako puste, dalej przez „życzliwe” sprawdzanie przez egzaminatorów, po machinacje centrali PISA, usuwające z analizy pytania, na które odpowiedzi rozłożyły się „niewygodnie”.

      Coś jednak chyba w tym jest, że dwa kraje, w których zniknęło najwięcej złych odpowiedzi — Polska i Estonia — zostały okrzyknięte wielkimi zwycięzcami i mocno awansowały w tym wyścigu o palmę najlepszej edukacji na świecie…

    • Danusiu, jednak daje się przeliczyć tę wymaganą skalę oszustwa, a przynajmniej z grubsza oszacować, tylko musiałem pomyśleć jaki model oszukiwania zastosować. No i, oczywiście, muszę mieć biegłość nie tylko w liczeniu regresji liniowej, ale i w procentach ;)

      Przyjmijmy model: usuwamy „jak nożem” jakiś odsetek najgorszych prac — nie poprawiamy ich, nie dopisujemy im punktów, po prostu wyrzucamy formularze na śmietnik — udajemy, że uczniowie nie przyszli na test.

      W tym układzie usunięcie każdego kolejnego 1% najgorszych prac podnosi średnią liczbę pytań, na jakie odpowiedzili uczniowie w tych tak przesianych ankietach. Nie jest to zależność stricte liniowa, ale w pierwszym przybliżeniu można ją tak potraktować, usunięcie 1% prac podnosi „wynik kraju” o ok. 0.45%.

      Polska ma tę średnią w danych PISA 63.9%, cały świat 61.0%, Niemcy 63.2%, Europa (te kraje, które mam) 61.6%.

      Czyli aby takim oszustwem (wyrzucaniem najgorszych prac do kosza) osiągnąć polski sukces, trzeba byłoby:
      – zakładając, że polscy uczniowie odpowiadają w rzeczywistości tak, jak średnia ogólnoswiatowa: wyrzucić 7% najgorszych prac;
      – że odpowiadają tak, jak Niemcy: wyrzucić 1.5% najgorszych prac;
      – że odpowiadają tak, jak średnia całej Europy: wyrzucić 6% najgorszych prac.

      Wystarczyłoby, żeby Polacy umieli pisać testy tak, jak Niemcy, a w co drugiej klasie klasie, mającej pisać test, najgorszy uczeń zamiast go pisać poszedł tego dnia na wagary i już mamy nasz wiekopomny sukces…

      Oczywiście — Niemcy też nie anioły i też oszukują…. Wystarczy więc, żeby w Niemczech na wagary poszedł najgorszy matoł z co drugiej klasy, a w Polsce z z każdej.

  8. Spróbuję się w przyszłym tygodniu dołożyć z analizą, która do tego doda dane z „metryczek” uczniów i szkół. Da się z tego wnioskować o „kapitale kulturowym” badanych uczniów (choć nie ma pewności, czy go się na pewno da stwierdzić, ponieważ wygląda na to, że ok. 10% rekordów bazy danych Ksawerego pochodzi z ekstrapolacji). Policzę korelacje. Z doświadczenia wszystkich innych badań wynika, że one się okażą najsilniejsze i że ranking PISA okaże się odtworzeniem rozmaicie ujmowanych rankingów zróżnicowania społecznego, a nie rankingiem szkół i ich efektywności.

    To i wiele innych istotnych rzeczy dałoby się powiedzieć o wynikach – już to zresztą dawno opisywaliśmy – gdyby danym PISA wierzyć. Są natomiast powody, by sądzić, że te dane na domiar złego są jeszcze kompletnie niewiarygodne. Analiza Ksawerego daje tu kilka silnych poszlak. Poza tym, że z danych usunięto najgorsze kwestionariusze (co jest zwykłym szwindlem), dość wyraźnie widać, że polscy uczniowie nie odpowiadali na całą grupę pytań w testach i że skądś pojawiły się (na ich miejsce?) dane, które powtarzają się dziwacznie. PISA tego nie potwierdza, ale „chodzą plotki”, że polskie testy przefiltrowano dopasowując je do polskiego programu – którego dobroczynne skutki z taką dumą podkreśla autorka, p. Minister Hall, i autor, prof. Marciniak. Skutkiem ich wspólej operacji (Marciniak jest członkiem komitetu ostatnich badań PISA) polskie dzieciaki opowiadały na prostsze zestawy niż np. szwedzkie. Za to pokskie wyniki sztucznie uzupełniani wynikami dzieci szwedzkich, które na te pytania odpowiadały. Mamy zatem do czynienia zarówno z ordynarnymi szwindlami, jak ze specyficznymi, a nieujawnionymi cechami metody.

    Mnie jednak najbardziej ciekawi nie tyle reakcja decydentów, o których wspomina Danusia, ale to, czy np. Jacek Strzemieczny, który w charakterze eksperta wystąpi za kilka dni na organizowanej u Prezydenta RP konferencji poświęconej konsumpcji polskich sukcesów edukacyjnych, zechce z analizy Ksawerego i wielu innych danych tu prezentowanych skorzystać.

    • Jacku, jeśli chciałbyś cokolwiek wykorzystać, to ja nie mam nic przeciwko. Jeśli chciałbyś, żebym przygotował Ci jakieś konkretne dane, wykresy, infografiki, związane z moją analizą, a tu nie zamieszczone, to powiedz tylko słowo…
      Oczywiście, jeśli da się je przeliczyć — Danusia nieszczęśliwie zapytała o coś, co da się ująć tylko jakościowo i jako trend, ale nie ubrać w konkretne uczciwie policzone liczby i wykresy.

      Ech… Jednak dało się odpowiedzieć w miarę precyzyjnie liczbowo i Danusi, tylko trzeba było chwilę pomyśleć…

  9. Myślę, że Ksawery trafnie zidentyfikował jako problematyczny niezwykle niski procent polskich uczniów na najniższym poziomie 1 i poniżej. (PISA w części matematycznej stosuje 6 poziomów, od 1 do 6, a w rzeczywistości 7 poziomów, gdyż uwzględnia też osobną kategorię odpowiedzi “poniżej poziomu 1”).

    Według PISA, Polska znalazła się w ścisłej czołówce światowej krajów o najniższym procencie uczniów znajdujących się na najniższym poziomie 1 i poniżej tego poziomu, dokładnie na 14 pozycji. Polskę wyprzedziła pod względem niskiej ilości najsłabszych uczniów tylko czołówka ze wschodniej Azji, Finlandia, Estonia, Holandia i Kanada i to bardzo nieznacznie. Dla porównania, w badaniach z 2009 roku Polska była pod tym względem na 20 pozycji. Być może ten sukces da się jakoś wytłumaczyć inaczej niż tylko przez ekstrapolację wyników?

    • Śmiem podejrzewać, że to niekoniecznie musiało być „poprawianie” złych prac, ale może po prostu ich eliminacja — zamiast w zbiorze danych do dalszej analizy wylądowały w koszu na śmieci.

  10. Xawery, dziękuję za odpowiedź wskazującą źródło prawdy.
    Zaintrygował mnie ten fragment: „czytanie i rozumowanie w naukach humanistycznych (reading literacy), matematyka (mathematical literacy) oraz rozumowanie w naukach przyrodniczych (scientific literacy). Te trzy dziedziny uważa się za decydujące o możliwościach dalszego rozwoju, zarówno indywidualnego jak i społecznego i gospodarczego.”
    Nasuwają mi się dwa określenia: mistyfikacja i arogancja. Nic nowego – historia naszej cywilizacji jest przepełniona takimi zjawiskami, działaniami opartymi ma mitach, przekonaniach i złudzeniach elit rządzących. Znamienne jest w przytoczonym tekście następujące sformułowanie: „uważa się”.
    Kto uważa ? Na jakiej podstawie ? Z jakim stopniem pewności ? Czy istnieją inne poglądy na ten temat – również na zasadzie „uważa się” ?
    Jest mi wstyd, że coś takiego firmuje IFiS PAN.

    Poniżej cytat, w którym można zastąpić EWD przez PISA.
    „Mamy do czynienia w przypadku szkoły z inwazją systemów oceniania powtarzalnych procesów.
    Sztandarowy wręcz system EWD jest systemem oceniania produkcji masowej dostosowanym do potrzeb oświaty.
    Nic to, że każde dziecko jest inne i że zmienia się w czasie trwania kolejnych lat szkolnych. System zakłada, że uczeń jest produktem masowym wytwarzanym według tych samych sztanc kolejnych stanowisk obróbczych.
    Dodatkowo zakłada, że i te sztance są jednakowe.
    I że półfabrykaty są dostarczane w tej samej jakości.
    Zabrnęliśmy w jakiś zaułek.”
    I jeszcze prościej:
    „Zamiast wydawać olbrzymie pieniądze na mierzenie jakości pracy szkoły, co jest fikcją i wcale nie daje obrazu funkcjonowania szkoły, a wręcz przeciwnie, totalnie zaburza proces dydaktyczny ( nauczyciele zamiast uczyć produkują na potęgę dokumentację itp) z korzyścią byłoby doposażenie szkół.”
    Źródło: http://chetkowski.blog.polityka.pl/2014/01/05/nadzor-w-stylu-bizantyjskim/#comments

    Wydaje mi się, że władze oświatowe i niektórzy eksperci oddalają się coraz bardziej od rzeczywistości – nie tylko szkolnej. To jest zjawisko stare świat. Przykład ciągle świeży: organizacja zwana Peerelem. Przykład najświeższy: czołowi biskupi.

  11. @ Ksawery
    Czy mógłbyś podać źródła liczbowe (np. w postaci tabeli) do Twojego ostatniego wykresu odpowiedzi poprawnych poniżej 5%?

    Twoje porównanie rozkładu egzaminu gimnazjalnego z PISA jest ciekawe i wiele mówiące, boję się jednak, że nie nadaje się jako argument naukowy, ponieważ zadania mogły być nieprównywalne.
    Natomiast gdyby ktoś zechciał spróbować zrobić test na naukowej próbce z zadaniami zbliżonymi do PISA, to takie porównanie miałoby sens i byłoby interesujące.

    • Właśnie o nieporównywalność zadań PISA i z egzaminu gimnazjalnego mi chodzi — że te z PISA są jeszcze dużo bardziej banalne…

      Źródła wykresu odsetka złych prac: wyliczyłem te dane sam, korzystając z „surowych” danych PISA. Po prostu w każdej pracy policzyłem ile było poprawnych odpowiedzi, podliczyłem liczbę prac z mniej niż 5% poprawnych odpowiedzi w poszczególnych krajach i podzieliłem przez całkowitą liczbę prac w danym kraju. Root takie proste podsumowania dla tych ćwierci miliona prac liczy w kilkanaście sekund i potrafi nie tylko zrobić wykres, ale i wydrukować tabelkę ;) Proszę bardzo:
      Odsetek prac zawierających mniej niż 5% poprawnych odpowiedzi
      ARE: 0.973 %; AUS: 0.514 %; AUT: 0.169 %; BEL: 0.378 %;
      BGR: 0.492 %; BRA: 2.925 %; CAN: 0.243 %; CHL: 0.941 %;
      COL: 4.873 %; CZE: 0.075 %; DEU: 0.201 %; DNK: 0.604 %;
      ESP: 0.258 %; EST: 0.084 %; FIN: 0.296 %; FRA: 0.636 %;
      GBR: 0.503 %; HKG: 0.288 %; HRV: 0.200 %; HUN: 0.126 %;
      IRL: 0.260 %; ISR: 1.074 %; ITA: 0.332 %; JPN: 0.143 %;
      KOR: 0.119 %; MAC: 0.113 %; MNE: 0.890 %; MYS: 0.424 %;
      NLD: 0.067 %; NOR: 0.475 %; POL: 0.022 %; PRT: 0.300 %;
      QCN: 0.058 %; RUS: 0.441 %; SGP: 0.415 %; SRB: 0.675 %;
      SVK: 0.473 %; SVN: 0.238 %; SWE: 0.747 %; TAP: 0.166 %;
      TUR: 0.062 %; URY: 3.455 %; USA: 0.182 %;
      All: 0.620 %

      W Polsce, te jej 0.022% to dokładnie JEDNA taka praca na 4607.

      Skrótów nazw krajów, jakich używa PISA można się domyśleć, albo doczytać z opisu http://pisa2012.acer.edu.au/downloads/M_cogn_codebook.pdf

  12. Jeszcze jedna ciekawostka: w zbiorze „surowych” danych z całego świata są dane z tylko 43 krajów. A w PISA uczestniczy 65. Dane z pozostałych wyparowały.
    Zniknęły:
    Albania, Argentina, Costa Rica, Greece, Iceland, Indonesia, Ireland, Jordan, Kazakhstan, Latvia, Liechtenstein, Lithuania, Luxembourg, Mexico, New Zealand, Peru, Qatar, Romania, Switzerland, Thailand, Tunisia, Viet Nam.

    Swoją drogą: tęsknię za tymi danymi! Skąd PISA wytrzasnęła 5,000 próbę 15-latków w Lichtensteinie??? Jeśli jest ich tam 500, to i tak dużo. Na Islandii też chyba byłby kłopot z doliczeniem się 5000, a i w Luksemburgu chyba na styk by się tylu znalazło…

  13. To, co zrobiłeś to jest też jakaś wartościowa informacja. Ja z kolei znalazłem w raporcie rezulatatów “Key Findings Volume 1 (oficjalny raport wyników po angielsku) tabelę dystrybucji ilu uczniów (w %) znalazło na każdym z poziomów trudności: poniżej poziomu 1, i poziomy 1 do 6. Jest to o tyle istotna tabela, że klasyfikuje zadania według poziomu trudności i oblicza % uczniów dla każdego poziomu, a także PISA robi w tym samym formacie dla wszystkich testów od roku 2000, więc łatwo jest porównać trend. Polska systematycznie redukowała % uczniów najsłabszych sklasyfikowanych na poziomie 1 i poniżej (dokładnie PISA używa przedziału “poniżej poziomu 2”) a w ostatnich badaniach weszła do ścisłej czołówki.

    Czyli teza taka sama jak z Twojej analizy, tylko Twoje wyniki nie pokrywają się z PISA dla wszystkich krajów, np. u Ciebie wysoko też stoi CZE i TUR, a nisko z kolei Finlandia. Według PISA, kolejność według krótkiego lewego ogona jest taka: Azja, Finlandia, Holandia, Polska, Dania (przy czym różnica od Finlandii do Danii nie jest duża).
    Polska poprawiła się też na najwyższych dwóch poziomach (poziom 5 i poziom 6), co znaczy, że wysoka lokata nie zależy wyłącznie od lewego ogona, ale zgadzam się z Tobą, że po prawej stronie trudno jest manipulować i trudno coś udowodnić, a na dodatek masz rację, że lewy ogonjest faworyzowany przez PISA.

    • Ja w tej tabeli i wykresie postawiłem odcięcie na 5% poprawnych odpowiedzi, ponieważ chodziło mi o wyłapanie nadużyć z manipulacją danych (czyli postawiłem próg na nierealnym do osiągnięcia w naturalny sposób poziomie).

      PISA definiując próg poziomu 1. pewnie stawia to odcięcie znacznie wyżej. PISA liczy to też nie w liczbie poprawnych odpowiedzi, ale w uzyskanych punktach — ale nie znam punktacji poszczególnych zadań, więc tego nie mogę powtórzyć.

      Gdybym postawił próg trochę wyżej, np. na 20% odpowiedzi, to czołówka byłaby: Szanghaj (QCN), Estonia, Polska, Czechy. A przy progu na 10%: Szanghaj, Polska, Estonia, Holandia, Korea, Macao.

      Moja tabela z oczywistych powodów nie obejmuje też tych 22 krajów, których wyniki nie zostały zamieszczone.

      Ale, o ile dla progu 5% bardzo niskie odsetki złych prac świadczą o ewidentnej manipulacji, o tyle przy odcięciu 20% już trudno odróżnić manipulację od rzeczywistego wyniku.

      • Różnica jeszcze polega na tym, że PISA ma różne zadania zaklasyfikowane do różnych poziomów trudności (od 1 do 6), i to według tych poziomów klasyfikuje ilu uczniów załapało się na dany poziom. U Ciebie nie ma zróżnicowania zadań wedlug trudności, tylko ilość zadań, ale to też jest jest jakiś wskaźnik, tylko inny.

      • Właśnie. Niestety PISA nie ujawniła klasyfikacji zadań według poziomów ani liczby punktów, jakie za nie przyznaje — stąd mogę wyłącznie posługiwać się uproszczeniem: jedno pytanie — jeden punkt. Mógłbym ewentualnie kombinować z przyznaniem więcej punktów za te zadania, które rozwiązało niewielu uczniów, ale przyjęcie jakiejkolwiek konkretnej zależności punktacji od „trudności egzaminacyjnej” to byłaby czysta zgadywanka, wcale nie bliższa rankingowi PISA niż najprostsze „punkt za zadanie”.

  14. A oto dokładna klasyfikacja PISA, według najmniejszej ilości uczniów uczniw najsabszych (poniżej poziomu 2), źródło raport PISA po angielsku:

    Shanghai-China
    Singapore
    Korea
    Hong Kong-China
    Japan
    Switzerland
    Macao-China
    Chinese Taipei
    Liechtenstein
    Estonia
    Finland
    Netherlands
    Canada
    Poland
    Denmark
    Iceland
    Germany
    Belgium
    Viet Nam
    Ireland
    Latvia
    Czech Republic
    Austria
    Norway
    Australia
    Slovenia
    New Zealand
    OECD average
    United Kingdom
    Russian Federation
    France

  15. Xawery, Waldemar, Paweł – jestem pełen uznania i podziwu dla waszej dociekliwości i kompetencji.
    Zwykli rodzice, zatem i ja, nie przeczytamy Waszych analiz. Natomiast powinniśmy wiedzieć o co w tych badaniach chodzi, jaki jest ich sens i pożytek.
    Ze strony mediów i władców oświatowych płyną do obywateli sygnały, że te badania mają charakter strategiczny, że ich wyniki dobrze odzwierciedlają skuteczność edukacji. Badania PISA badają szkoły właściwie kształtują „możliwości dalszego rozwoju, zarówno indywidualnego jak i społecznego i gospodarczego.” My, zwykli rodzice i obywatele mamy w to uwierzyć. Role są ustalone odgórnie: aktywni stwórcy i wykonawcy badań + bierne przedmioty badań, czyli uczniowie + bierni adresaci: rodzice i obywatele. Myślę taki sposób myślenia, działania i komunikacji dobrze pasuje do określenia „arogancja władzy”.
    My, rodzice otrzymaliśmy taki sygnał od władz, mediów i polityków: polska szkoła jest bardzo dobra, jej kreatorzy widzą co robią i robią to dobrze, edukacja zmierza w dobrym kierunku. Starajcie się, aby wasze dzieci uczyły się jak najlepiej z wszystkich przedmiotów, żeby osiągały jak najlepsze wyniki – to da każdemu dziecku i nam wszystkim największe szanse na sukces indywidualny i zbiorowy. Ilu rodziców w to wierzy ? Boję się, że bardzo wielu.

    Panowie, z Waszych analiz i rozmów wyciągam następujące wnioski (czy słuszne ?):
    - każde badanie edukacji, jak i innych zjawisk społecznych, jest oparte na jakiejś ideologii. Nie istnieje „jedna słuszna ideologia” w naukach społecznych
    - badania PISA to tylko badania, nie trzeba przed nimi padać na kolana
    - testy PISA badają tylko to co badają, więc ich wyniki wymagają wszechstronnej analizy i interpretacji
    - to są badania zjawisk społecznych, a nie fizyko-chemicznych, więc są i muszą być obarczone błędami
    - badania PISA są (mogą być) maksymalnie obiektywne
    - nie istnieje coś takiego jak „obiektywna interpretacja” w badaniach społecznych (jedynie słuszna)

    Na czym polega sukces ostatnich wyników badań PISA ?
    Czyj to był sukces ?
    Czy to jest na pewno sukces ? Czy „sukces zbiorowy” jest zjawiskiem mierzalnym, czy raczej pojęciem ideologicznym = subiektywną interpretacją obiektywnych wyników ?
    Premier Tusk ogłosił sukces PISA w taki sposób: polska szkoła nie potrzebuje rewolucyjnych zmian. No to przynajmniej wiem, na którą partię nie warto głosować.
    _____________________

    Znów namarudziłem, więc zakończę pozytywnym postulatem: zróbmy badani PISA wyłącznie w grupie uczniów, którzy nie pobierają korepetycji z matematyki.

    • To, że „zwykli rodzice” nie czytają żadnych analiz jest, oczywiście, równie prawdziwą obserwacją, co warte jest ubolewania.

      Nie rozumiem tylko, dlaczego to ich lenistwo intelektualne i dobrowolnie przyjętą bierną postawę, nazywasz „arogancją władzy”. To nie jest żadna „arogancja władzy” tylko bezmyślność i lenistwo intelektualne ludzi, którzy sami zdecydowali, że jedynem źródłem ich wiedzy i opinii o świecie będzie papka serwowana przez telewizor. Ktoś, kto mając możliwość czytania różnych źródeł, sam wybiera ten rodzaj pokarmu intelektualnego nie powinien skarżyć się, że jest on ciapowaty, obrzydliwy i mu nie smakuje. Jeśli nie odpowiada Ci bełkot polityków, to spróbuj wyłączyć telewizor i zacznij czytać niezależne analizy — może bardziej trafią w Twoje gusta. Władza wykorzystuje propagandowo PISA, ale w takim już świecie żyjemy, że władza każde wydarzenie musi „objaśnić” tak, żeby zyskać punkty wyborcze. Dziś władza zapomniała juz o PISA i teraz tematem jest chemiczne kastrowanie pijanych kierowców. Nie jest to jakaś specjalna „arogancja” władzy, tylko powszechna w demokracjach (aczkolwiek budząca obrzydzenie) demagogia polityków, ciułających punkty poparcia wyborczego, połączona z brakiem potrzeb krytyczno-poznawczych i lenistwem intelektualnym większości ludzi.

      Sądzę, że lepszym niż ja adresatem Twoich uwag byliby właśnie „zwykli rodzice”. Jeśli uważasz, że takie analizy są potrzebne i warte zaznajomienia się z nimi, to czytaj je sam i przekonuj innych „zwykłych rodziców”, żeby też je czytali, myśleli samodzielnie i w ogóle czytali coś innego, niż gazetkę z programem telewizyjnym.

      Nie jest ani moją winą, ani moją sprawą to, że komuś („zwykłym rodzicom”) nie chce się czytać analiz takich, jak moja. Piszę je dla tych Czytelników, którzy są nimi zainteresowani i chcą je przeczytać, a jeszcze lepiej, jeśli zechcą z tezami zawartymi w tej analizie podjąć merytoryczną dyskusję. W pełni świadomym będąc, że takie rzeczy interesują znikomą mniejszość. Cieszyłbym się, żebyś i Ty się do tej klasy zaliczał, ale jeśli „zwykli rodzice, zatem i ja, nie przeczytamy Waszych analiz”, to, doceniając w pełni Twoją bolesną szczerość wyznania, że nie będziesz czytał analiz takich, jak moja, nie mam zamiaru Cię do tego czytania zmuszać ani naciskać. Daję Tobie i innym „zwykłym rodzicom” okazję do przeczytania, a sprawą Waszego wolnego wyboru, a nie czyjejkolwiek ingerencji ani arogancji (ani mojej ani władzy) jest to, czy zdecydujecie się z tej (darmowej!) okazji skorzystać. Żyjemy w czasach internetu, braku cenzury, faktycznej wolności słowa i publikacji, a także darmowego dostępu do dużej części publikacji — teksty analiz, również dużo poważniejszych, niż moja, np. Sveina Sjøberga (http://folk.uio.no/sveinsj/Sjoberg-PISA-book-2007.pdf — analiza założeń i metodologii PISA, spisana po badaniu 2006 — wiele się nie zmieniło), a także dokumenty, publikowane przez PISA i jej krajowych partnerów (IFiS PAN w Polsce) są dostępne na kliknięcie. Każdy, kto tylko chce, może przeczytać. Nie ma przeszkód. Wystarczy tylko chcieć. Ale trzeba aż chcieć. I aż kliknąć. A jeśli komuś się nie chce, to niech nie zwala odpowiedzialności za własna decyzję o nieczytaniu na innych. Volenti non fit injuria. Za skutki swoich swobodnych decyzji i zaniechań — również czytelniczych — odpowiadasz wyłącznie Ty sam.

      Niestety w naszym świecie działa prawo Lema: nikt nic nie czyta, jeśli nawet przeczyta, to nie rozumie, a jeśli już któryś zrozumie, to i tak go to nic nie obchodzi. Nie ma we mnie misji zmieniania powszechnej mentalności. Będąc liberałem uznaję w całej rozciągłości ludzkie prawo do nieczytania rzeczy, również tych, które ja uważam za wartościowe, a tym bardziej do nieczytania moich wypocin.
      Moje analizy są adresowane do tych nielicznych ludzi, którzy nie poddają się prawu Lema, a interesuje ich treść tego, o czym piszę do tego stopnia, że przełamią swoje lenistwo czytelnicze, przeczytają, zrozumieją i sami wyciągają z tego wnioski z tego, co przeczytali, a najbardziej się cieszę, jeśli wytykają mi błędy, albo nie zgadają się z tym co piszę i podejmują polemikę. Jeśli kogoś moje teksty nie interesują i nie chce mu się ich czytać, to pozostaje mi jedynie wzruszyć ramionami: jego sprawa — nie będę się nikomu narzucał.

      Ostrzegam, że następny odcinek analizy będzie jeszcze bardziej „nie do przeczytania dla zwykłego rodzica” — będą całki, pochodne, logarytmy, a nawet funkcja t-Studenta. Właśnie usiłuję odtworzyć punktację zadań w modelu Rascha, przyjętym przez PISA do liczenia rankingów oraz przydziału zadań i uczniów do „poziomów zaawansowania”…

  16. Wiesław,
    Dociekliwość Ksawerego da się podziwiać nie od dzisiaj. Ja się tym razem nie wykazałem (poprawię się wkrótce) natomiast nie powoduje mną ciekawość (to umiarkowanie zajmujące rzeczy są jednak), co wkurzenie.

    Kiedyś przeczytałem o takim strategicznym planie MEN, że w roku 2013 75% Polaków w pewnym przedziale wiekowym ma mieć maturę. Nie mam skłonności Ksawerego do sprawdzania cudzych wyliczeń i na ogół ograniczam się do sprawdzania zawartości prac cytowanych w przypisach (nadużycia są tu niezwykle częste, kłopoty z czytaniem mają również utytułowani naukowcy, a częste są też przypadki zapętlających się wzajemnych cytowań, w których każda wyssana z palca bzdura ma szansę stać się uznanym faktem). Ale w tym przyoadku sprawdziłem, by natychmiast ustalić, że strategia MEN polegała na prostym obkiczeniu demograficznych skutków tego, co działo się w czasie, kiedy strategię pisano. To była prognoza, a nie zadanie do wykonania.

    Dane Ksawerego niestety nie dostarczają dowodów, ponieważ brakuje podstawowych informacji, o czym Ksawery pisał. Postaramy się te dane zdobyć. Wstępne obserwacje Ksawerego sugerują poważne manipulacje w danych. Wydaje mi się w tej sytuacji, że cenne byłoby zdobycie danych również z 2009 roku. Moja hipoteza byłaby taka, że wiadomo było wtedy, jakie skutki dla polskich wyników będzie miało usunięcie z polskich testów tej lub innej grupy pytań, co najpewniej zrobiono. Do tego dochodzą zabiegi o charakterze gierkowskich szwindli wyborczych.

    Badania nie są „tylko badaniami”. Są „aż badaniami” i kiedy się pojawiają, nie jest rozważnie wzruszać ramionami,bo wtedy łatwo popaść w religię smoleńską na przykład. Problem z PISA w tym, że specjalistyczna wiedza o PISA jest ukrywana przed opinią publiczną ORAZ przed nakowcami, a komentowana jest przez politycznych propagandystów oraz niestety niedouczonych dziennikarzy. W polskiej prasie jedynie A. Pezda w Wyborczej usiłowała przepytać krytycznie Marciniaka, ale i jej brakowało informacji i wiedzy, o co dokładnie pytać. Pozostali, jak Bendyk, wierzą w „twarde dane” i nie zadają pytań, osuwając się w bezmyślność.

    W Polityce na Bendyka pytanie, czy polska szkoła nauczyła dzieci rozwiązywania testów, zirytowany Jerzy Wiśniewski z MEN odpowiada, że bzdura (to słowo bije rekordy częstotliwości w ustach rzeczników PISA), że testy PISA sprawdzają myślenie i że nie mają niczego wspólnego z żadnym szkolnym programem i w ogóle czymś, czego szkoła może nauczyć. Nie przyszło Bendykowi do głowy zapytać o któreś z ujawnionych pytań, ale przede wszystkim, to wyjaśnienie Wiśniewskiego nie przeszkodziło mu pisać już kompletnie bezmyślnie w kolejnych akapitach, że to właśnie jednak szkoła odniosła ów sukces. Dzieje się źle – Polityka to inteligencki tygodnik opinii, a zasuwa nam prawdy dla ćwierćinteligentów i nikt nie reaguje.

    Owszem, trudno unikać ideowych czy aksjologicznych założeń przy tego rodzaju badaniach. Z najwyższym trudem da się w ogóle unikać wpływu hipotez, które powinny być sprawdzane w badaniu na konstrukcję samego badania. Ale to nie jest wada – pod warunkiem, że się te rzeczy ujawni, a PISA tego nie robi, zaś relacjonujący te dane propagandyści w Polsce albo bredzą z niewiedzy, albo ordynarnie kłamią. Z tej perspektywy patrząc, PISA nie są badaniami, a jedynie PR-owym narzędziem biurokratów i polityków. Takim samym skandalem jest wynajmowanie naukowców do takich przedsięwzięć, jak podpisywanie reklamy pasty do zębów tytułem stowarzyszenia stomatologów i opinią kogoś, kto stojąc w białym fartuchu przedstawia się jako ekspert. Tamci jednak robią pic, stowarzyszenie istnieje tylko na papierze. Naukowcy w PISA nie dość, że istnieją naprawdę i swoje tytuły sprzedają do PR-owych kampanii, to jeszcze skutkiem będą dalsze decyzje w kierunku już wytyczonym, a to bynajmniej nie są żarty. Nie tylko w Polsce – Australia np. Już rok temu ogłosiła, że czołwka PISA jest celem jej polityki oświatowej.

    • Umiarkowanie zajmujące?
      Nie…. Model Rascha (nigdy dotąd nie miałem z nim do czynienia) jest naprawdę fajny! Dałem mu się wkręcić na dobre. Nigdy nie wiadomo gdzie (nawet w szkole badanej przez PISA…) trafi się okazja, by nauczyć sie czegoś nowego. Bardzo fajny, klasyczny (czyli aprioryczno-dedukcyjny, a nie fenomenologiczny) model, wart poczytania, zrozumienia i przeliczenia samemu jakiegoś przykładu.
      Choćby tym przykładem były podmanipulowane i przesiane dane PISA.

      PISA i jej nadinterpretacje są wkurzające, prawda, wymagające weryfikacji i krytycznego osądu. Ale są w tym i ciekawe poznawczo rzeczy, choćby ten Georg Rasch i jego chitry pomysł na maksymalnie odsubiektywizowaną parametryzację takich zagadnień, jak „umiejętność”, „trudność”, etc.

      Porównania z 2009 w dalszej kolejności. PISA zapisała je w innym formacie, niż te z 2012, a przegryzienie się przez sposób kodowania danych to największy i najbardziej niewdzięczny kawałek pracy przy tej analizie. Szukanie, która kolumna danych im wypadła i przekodowywanie symboli ocen, różnych, dla różnych zadań…

  17. @ Wiesław
    Z Twoich wielu ważkich pytań pozwoliłem sobie wybrać dwa, żeby uniknąć rozwodzenia się o wszystkim i niczym:

    1. Na czym polega sukces ostatnich wyników badań PISA ?
    2. Czy to jest na pewno sukces?

    Odpowiedź na pytanie 1:
    Sukces PISA polega głównie na tym, że polski system edukacyjny wypadł dobrze w tym międzynarodowym rankingu na tle innych krajów świata. Na skali od 400 do 600 (średnia 500), Polska uzyskała 518 punktów, wyprzedzając większość krajów europejskich. Istotny jest też fakt, że dobry wynik jest poprawą wyniku z poprzednich badań a zatem kontynuacją zwyżkowego trendu.

    Generalnie, zaletą PISA jest to, że umożliwia porównanie systemów edukacji w różnych krajach i daje możliwość oceny, czy dany kraj mieści się w trendzie światowym, czy wypada z tego trendu i czy ma tendencję wzrostową, czy spadkowe na przestrzeni lat.

    Odpowiedź na pytanie 2:
    Według mojej oceny, jest to sukces względny.

    Po pierwsze, zdania są podzielone na temat, co właściwie mierzy PISA. Na pewno nie mierzy zdolności głębszego, twórczego myślenia. Jeśli mierzy zdolność myślenia, to raczej jest to zdolność elastycznego myślenia nastawionego na praktyczne zastosowania, czyli coś w rodzaju “uśrednionego” myślenia minimu do sukcesu na rynku pracy. Wynika stąd, że PISA jest testem średnim, ani trudnym, ani łatwym.

    Po drugie, oczywiście, że badania te mają aspekt, jeśli nie ideologiczny, to napewno ekonomiczno-polityczny. OECD, która organizuje PISA, nie jest organizacją niezależną. OECD jest utrzymywana i firmowana przez rządy krajów członkowskich, czyli krajów wysoko rozwiniętych i niektórych krajów rozwijających się. W kwestii edukacji, w tym PISA, ściera się w OECD globalna polityka oświatowa z polityką oświatową w poszczególnych krajach.

    Po trzecie, okazuje się też, że zdania są podzielone na temat obiektywności wyników PISA, zwłaszcza, że metoda konstrukcji pakietów zadań wysyłanych do różnych krajow nie jest jawna i wygląda na to, że poszczególne kraje nie otrzymują pakietów o tej samej trudności. Metoda przyznawania punktów poszczególnym krajom też nie jest nigdzie opublikowana, więc jest niejawna.

    Po czwarte, z danych opublikowanych przez PISA wynika, że Polska znalazła się w czołówce światowej krajów o najniższej liczbie uczniów najsłabszych (sklasyfikowanych poniżej poziomu 2, w skali poziomów 1 do 6). Ponieważ ten fakt ma znaczny wpływ na wysoką punktację Polski, analiza Ksawerego była głównie skierowana na przebadanie tych zagadkowych danych. (Mam nadzieję, że wiernie tu charakteryzuję działanie Ksawerego.) Realistycznie rzecz biorą, na zdrowy rozum, jeśli w danym kraju spada liczba uczniów najsłabszych, oznacza to, że część uczniów najsłabszych poprawiła wyniki i przeszła na wyższy poziom. Zwykle w skali całego kraju takie rzeczy nie zdarzają się same z siebie, ale są wynikiem intensywnych programów pomocy uczniom najsłabszym. Każdy nauczyciel wie, że skuteczna pomoc uczniom najsłabszym należy do najtrudniejszych i często najkosztowniejszych zadań szkoły. Być może takie programy w Polsce funkcjonują, tylko nie wszyscy o tym wiedzą. To by tumaczyło sukces polski w PISA.

  18. Na stronie PISA pojawił się obok dotychczas przeze mnie analizowanego pliku surowych danych „Cognitive item response data file” drugi: „Scored cognitive item response data file”, który wydaje się zawierać także trochę informacji, brakujących w tym pierwsyzm. Pewnie nie ja jeden zauważyłem, że w tym CIRDF brakuje mnóstwa rzeczy, które PISA zobowiązała się opublikować…

    Oczywiście, PISA musiała utrudnić, czyli zapisać oba pliki w trochę różnych formatach. Eeeechhhh… biorę się za odcyfrowywanie tego „scored…”

  19. Po ciężkich bojach udało mi się przeczytać ten „Scored cognitive item response data file”. Nawet pochwalę PISA, że jego dokumentacja jest trochę lepsza, niż dla pierwszego z opublikowanych plików danych.
    Nowy plik jest też trochę kompletniejszy: zawiera dane z uprzednio pominiętych krajów (znalazł się nawet mój ukochany Fürstentum Liechtenstein z aż 294 przebadanymi uczniami!), ale nadal brakuje części rekordów: jest ich tylko 485,490, podczas gdy według broszury PISA przebadano 510,000 uczniów. Mimo, że plik zawiera dane ze wszystkich krajów, nadal brakuje ok. 5% rekordów.

    Wydaje się, że te nowoopublikowane dane w zasadzie pokrywają się z poprzednimi, choć sa odrobinę mniej szczegółowe: teraz zadania mają ocenę 2,1,0,NA — utożsamia pytania, na które w ogóle nie udzielono żadnej odpowiedzi z tymi, na które odpowiedziano błędnie. Zniknęło też trochę z mniej istotnych informacji uzupełniających.

    Z listy pytań zniknęły też te dziwacznie zdublowane „pytanie – original responses”.

    Moje wcześniejsze analizy pozostają w zasadzie bez zmian (drobne zmiany wykresów pochodzą od wyrzucenia tych zdublowanych pytań „original responses” i uwzględnienia w odniesieniu światowym większej liczby krajów.

    Wracam do babrania się w meritum badania, czyli próby odtworzenia punktacji w modelu Rascha…

  20. Ja nad tymi danymi siedzę już jakiś czas i w ciągu paru dni opiszę wnioski. Są dość jednoznaczne, jeśli chodzi o przydatność wyników PISA w realnej ocenie szkoły i momentami interesujące. Jeśli chodzi o wiarygodność, to widzę rzeczy przedziwne. Jeśli do bazy PISA (nie zaimportowałem jej, a tylko ściągam przekroje z podanego przez PISA adresu) zażyczysz sobie wyników np. polskich uczniów, których matki mają wyższe wykształcenie, to otrzymujesz niecałkowitą liczbę uczniów. Albo jeśli ta grupa jest nieliczna i obejmuje np. 15 osób, to wtedy nie zobaczysz ich wyników. Oba te fakty dodatkowo potwierdzają hipotezę, że baza danych PISA zawiera w rzeczywistości wcale nie surowe rekordy z kwestionariuszy, tylko dane po rozmaitych i bliżej nieznanych procedurach ekstrapolacji, normalizacji itd.

    Obrabiam te dane, pokazując po prostu ich rozmaite niekoherencje, a przede wszystkim tkwiący w nich fałsz tezy, że PISA mierzy szkołę. To są obserwacje zupełnie niezależne od wiarygodności samych danych. Za parę dni zaraportuję, natomiast już widzę, że jest fajnie :)

    • Tej ułamkowej liczby uczniów Ci bardzo zazdroszczę ;)
      U mnie się tak nie da — ja sam liczę pasujące do wzorca rekordy na palcach (znaczy się: zliczam ile ich jest) więc nie sposób, żebym dostał niecałkowitą liczbę…
      A czy da się w tym klikonarzędziu PISA uzyskać listę takich rekordów? Listę numerów identyfikacyjnych uczniów, których matki, etc? Bo trudno byłoby im chyba wyprodukować listę z niecałkowitą liczbą pozycji…

      • Nie – nie mam żadnych id uczniów. Widzę tylko wygenerowane przekroje. Obok tej „interactive database” jest równoległe narzędzie, które wysyła raporty mailem. Stamtąd możesz się np. dowiedzieć, ile szkolnych klas poniżej 15 uczniów przypada na miasta, a ile na wioski. Ten drugi serwis podaje liczbę uczniów, których dane oglądasz. I ona jest niecałkowita :)

        Ale ja pracuję zakładając, że dane są prawdziwe. Co powiesz na współczynnik korelacji dla Polski między wynikami uczniów, a wykształceniem rodziców. Wynosi 0,96, wyobrażasz sobie? Ciekawe jak często tak silne korelacje zdarzają się w przyrodzie. I co znaczy sukces polskiej szkoły w takim razie? Jeśli nawet uwierzymy, PISA mierzy cokolwiek związanego z wykształceniem, to okazuje się, że ono jest silnie dziedziczne i raczej polskie dzieciaki nie szkole je zawdzięczają. Dla Finlandii, która podobno skutecznie wyrównuje nierówności ten sam współczynnik wynosi 0,82, czyli też całkiem nieźle.

        Fajne, nie?
        :)

      • No nie, w to R=0.96 to trudno uwierzyć. Znam wystarczająco dużo gamoniowatych dzieci z „inteligenckich” (znaczy mających formalne wykształcenie) rodzin, żeby to uznać za mocno przesadzone.
        Nawet 0.82 wydaje się przesadzone… Intuicja podpowiada mi coś rzędu 0.6, może 0.7…

        Chociaż… Może to być i prawda. PISA wydaje się mierzyć wyłącznie skrajny analfabetyzm. A wśród rodzin mających choćby tylko formalne wyższe wykształcenie, dzieci zupełnie nie umiejące czytać raczej się nie zdarzają.
        To rzeczywiście może być efekt typu: „niepiśmienne cygańskie dzieci nigdy nie miewają rodziców z wyższym wykształceniem; /nigdy/ na poziomie R=0.96″.

        • Dosyć śmiesznie wygląda wykształcenie rodziców. W większości krajów (również w Kolumbii, Meksyku itd.) znacząco duże grupy rodziców (np. po 30%) ma najwyższe wykształcenie (w dziewięciostopniowej skali). Nie wiem, co dokładnie oznacza, bo PISA oznacza to jakimiś „robalami” i nawet nie wiem, czy one są gdziekolwiek wyjaśnione. O prawidłowość tej skali nie dbam, bo zakładam narrację na zasadzie „jeśli twierdzicie, że A, to na jakiej podstawie wyciągacię stąd wniosek, że nie A” – bo korelacja wyników z wykształceniem rodziców zestawiona z tezą, że PISA mierzy efektywność szkoły jest właśnie taką dość jawną sprzecznością. Gorzej jest jednak z porównaniami. Tu są jakieś niekompatybilności albo przekłamania w próbach – w każdym razie ranking krajów pod względem wykształcenia rodziców jest jakiś nieprawdziwy.

          Niezależnie od tego w każdym z krajów poza arabskimi wyniki dzieci bardzo silnie i bardzo jednoznacznie (niemal liniowo, jak w polskim przypadku) zależą od wykształcenia rodziców. Ciekawe, bo wyraźnie słabszy związek w krajach arabskich może być jakoś prawdziwy i może wynikać np. z faktu, że dzieci w Katarze mają słabsze związki z rodzicami. Ja nie wiem, czy to jest rzeczywiście fakt, ale może…

          • Wykształcenie rodziców to czynnik, jak widać, silnie decydujący o wynikach dzieci, natomiast PISA najwyraźniej nie uwzględnia go przy doborze próby. Dane są fragmentaryczne i wyglądają na zniekształcone, skoro 85% rodziców kanadyjskich ma najwyższe wykształcenie (cokolwiek ono dokładnie znaczy), podobnie jak 66% rodziców w Chile itd. Ja szukam takiego „czynnika socjometrycznego” który silnie wpływa na wynik PISA całego kraju. Przeciętne wykształcenie rodziców (choć korelacja mierzona bezpośrednio ma liniowy charakter) na wynik kraju wpływa nieoczekiwanie słabo – R=0,36. Ale już wpływ procenta uczniów z rodzicami najgorzej wykształconymi okazuje się silniejszy – R=0,42.

            Podobnie jest z zamożnością rodzin. Zależność jest znów niemal liniowa, natomiast porównania między krajami są trudne i wpływ średniej zamożności rodziny mierzony współczynnikiem korelacji daje 0,55, 0,59 i 0,62 dla matematyki, czytania i nauk przyrodniczych. Ale udział rodzin najuboższych koreluje już silniej – 0,69. Wpływ rodzin najbogatszych jest oczywiście słabszy. Natomiast różnica pomiędzy udziałem najbogatszych, a udziałem najuboższych okazuje się najlepszą miarą – korelacja z wynikami PISA na poziomie 0,75.

            Śmiesznie jest z wielkością szkolnej klasy, bo globalnie w skali PISA wyniki uczniów rosną wraz z wielkością klasy. To oczywiście dlatego, że klasy nieduże nie są wcale luksusem spotykanym w elitarnych szkołach prywatnych, tylko smutną codziennością środowisk wiejskich, gdzie takich małych klas jest ogromna większość. Wielkość klasy jest zatem pośrednią miarą „urbanizacji”, a ta sprzyja wyższym wynikom w PISA. Itd. Jeśli tym wynikom uwierzyć, całość danych niweczy oficjalnie wyciągane z nich wnioski, a przede wszystkim ten, że punkty PISA pokazują jakość szkoły. Przeciwnie – pokazują, że wyniki zależą wyłącznie od środowiskowych czynników, a szkoła okazuje się wobec nich czynnikiem do pominięcia.

            Może więc trzeba by było ją rzeczywiście pominąć? Nie, żebym namawiał do wagarowania, ale…

  21. Ach i jeszcze jedno. Porównanie podobnych przekrojów z poprzednich i ostatnich badań pokazuje rzecz najważniejszą i wyjaśnia zmianę wyników. Np. udział dzieci wiejskich (punktujących słabiej) obniża całość wyników. Średnia punktacja dzieci wiejskich nie zmienia się z badania na badanie, natomiast zmienia się ich liczebność w próbie. Takich informacji da się wynaleźć mnóstwo – a one dużo znaczą nawet jeśli uwierzyć, że dane PISA są prawdziwe.

  22. Znów zachęcam do przewinięcia w górę i przeczytania uzupełnionego tekstu wpisu — będzie obrazek, jak zwykle po kliknięciu powiększający się…

    ================================

    Zobaczcie, proszę, rozkład liczby poprawnych odpowiedzi uczniów z jednej szkoły, jednego kraju, całego świata. Wziąłem pierwszą lepszą polską szkołę (o identyfikatorze „POL-41″ — nie mam pojęcia, gdzie jest to gimnazjum, ale chyba nie jest najlepsze…) i narysowałem na czerwono, dane z Polski — na granatowo i dane z całego świata na błękitno.
    Obrazek pokazuje rozkład liczby uczniów, czyli jaki procent odpowiada poprawnie na ileś pytań: od 0 do 10%, od 10% do 20% itd.
    Zobaczcie, jak niewiele różnią się szerokości tych rozkładów, czyli jak niewiele silniejsze są różnice pomiędzy uczniami z całego świata w porównaniu ze zróżnicowaniem uczniów w jednej szkole. Miarą różnic w danej grupie jest $\sigma$ (inaczej RMS) — odpowiadająca mniej więcej takiej wartości, że 2/3 uczniów w danej grupie nie odstaje od średniej o więcej niż $\sigma$.
    Na całym świecie ta rozpiętość liczby poprawnych odpowiedzi wynosi 23.4%. Polscy uczniowie różnią się między sobą o 21.9%. Wyniki Polaków są między sobą podobni tylko o 1/15 bardziej, niż wyniki uczniów z różnych końców świata. Trochę tylko większą spójność mają wyniki uczniów z jednej szkoły. Ta (wybrana na chybił-trafił) szkoła ma rozpiętość wyników $\sigma=17.6$ To już jest zauważalnie bardziej spójna grupa, choć nadal różnice pomiędzy wynikami uczniów tej szkoły są dużo większe, niż różnica między polską średnią, a średnią światową.

    PS. Starałem się napisać to tak, żeby nawet „zwykły rodzic” zrozumiał. Całki będą dopiero następnym razem ;)

  23. @ Paweł
    A propos wpływu wielkości klas na wyniki: według PISA, mniej uczniów w klasie nie oznacza lepszych wyników.

    Ta sytuacja nie wynika stąd, że wiejskie klasy mają mniej uczniów i jednocześnie niski poziom, więc statystycznie zaniżają poziom dla małych klas. Jeśli ma to wpływ, to niewielki, zresztą nie jest to reguła, bo na wsiach niektóre klasy są bardzo liczne.

    Trend dla większych liczbowo klasom jest zawyżony przez czołówkę światową (Chiny, Singapur, Tajwan, Korea, Japonia). W Chinach regułą jest 50 uczniów w klasie. Zważywszy, że są na pierwszym miejscu w PISA, siłą rzeczy zniekształcają statystykę, a jednocześnie poddają w wątpliwość niby oczywistą teorię edukacyjną, że im mniej uczniów, tym lepiej.

    • Nie – dla Polski ta zależność jest dokładnie ta sama. Na świecie niemal 40% klas 15-osobowych i mniejszych znajduje się w wiejskich szkołach, w ośrodkach wielkomiejskich jest ich niewiele ponad 5%. W danych PISA oczywiście – trudno orzec, czy próbę dobierano tak, by była reprezentantywna pod tym względem. Nie sądzę, żeby tak było, bo tego się raczej nie da zrobić, żeby wszystkie tego typu przekroje pokazywały statystyczne reprezentacje dla każdego kraju. W każdym razie w danych PISA tak właśnie jest.

      Azjatyckie kraje tym się różnią od innych, że liczne klasy są tam normą i tym, że nawet skrajnie duża liczebność nie obniża wyników. Ale również w Polsce wyniki w PISA rosną wraz z liczebnością klasy. Chcesz, to Ci sprawdzę korelacje dla Polski i Kanady.

      • Interesujące byłoby zbadanie dla każdego kraju korelacji liczebności klas z wynikami, we wszystkich przedziałach liczebności, np.

        1. poniżej 15
        2. od 15 do 18
        3. od 18 do 21
        4. od 21 do 25
        5. od 25 do 35
        6. powyżej 35

        Prawdopodobnie wyszłoby, że każdy kraj ma swój optymalny przedział liczebności klas, który może sie różnić od innych krajów, ponieważ wyniki zależą od bardzo wielu czynników i niektóre z czynników mogą być też związane z liczebnością klas.

        W Kanadzie średnia liczebność klas jest ściśle regulowana, tzn. ilość uczniów podzielona przez ilość klas musi się mniej więcej zgadzać. W liceach jest to około 20-22, oprócz tego jest ustawowe maximum 35, którego klasy nie mogą przekroczyć.

        • Odstępstwa od rozkładu im liczniejsza klasa tym lepiej, owszem, zdarzają się w poszczególnych krajach, ale wydają się mieć „kulturowo-urbanizacyjny” charakter. W Albanii najgorzej wypadli uczniowie z klas o przedziale 21-25, ci z klas najmniej licznych wypadli lepiej, a najlepsi byli ci z klas od 31 do 35 uczniów. W Austrii uczniowie klas 16 – 20 byli lepsi od tych do 15, ale to dlatego, że w tamtejszych wioskach częściej się zdarzają jednak te liczniejsze klasy i jakaś większa część klas małych przypadła rzeczywiście na dobre szkoły (na ile da się sądzić po lokalizacji – nie mam dostępu do identyfikatorów szkół i nie jestem w stanie sprawdzić ich wyników). Azjatyckie kraje nie mają tego charakterystycznego dla całej reszty załamania wzrostu na końcu skali liczebności powyżej którego zaczyna się dramat przepełnionych klas w zatłoczonych dzielnicach.

          Jeszcze raz – nie wiem, jaki jest rzeczywiście rozkład klas i ich liczebności w różnych ośrodkach. W próbie PISA tak to wygląda.

          Oczywiście same te dane nie dają jeszcze kompletu dowodów (skoro np. wieś w Szwajcarii oznacza coś jednak nieco innego niż w Polsce) – trzeba by to było skrzyżować choćby z dochodem i wykształceniem – ale dość wyraźnie widać, że chodzi o kulturowe różnice środowisk, a nie o jakąś „jakość nauczania”.

          Twój pomysł optimum rozmiaru klasy byłby natomiast do przyjęcia, gdyby w ogóle założyć, że umiejętności punktowane w PISA są wynikiem szkolnej edukacji. Co nie wygląda prawdopodobnie w zderzeniu z danymi PISA. Wtedy w każdym razie optymalna byłaby prawdopobnie jednak wszędzie klasa mała.

          W Kanadzie maksymalne wyniki osiągają uczniowie z najliczniejszych klas. Najsłabsi nie są z tych najmniejszych, bo słabsi są od nich ci z przedziału 16-20. I to jest w Kanadzie jedyne odstępstwo od liniowej normy. W Polsce najliczniejsze klasy są najsłabsze – te najmniej liczne mieszczą się w środku skali, a potem wyniki rosną wraz z liczebnością.

          Generalnie uwarunkowania inne niż szkoła są tu tak wielkie, że gdyby chcieć zmierzyć jakiś wpływ liczebności klasy na tę ogólną intelektualną kondycję, którą PISA mierzy, to go raczej niesposób wyłuskać.

          • W Austrii wielkości klas są na pewno bardziej skorelowane z typami szkół niż z wielkością miasta, a dopiero pośrednio poprzez rodzaj szkoły z punktacją — tam nie ma jednolitych gimnazjów i edukacja rozchodzi się wcześniej. 15-latek może być w co najmniej trzech typach szkół. Licea (AHS) mają typowo mniejsze klasy niż technika — chyba możesz to sprawdzić, a pewnie i w większości zawodówek klasy są duże. 15-latkowie (poza zatwardziałymi drugo-, trzeciorocznymi) nie chodzą do małych wiejskich szkół — te powinni pokończyć wcześniej i jako 10- lub 14-latki pójść do szkół średnich. Korelacje „małe klasy — wiejska szkołą — gorsze wyniki” może by tam i występowały w TIMSS dla 3-klasy, ale nie złapie tego PISA z 15-latkami. Szkoły średnie i zawodowe dla 15-latków i tak są zlokalizowane w miatach (choć i kilkutysięcznych miasteczkach) a nie na wsiach i są to spore instytucje o kilku równoległych klasach, gdzie wielkość klasy pewnie nie koreluje z wielkością miasta.
            3-5 letnia szkoła winiarsko-ogrodnicza (3 jako zawodówka bez matury, 5 jako technikum z maturą) w maleńkim, trzytysięcznym, Gumpoldskirchen to największe gmaszysko (poza klasztorem…) w miasteczku z prawie 1000 uczniów z całego regionu. Dużo większa, niż dwie kameralne podstawówki, służące tylko setce czy dwóm miejscowych dzieci. A do liceum miejscowe piętnastolatki (poza tymi, co szykują się do przejęcia winnicy po ojcu) muszą chodzić albo do sąsiedniego powiatowego 20-tysięcznego Mödling, albo jeżdżą do Wiednia (pół godziny kolejką podmiejską).

            W wielu krajach (w Polsce też tak będzie, gdy 6-latki pójdą do szkoły) test PISA piszą uczniowie, którzy są właśnie w I lub II klasie nowej innej szkoły po ukończeniu jednolitego 8- lub 9-letniego cyklu. Aktualna wielkość klasy nie może mieć związku przyczynowego z ich umiejętnościami. To dotyczy nie tylko wielkości klasy, ale wszelkich parametrów szkoły.

            Ten mechanizm zresztą już teraz częściowo działa w Polsca: PISA bada umiejętności, które jeśli mają jakiś związek ze szkołą, to z podstawową, jeśli więc szukać związków przyczynowych, a nie pośrednich korelacji, to trzeba byłoby odtworzyć do klas jakiej wielkości chodzili ci dzisiejsi gimnazjaliści, gdy byli w 2. czy 4. klasie. A spora część gimnazjalistów chodzi do gimnazjów nie związanych organizacyjnie z ich podstawówkami, więc tu nawet pośredniej zależności się nie doszukasz.

        • @ Paweł
          Ciekawe informacje, ale mam te same wątpliwości co Ty, że liczebność aktualnej klasy ucznia nic nie mówi w jakich klasach obracał się wcześniej.

          Na dodatek, nie wiem jak w Polsce, ale w Kanadzie mniejsze klasy (poniżej 15) są zarezerwowane wyłącznie dla uczniów specjalnych wymagających dodatkowej pomocy. Jeśli np. w jednym kraju mniejsze liczebnie klasy organizowane są dla wybitnych, a w innych krajach dla najsłabszych, to jest oczywiste, że średnia PISA według liczebności klasy nie ma żadnego sensu.

  24. Za manipulację można uznać nadużywanie przez Pana słowa ,,manipulacja” w artykule.

    Część zarzutów dotyczących jakości danych bierze się z nieznajomości konstrukcji badania PISA. Starałem się wyjaśnić część z tych problemów na moim blogu
    http://smarterpoland.pl/index.php/2014/01/mity-dotyczace-pisa-2012/

    Życzę ciekawych (i bardziej wyważonych) opisów wyników/odkryć z analizy danych z badania PISA.

    W razie problemów z odczytaniem lub interpretacją danych służę też pomocą (jeżeli będę mógł jej udzielić).

    • Sam dotąd przyjmowałem metodologię PISA za poprawną, usiłując dla poprzednich sprawdzić, ile tylko zdołałem, co proste nie jest. Dialog niezależnych badaczy z Konsorcjum PISA bywa wszakże burzliwy i dość jednostronny, jeśli zajrzeć np. tu:
      http://www.univie.ac.at/pisaaccordingtopisa/pisazufolgepisa.pdf

      Plotki, o których wspomniał Ksawery i o których Pan wspomina, rzeczywiście krążą. Nie wiem, czy akurat rachunku prawdopodobieństwa one dotyczą, czy ew. innej grupy zadań, niemniej takie są. Mówią, że w ramach rozmaitych zabiegów służących porównywaniu danych, uczniowie w kraju X rozwiązują inne zadania, niż w kraju Y i nie jest to wynik losowania pakietów, tylko świadoma decyzja badaczy. Następnie w bazie danych wyników kraju X pojawia się ekstrapolacja odpowiedzi wykonana na podstawie wyników uczniów kraju Y. Nie mam pojęcia, czy tak jest w istocie – ale dokumenty PISA opisujące metodę tego nie wykluczają. Będę zresztą chciał do tych danych uzyskać dostęp i rzeczywiście zobaczyć dane z kwestionariuszy. Mam nadzieję, że ma Pan rację i że to jest możliwe. Oraz, że po zaprzysiężeniu, czy czymkolwiek w tym rodzaju jednak da się obejrzeć treść oryginalnych zadań, bo to zwłaszcza ona moim zdaniem powoduje wątpliwości w najważniejszej kwestii – co dokładnie mierzy PISA i na jakiej podstawie twierdzi, że wyniki mają cokolwiek wspólnego z jakością szkół i da się na ich podstawie ułożyć w dodatku ranking.

      Sam – korzystając z oferowanych przez PISA „multidimensional data requests” otrzymuję dane dotyczące np. uczniów klas 15-osobowych i mniejszych ze szkół położonych na wsi. W tych danych liczba kwestionariuszy bywa niecałkowita, co sugeruje, że pochodzą one nie tyle z rzeczywiście surowych rekordów bazy, ale z jakiejś procedury ekstrapolacyjnej (aproksymacyjnej?) – nie mam pojęcia. Jeśli przekrój tego rodzaju zwraca małą ilość kwestionariuszy, punktacja uczniów nie zostaje podana. Znów nie wiem – czy dlatego, że policzenie standardowej punktacji PISA wymaga większej grupy uczniów (rozwiązujących np. zadania z dużej grupy bookletów), czy dlatego, że odchylenie wyników jest zbyt duże. W każdym razie mam świadomość obcowania z danymi przetworzonymi.

      W odróżnieniu od Ksawerego przyglądam się danym PISA zakładając, że są prawdziwe – zresztą myślę, że to najbardziej prawdopodobna z wersji, choć sądzę również, że nader prawdopodobne są również te zabiegi na tematach zadań, o których mówią plotki. Niezależnie od wszystkiego dane PISA pokazują niezwykle silną zależność wyników od parametrów w rodzaju wykształcenie rodziców, pochodzenie ucznia (miasto-wieś), stopień zamożności itd., natomiast minimalny, o ile w ogóle zauważalny, wpływ któregokolwiek z parametrów opisujących szkołę. To jest zrozumiałe, jeśli się spojrzy na treść zadań. Oraz na enuncjacje ekspertów np. w mediach. Pan Wiśniewski w MEN odpowiadał red. Bendykowi w Polityce, że PISA nie bada czegokolwiek wyuczonego w szkole, a tylko zdolność do rozumowania. Jeśli tak, to owa niezależność wyników od szkoły staje się najzupełniej zrozumiała – mamy po prostu do czynienia z nowym rodzajem testów IQ z ich wszystkimi zaletami i wadami. Skąd w takim razie entuzjazm i przechwałki prof. Marciniaka i min. Hall? Skąd wniosek, że to gimnazjom zawdzięczamy te fantastyczne zdolności czytelnicze i matematyczne piętnastolatków?

      • Pozwolę sobie odpowiedzieć tylko na dwie kwestie.

        1. Badanie PISA nie mierzy bezpośrednio jakości szkół. Mierzona jest sprawność indywidualnych uczniów po to by później porównywać różne przekroje uczniów [zamożni-biedniejsi, chłopcy-dziewczęta itp]. Oczywiście takim przekrojem może być szkoła, ale wtedy należy brać pod uwagę inne środowiskowe czynniki (rodzice, miasto, zamożność).

        Ponieważ OECD działa na poziomie polityki edukacyjnej jednym z podstawowych zastosowań jest wykorzystanie danych do dyskusji na temat systemów edukacji (np. efekt decentralizacji podejmowania decyzji).
        Moim zdaniem nieszczęśliwie się złożyło, że dyskusja na temat tych efektów została przesłonięta przez przyglądanie się rankingowi krajów.

        2. Przy raportowaniu wyników przez zespół PISA jest przyjęte, że nie przedstawia się średnich wyliczonych na grupie uczniów mniejszej niż 35 uczniów i 5 szkół (oba warunki muszą być spełnione by raportować średnią).
        Taki próg jest przyjęty aby uniknąć przypadkowych ”fluktuacji”. Być może dlatego niektórych przekrojów nie ma.

        Liczba badanych studentów jest zawsze całkowita, ale ich wagi już nie są.
        W przekrojach dotyczących udziału danej grupy w populacji (np. ile jest uczniów w szkołach prywatnych), być może są sumowane wagi co prowadzi do niecałkowitego wyniku.

    • Cieszę się niezwykle, że ktoś podejmuje polemikę z tą moją próbą analizy.

      Pozwolę sobie kontrsprostować Pańskie sprostowania.

      1. Jeżeli odrzucić teorie spiskowe to można łatwo znaleźć prawdziwą przyczynę takiej rozpiętości. Opisaną zresztą w dokumentacji.
      Jest jeden specjalny zestaw zadań (o ile pamiętam booklet 20) który jest ,,One-hour booklet and short questionnaire (UH Booklet and UH Questionnaire) for students with special education needs.

      To Pańskie sprostowanie jest błędne z trzech przyczyn:
      a. mniejsza liczba pytań nie dotyczy jednego bookletu o istotnie mniejszej liczbie pytań od pozostałych, ale wielu różnych bookletów;
      b. można mówić o trzech grupach zestawów o liczebności pytań: 13-16, 28-30, 40-45
      c. liczby uczniów, którym zadano te zestawy z tych grup były z grubsza takie same.
      Zestawy z tej ostatniej grupy, zawierające 40 pytań i więcej dostało tylko 2114 uczniów na 4607 badanych — nie twierdzi Pan chyba, że ponad połowa uczniów w Polsce to „uczniowie o specjalnych potrzebach”, którzy otrzymali z tej racji skrócone zestawy?

      2. Konstrukcja zadań w badaniu PISA zakłada, że w kwestionariuszu są zarówno bardzo proste jak i bardzo trudne zadania. Takie zestawienie zadań pozwala z dobrą dokładnością szacować poziom umiejętności zarówno osób słabych jak i bardzo dobrych.
      Tak brzmią deklaracje PISA, których fałsz właśnie wykazuję. Ogromna większość zadań ustawiona jest na poziomie trudności odróżniającym analfabetę od kogoś, kto ledwo duka. Takimi zadaniami nie da się mierzyć żadnych wyższych umiejętności. Nie ma natomiast zadań bardzo trudnych. Te ujawnione jako najtrudniejsze są i tak znacznie poniżej poziomu wymagań egzaminu gimnazjalnego.
      Stąd za pustą propagandę należy uznać twierdzenia, że „PISA sprawdza zdolność myślenia w kontekście praktycznym” i jemu podobne. Sprawdza wyłącznie umiejętności tak elementarne, jak czytanie.

      3. Nikogo nie dziwi, że 15-latek w Polsce potrafi biegle czytać i pisać. A to umiejętności wystarczające do rozwiązania pewnych zadań i umiejętności wcale nie takie oczywiste wśród 15-latków w innych krajach.
      Bardzo trafnie podsumował Pan odkrywczość wniosków, jakie dla Polski płyną z PISA.

      4. Nazywanie opisu ,,ewidentnie fałszywym” ponieważ brakuje nazw dla ostatnich czterech kolumn jest chyba nadużyciem.
      Nie jest. W informatyce, jeśli opis jakiejś struktury danych do niej nie przystaje, to jest fałszywy. Dokumentacja jest fałszywa, jeśli na jej podstawie nie jest możliwe dokonanie rozbioru składniowego rekordów danych. Z takim właśnie przypadkiem mamy tu do czynienia.
      Nie brakuje nazw, tylko opis podaje, że pewne dane można wyczytać z kolumn, których nie ma w pliku danych, a dane zapisane w pewnych kolumnach tego pliku są niezgodne z listą podanych dla nich dopuszczalnych wartości dla zmiennych.

      5. Analogia ze sportu. Jeżeli mistrzowie z Jamajki biegają 100 metrów w 9.9 sekundy a mistrzowie z innych krajów biegają 100 metrów w 10 sekund, to nie mówimy że różnica jest niewielka.
      Bardzo dziękuję za tę uwagę! Bardzo trafnie pokazuje prestiżowo-propagandowy sens badań typu PISA — różnice nie mają żadnego znaczenia praktycznego, a służą wyłącznie do poustawiania krajów na odpowiednich miejscach na podium i odtrąbienia hymnu narodowego z okazji osiągniętego sukcesu. Polska! Biało-czerwoni! Jamajczyk pobiegł o 0.1s szybciej, Małysz skoczył o metr dalej, a średnia kraju w liczbie poprawnie odpowiedzianych pytań jest o jedno (czyli 1/7 odchylenia standardowego) wyższa, niż średnia światowa.
      Tego typu różnice w prędkości biegania (ani umiejętności rozwiązywania banalnych zadań) nie mają natomiast żadnego przełożenia praktycznego na to, co PISA twierdzi, że bada, czyli zdolność do funkcjonowania w realnym świecie. Znaczą tyle samo, co róznica pomiędzy dwoma ciężarówkami, z których jedna potrafi rozpędzić się do 100km/h, a druga tylko do 99km/h.

      6. PISA używa konwencji ISO 3 (trzyliterowe skróty).
      Ma Pan pełną rację. Jest standard ISO również na trzyliterowe skróty. Zostały niemal doszczętnie wyparte przez dwuliterowe oznaczenia, ale ta norma nadal istnieje i są tacy, w tym jak widać PISA, którzy te trzyliterowe skróty nadal stosują, choć ja już o istnieniu tej normy zapomniałem.

      7. Identyczne odpowiedzi … Wygląda jak zwykły paradoks dnia urodzin
      Identyczne zestawy odpowiedzi dotyczą nie tylko tych bookletów z 13 pytaniami, ale i tych najbardziej licznych, gdzie ponad 20 pytań wylądowało w środkowym obszarze (prawdopodobieństwo poprawnej odpowiedzi około 1/2). Przy maksymalnie 700 uczniach, odpowiadajacych na każdy zestaw, birthday paradox daje wartość oczekiwaną około 0.25 duplikatu w takich bookletach. Jest to nadal przeszacowane, bo inkryminowane zestawy są zgodne ze sobą nie tylko na zasadzie „dobrze-dobrze” lub „źle-źle”, ale zgodne są również pod wszystkimi względami, poza identyfikacją ucznia i szkoły, np. mają te same przyczyny niezaliczenia lub częściowego zaliczenia pytania, co dalej istotnie zwiększa liczbę możliwych kombinacji i w efekcie obniża szanse wystąpienia kolizji typu birthday paradox. Bardzo życzliwy szacunek każe ograniczyć możliwość wystąpienia birthday paradox do kilku przypadków identycznych prac, tymczasem z niezrozumiałych przyczyn mamy ich dwa rzędy wielkości więcej: 419.

      • Ad 1.
        Kolejnym powód fluktuacji długości bookletów jest taki:
        Booklet składa się z czterech części, budowa bookletu polega na wybraniu odpowiednich części.
        Części mają różną liczbę zadań, ale ,,stara się” utrzymać ich podobną trudność wyrażoną w czasie potrzebnym na rozwiązanie. Na każdą część student ma 30 minut. Tzn trudniejsze części mają mniej zadań a przez to booklety z trudniejszymi częściami mają mniej zadań niż booklety z łatwiejszymi częściami.

        Ad 2.
        Ile pytań, Pana zdaniem, jest potrzebnych aby odróżnić bardzo zdolną osobę od przeciętniaka?
        To że w danych PISA pytań trudnych jest mniej niż łatwych nie oznaczy że jest ich za mało.
        Każdy może zresztą zrobić własny ranking oparty wyłącznie o trudne pytania, dane są otwarte.

        Ad 7. Rozwiązywanie zadań to nie są niezależne zdarzenia.
        Nawet mając 10 zadań o trudności 50% to lepsi z uczniów je rozwiążą a gorsi nie, nie ma niezależnego losowania.

        Zresztą jeżeli coś jest podejrzane to weryfikacja podejrzenia powinna być oparta o test statystyczny badające na ile to odstępstwo jest prawdopodobne, a nie ,,przeczucia”.

        • Pytanie.

          Ad 1. “Tzn trudniejsze części mają mniej zadań a przez to booklety z trudniejszymi częściami mają mniej zadań niż booklety z łatwiejszymi częściami.”
          To jest prawda, dlatego ilość zadań w pakiecie (booklecie) sama w sobie o niczym nie świadczy. Ważniejsza różnica między pakietami polega właśnie na tym, czy dany pakiet zawiera w sobie część zadań trudniejszych, czy nie.

          Jest to problem, na który jak dotąd nie widzę odpowiedzi, ani tu na blogu, ani w dokumentach PISA! Bo każdy uczeń otrzymuje jednak wyważony wynik za cały test (obejmujący wszystkie poziomy trudności), mimo, że jego pakiet mógł w ogóle nie zawierać trudnych zadań, mógł zawierać wyłącznie dużą liczbę łatwiejszych zadań. PISA stwierdza oficjalnie w swoim Raporcie, że taka sytuacja jest możliwa i że wynik jest wówczas ekstrapolowany na wszystkie poziomy trudności.

          Na zdrowy rozum, umiejętności rozwiązywania łatwych zadań róznią się jakościowo od umiejętności rozwiązywnia trudnych zadań. Z metodologii PISA wynikałoby, że te umiejętności leżą na jednej skali (nie różnią się jakościowo, tylko ilościowo), więc można je dowolnie ekstrapolować i interpolować.

          Pytanie, jakie są naukowe przesłanki tego typu ekstrapolacji?

        • Przyznaję się do błedu, a Panu przyznaję rację w tej kwestii — duplikaty kompletów odpowiedzi rzeczywiście wyglądają na efekt z rodziny birthday paradox, prawdopodobieństwo wystąpienia którego mocno niedoszacowałem, zapewne zaniedbując te – nawet słabe – korelacje między zadaniami.
          W innych krajach liczba duplikatów jest podobna, a w krajach o większej liczbie ankiet nawet większa, co pasuje do modelu ich powstawania przez birthday paradox.

      • Ad. 7
        Niezależność zadań nie jest dalekim przybliżeniem.
        Korelacja pomiędzy odpowiedziami na różne zadania jest w przypadku większości par zadań na poziomie 0.1, dla kilku tylko par (na blisko 5000) osiąga 0.4, w wielu przypadkach jest nawet lekko ujemna.
        Silna korelacja odpowiedzi (dokładnie 1) występuje tylko pomiędzy zadaniami ze zdublowanych par „pytanie” – „pytanie – original responses”.

        Powtórzę, że duplikaty dotyczą również takich formularzy, gdzie mamy około 20 pytań ze „średniej półki” (zbliżonej trudności), między odpowiedziami na które korelacja parami jest niska (poniżej 0.2) z których część uzyskała poprawne odpowiedzi, a część błędne, ale w obu formularzach mamy identyczne sekwencje. Birthday paradox jest tu całkiem pasującym modelem powstawania duplikatów ciągów odpowiedzi, daje jednak wartość oczekiwaną liczby zduplikowanych ciągów o dwa rzędy wielkości mniejszą od obserwowanej.

        Przyznam, że jest to dla mnie najbardziej zagadkowa „dziwność” w tych danych (najbadziej zagadkowa — co nie znaczy: najpoważniejsza) — bo nie jest to efekt ściągania ucznia od ucznia (no, czyba, że przez telefon zdalnie), a na celową manipulację wydaje się być zbytnio skomplikowane i wysublimowane.

        Ad 2. Ile pytań, Pana zdaniem, jest potrzebnych aby odróżnić bardzo zdolną osobę od przeciętniaka?
        Co najmniej jedno. Wśród ujawnionych zadań nie było ani jednego takiego (choć bywały w poprzednich badaniach).
        Jedyne ujawnione zadanie lev.6 (policzyć średnią prędkość Helen na rowerze), czyli uznane przez PISA za najtrudniejszą grupę, nie wymagało żadnego myślenia ani żadnych wyższych czynności ponad tabliczkę mnożenia i podstawienie do wzoru prędkość-droga-czas. Choć trzeba mu oddać, że są to większe wymagania, niż w zadaniu lev.1.
        Nawet to najtrudniejsze jawne zadanie może najwyżej rozróżniać przeciętniaka od analfabety, albo od kogoś, kto nawet z tabliczką mnożenia ma poważne problemy, ale nawet nie ociera się o zaangażowanie funkcji intelektualnych, spójnych z obrazem „osoby bardzo zdolnej”.

        Własnego rankingu, opartego o wybrane zadania stworzyć nie można, ponieważ treści zadań są utajnione. A samo to, że mało uczniów odpowiedziało na któreś z nich, nic nie mówi o jego merytorycznej trudności ani o umiejętnościach/kompetencjach, do jakich się odwołuje.

        Swoją drogą: określenia „przeciętniak” i „osoba bardzo zdolna” oddają to, co mierzy PISA. Co mają one wspólnego z efektem edukacyjnym szkoły? PISA nie mierzy jakości systemu edukacyjnego, tylko jest kolejnym testem na IQ? Jestem gotów się z tym zgodzić.

      • Zgadzam się w pełni że trudne zadanie nawet jeśli jest jednym z 40 potrafi mieć poważną wartość dyskryminującą. Jeśli dodać że różnica dotyczy dużych grup to mamy po prostu istotne różnice. To jest sporo więcej niż 1/40, czyli 2,5% testu, to może być już np 4-5%

  25. Ja sądzę, że nawet ekstrapolacja polskich odpowiedzi na zadania z rachunku prawdopodobieństwa odpowiedziami np. duńskimi byłaby usprawiedliwiona i statystycznie poprawna, natomiast zupełnie mnie nie przekonują pozamatematyczne wyjaśnienia Pana Przemysława. Nie wiem oczywiście, czy rzeczywiście aż takich zabiegów dokonano w ostatnich badaniach (raczej sądzę, że polski „sukces” jest efektem zmiany składu próby, co zresztą niekoniecznie jest manipulacją, ale może być skutkiem zmian demograficznych). Ksawery ma jednak przede wszystkim rację punktując sens sportowych analogii.

    O efekcie decentralizacji podejmowanych decyzji nikt w Polsce jakoś specjalnie nie dyskutuje. On jest treścią raportu McKinseya i propaguje to tutaj Jacek Strzemieczny. Nie mam siły sprawdzać, czy dane PISA mierzą tu cokolwiek (bo związane z tym pytania są w kwestionariuszach).

    Ksawerego (i moje też) spostrzeżenia są przede wszystkim takie, że jeśli PISA ma ze szkołą cokolwiek wspólnego, to tylko z taką, która wciąż walczy z analfabetyzmem i trzeba powiedzieć, że również w tej kwestii PISA (jak i wszystkie inne badania) pokazuje raczej brak wpływu szkoły niż cokolwiek, co należałoby zrobić.

    Bardzo dobrze rozumiem reakcję Pana Przemysława na coś, co uważa za manipulację u Ksawerego i choć się z nim niezupełnie zgadzam, to każda informacja w rodzaju tej, że średniej nie podaje się w takich, a nie innych okolicznościach (zrozumiała skądinąd i przeze mnie podejrzewana) jest cenna. Te wyjaśnienia przyjmuję z wdzięcznością – usiłowałem je znaleźć w dokumentach PISA i nie znalazłem. Jeśli tam są – mój błąd. Niemniej PISA twierdzi, że oferuje dostęp do danych po to, bym sam mógł sobie ustalać wagi. Jeśli mam móc ocenić metodę (nie mam aż takich ambicji jak Ksawery w tej kwestii), to powinienem mieć szansę powtórzyć obliczenia.

    Tego zaś nie wiem i chcę spytać – może Pan wie. Czy dane Ksawerego są rzeczywiście zbiorem wczytanych kwestionariuszy, czy może obciążają je już wszystkie te zabiegi normalizacyjne i ekstrapolacyjne. Okoliczności wskazują, że mamy do czynienia z tym drugim.

    Ale przede wszystkim – czy Ksawery dopuszcza się manipulacji, czy nie (sądzę, że się nie dopuszcza), co da się powiedzieć o radosnych enucjacjach prof. Marciniaka?! Albo p. Hall?

    Panie Przemysławie, ma Pan wiedzę, której nam z Ksawerym brakuje. Być może potrafi Pan również zdobyć informacje, o których zdobyciu sam dotąd tylko myślałem niezupełnie wiedząc, jak się za to zabrać. Czy nie sądzi Pan, że można spróbować pokazać, co z danych PISA wynika rzeczywiście, a co nie i ile warta jest propaganda wokół tych badań?

    Rankingowe podejście do wyników jest przy tym – proszę zauważyć – pomysłem PISA, a nie np. Marciniaka i red. Bendyka. Informacje z IFiS PAN nie dotyczą tego, że szkołom opłaca się zostawić autonomię (albo, że się nie opłaca), tylko tego, że Polska szkoła odnotowała bezprecedensowy sukces, ponieważ „obiektywne badania” pokazały, że polscy uczniowie potrafią więcej niż inni w Europie, o czym wykrzykiwał podekscytowany do nieprzytomności prof. Marciniak. Czy nie sądzi Pan, Panie Przemysławie, że przede wszystkim to należałoby punktować?

  26. PISA a ranking szkół — kolejne uzupełnienie, tym razem o różnicach pomiędzy szkołami w Polsce.
    Przewińcie na koniec głównego wpisu — tam będzie i tekst i wykres do niego.

  27. Nie mam niestety tyle czasu aby śledzić całą ciekawą dyskusję, ale zauważyłem dodany wykres z liczbą pytań w booklecie, który warto skomentować.

    Na wykresie nie pokazuje Pan liczby pytań w booklecie, ale liczbę pytań z matematyki w booklecie. A to już coś zupełnie innego.

    W zależności od bookletu jest w nim więcej lub mniej matematyki, czasem są to trzy grupy z czterech, czasem dwie z czterech a czasem jedna z czterech.

    Wyskalowanie wyników dla matematyki to nie problem.
    To co u niektórych komentatorów budzi zdziwienie to jak policzono wynik PV z czytania lub przyrody u osób które nie odpowiadały ani na jedno pytanie z czytania lub przyrody. Ale można to zrobić i po to są modele linkujące.

    Porównanie szkół prywatnych z publicznymi bez uwzględnienia wielkości miasta czy zamożności rodziców generuje więcej szumu niż informacji.

    • Zgadzam się, że porównywanie szkół prywatnych z publicznymi bez wnikania w towarzyszące szczegóły nie jest nośne poznawczo, stąd moja uwaga, że jest to jeden worek, obejmujący najróżniejsze przyczyny, a podkolorowałem je wyłącznie jako ciekawostkę.
      Przepraszam i ubolewam, że coś, co w intencji miało być ciekawostką dodaną do opisu głównego zjawiska, stało się szumem zdolnym zagłuszyć odbiór podstawowej treści.
      Wykres ilustruje rozkład wyników pomiędzy różnymi szkołami w Polsce, gdzie sprawa ich własności jest trzeciorzędna i spokojnie może Pan na to podkolorowanie nie zwracać uwagi, nie odróżniać niebieskiego od zielonego, oglądać wykres i zastanawiać się nad zjawiskiem różnic między szkołami in abstracto ich właściciela.

      Tak jednak PISA zorganizowała dane, że bezpośrednio w pliku z wynikami formularzy jedyną dostępną informacja o szkole jest to, czy jest to szkoła prywatna, czy publiczna. Wyciągnięcie informacji uzupełniających wymaga już przekopywania się przez kolejny źle zdokumentowany zestaw danych, na co chwilowo nie mam ani siły, ani czasu.

      Dzięki za wyjaśnienie w sprawie liczby zadań z matematyki!

      W kwestii ekstrapolowania wyników z przyrody z reszty testu na podstawie modeli linkujących: to jest właśnie ten istotny zarzut wobec PISA i osób ją reprezentujących i przedstawiających wyniki o pomieszanie danych przetworzonych z surowymi i prezentację wyników modelowania jako wyników empirycznych.
      Takie ekstrapolacje mogą być (zapewne są) uprawnione statystycznie, są jednak kłamstwem w bezpośrednim przekazie. Te wyniki uczniów nie zostały zmierzone czy też zbadane badaniem PISA, jak to jest przedstawione w Raporcie, ale zostały wyestymowane na podstawie pewnych modeli. Odzwierciedlają nie wyniki pomiaru, tylko wnioski z modelu, którego prawdziwość i dokładność nie są wykazane w raporcie PISA i nie podlega on niezalażnej weryfikacji. Analizując dane PISA nie analizujemy więc korelacji i innych zjawisk, powiązanych z pomiarami, dokonanych na realnych uczniach w realnym świecie, ale analizujemy wyniki wyprodukowane przez modele ekstrapolujące i aproksymujące, przyjęte przez PISA i prarametry w tych modelach przyjęte w niejawny sposób.

      Co, oczywiście, nie neguje sensu stosowania modeli aproksymacyjnych, symulacji, itp. technik — nalezy to jednak robić w sposób jawny i jasno rozróżniać, co jest produktem modelu, a co danymi empirycznymi.

      Manipulacją (nie boję się tego słowa) jest zatarcie różnicy pomiędzy danymi zmierzonymi, a produktami modeli. A to nadużycie ma miejsce w przypadku prezentacji badań PISA.

      • W klasycznej statystyce zakłada się, że każdy pomiar wykonywany jest z zadaną dokładnością (błędem). Po to wykonuje się oceny (estymacje) by lepiej oszacować pewien interesujący parametr (np. umiejętności uczniów). Narzekanie że wyniki oparto o modele a nie surowe pomiary jest bardzo dziwne.

        Zgadzam się, że przyjęty w PISA sposób przeprowadzania badania jest skomplikowany. W tej skali (ponad 60 krajów, ponad 500 tys uczniów) nie było możliwe finansowo przeprowadzić prostszego ale równie rzetelnego badania z np losowaniem prostym.

        Podważanie wyników dlatego, że trzeba było do nich użyć złożonych modeli jest dziwaczne. Idąc tym tropem można podważać wyniki badań medycznych, bioinformatycznych i z wielu innych dziedzin. Często stosuje się w nich niebanalne modelowanie statystyczne.

        W kwestii łączenia danych o rodzicach z danymi o wynikach uczniów, należy połączyć t dwa zbiory po kluczu złożonym z trzech kolumn, państwo/id szkoły/id studenta w szkole.

      • Wyniki mogą być oparte o dane, przetworzone/skorygowane jakimś modelem.
        Jeśli jednak wyniki publikowane są jako „zmierzone umiejętności uczniów w zakresie przyrody”, a dotycza uczniów, którzy w ogóle na pytania z przyrody nie odpowiadali, a ich „wyniki” zostały wyliczone na podstawie modelu korelacyjnego i ich odpowiedzi w teście z matematyki, to jest to głębokie nadużycie, by nie powiedzieć, że proste kłamstwo. Umiejętności w zakresie przyrody tych uczniów w ogóle nie zostały zbadane, natomiast wyniki są przedstawiane tak, jakby były. Wyniki takiego modelu są de facto przetworzonymi wynikami testu z matematyki, a z ich wiedzą o przyrodzie mają tyle wspólnego, co wymyślili jako model twórcy badania, wkładając do niego jako parametr ustalone na innych uczniach korelacje.

        „W kwestii łączenia danych o rodzicach z danymi o wynikach uczniów, należy połączyć t dwa zbiory po kluczu złożonym z trzech kolumn, państwo/id szkoły/id studenta w szkole.”

        Domyśliłem się. Problem w tym, że samo odczytanie danych z drugiego z tych plików nie jest banalne — mając w pamięci ile czasu straciłem na przeczytanie „cognitive data” do którego opis nie przystawał i musiałem składnię odtwarzać z trzech wzajemnie sprzecznych plików definicyjnych.

  28. Ciekawe, że w Polsce połowa pakietów miała ponad 40 zadań, a tylko jedna czwarta pakietów miała około 14 zadań, reszta, czyli pozostała jedna czwarta miała około 29 zadań.

    Gdyby założyć, co sugeruje p. Przemysław, że duża liczba zadań w pakiecie oznacza zadania łatwe, a mała liczba zdania trudniejsze, oznaczałoby to, że w Polsce 50% uczniów otrzymało zadania łatwiejsze, 25% zadanie średnie i pozostałe 25% zadania trudniejsze. Nie wyglądałoby to na zrównoważony rozkład pakietów. Dlatego uważam, że takiego założenia, im więcej zadań, tym łatwiejsze, nie da się utrzymać bez konkretnych danych. Nie widzę z kolei powodów, żeby PISA utajniała informację, ile w danym pakiecie było zadań trudnych, a ile łatwych, tym bardziej, że każde zadanie zawiera kod z informacją o poziomie trudności, od 1 do 6, lub w punktach (przykład poniżej).
    Informacja taka powinna być dostępna nawet jeśli treść zadania jest utajniona, co jest konieczne po to, by te same zadania mogły być użyte wielokrotnie, zeby umożliwić porównanie wyników z różnych lat.

    @ Ksawery, być może gdzieś wsród danych da się znaleźć jakiś kod dla trudności (Difficulty) poszczególnych zadań, który można zidentyfikować jako poziom zadania (według klasyfikacji PISA na 6 poziomów). Zadania opublikowane przez PISA w Raporcie jako przykłady zwierają tę informację. Wówczas mógłbyś wygenerować tabelę, ile zadań na różnych poziomach rozwiązywali uczniowie np. w Polsce lub Kanadzie.

    Przykład z Raportu (wersja angielska):

    Question 1, Helen the cyclist (Pytanie 1, Helena Roweżystka)
    Difficulty: 440.5 (Trudność: 440.5) [Poziom 2]

    Skala Poziomów:

    Poziom 6: >669
    Poziom 5: >607
    Poziom 4: >545
    Poziom 3: >482
    Poziom 2: >420
    Poziom 1: >358
    Poziom poniżej 1: <=358

    • Pan P.Biecek zwrócił mi uwagę (przeoczyłem to w TechReport PISA), że w zestawach zadań mogły znaleźć się 1,2 lub 3 moduły zadań z matematyki. To rzeczywiście tłumaczy tak duże rozbieżności (13-45) liczby zadań z matematyki i ich trzy grupy pod względem liczebności.
      Nijak jednak nie rozumiem, jakie jest czy może być uzasadnienie takiej metody. Wygląda mi to na robienie czegoś lewą ręką przez prawe ucho: najpierw sztucznie zaburzamy badanie, by potem odkręcać w analizie skutki tego zaburzenia.

      Trudność:
      nie, nie mam kodów trudności ani podziału na klasy trudności. Mam tylko (samodzielnie policzone) „trudności empiryczne”, czyli odsetek uczniów na całym świecie (albo w Polsce, albo w jakimś kraju…) jaki poprawnie odpowiedział na każde konkretne pytanie.
      Ale nie znam algorytmu przeliczenia tego odsetka na „difficulty”, którą cytujesz i w efekcie na poziomy 1-6.
      Z „Helen na rowerze” jest dodatkowy problem: to jest zadanie, które było używane tylko w krajach o specjalnych, ułatwionych zestawach (Bułgaria-Urugwaj). Nie rozwiązywali go uczniowie ani z Polski, ani z Kanady, ani z żadnego z krajów, do których tu się czasem odnosimy.

      Za to czytając pasjonującą lekturę poleconą mi przez Pawła:
      http://www.univie.ac.at/pisaaccordingtopisa/pisazufolgepisa.pdf
      wyczytałem, że już dawniej podnoszona była krytyka, że to samo zadanie, używane w dwóch kolejnych badaniach PISA raz znalazło się na jakimś poziomie trudności, a innym razem to samo zadanie dostało inny poziom — co jest konsekwencją ustalania trudności nie a priori, czy poprzez jakieś testy pilotowe, ale poprzez analizę odpowiedzi na dane pytanie, jakie dostaliśmy w aktualnym badaniu. (Jens Dolin: „PISA – Use and Misuse of Large-scale Comparative Tests” — w cytowanej pracy). Były pary takich pytań, z których raz A było „trudniejsze” od B, a trzy lata później B „trudniejsze” od A. I w ten sposób zapewniana jest porównywalność wyników pomiędzy kolejnymi badaniami ;)
      Bardzo polecam lekturę nie tylko tego artykułu, ale i pozostałych!

      • Myślę, że taka tabela “trudności empirycznej” byłaby bardzo cenna, jeśli to nie jest za dużo pracy dla Ciebie. Podejrzewam, że PISA też przypisuje zadaniom określoną “trudnoścć” metodą empiryczną.

        Tabela mogłaby zawierać dla każdego zadania
        a) empiryczną trudność światową
        b) w ilu pakietach zadanie wystąpiło w Polsce (od 0 do 5000)
        c) empiryczną trudność w wynikach w Polsce.

        [Twoja definicja „trudności empirycznej”: odsetek uczniów, na całym świecie, albo w jakimś kraju, jaki poprawnie odpowiedział na konkretne pytanie.]

        • Zaraz prześlę Ci in priv. takie tabele, policzone dla świata (mam gotowe). Tabele dla Polski sa nieistotnie różne. Oczywiście, jeśli ktoś jest zainteresowany, to tez mu poślę. A jeśli chcesz, to policzę dla POlski, Kanady albo innego kraju jeszcze raz, ale to już jutro.

          Nie chcę tego zamieszczać tutaj – to jest kilkaset zadań…

  29. @ Wyjaśnienie konstrukcji testów PISA

    Tabela wyników dla poszczególnych zadań zbudowana przez Ksawerego dowodzi, że PISA nie bada umiejętności poszczególnych uczniów.

    Poszczególny uczeń nie odpowiada na wszystkie pytania i nie jest oceniany według wszystkich pytań (ponieważ nie jest oceniany w ogóle), natomiast jest regułą, że na każde poszczególne pytanie testu odpowiada około 1200-1400 uczniów w danym kraju, co jest wystarczającą próbką, żeby ocenić jak uczniowie w danym kraju radzą sobie z tym zadaniem. Ponieważ PISA rozdziela 3 razy więcej pytań niż można odpowiedzieć w ciągu 2 godzin, w ten sposób może przetestować więcej zadań. Dlatego PISA testuje około 5000 uczniów, co w praktyce oznacza 3 próbki uczniów po około 1300 uczniów, ponieważ jest 3 razy więcej zadań niż zmieściłoby się w jednym teście. Każde zadanie testu (np. około 100 zadań) ma swoją próbkę 1300 uczniów, którzy to zadanie rozwiązują, w ten sposób system edukacji oceniany jest na podstawie wszystkich 100 zadań. Pozostaje sprawą niejasną jak PISA rozdziela zadania na 13 pakietów jakie otrzymuje każdy kraj, ważne jest tylko, że każde zadanie trafi w jakiś tam sposób do 1300 uczniów.

    Natomiast z punktu widzenia poszczególnego ucznia, nie ma znaczenia, ile zadań i które zadania on/ona rozwiązuje, ponieważ PISA nie bada umiejętności poszczególnych uczniów, a jakość całego systemu edukacji.

Odpowiedz na „DanusiaAnuluj pisanie odpowiedzi

Twój adres e-mail nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

*