Ijesztően jó lett töriből a mesterséges intelligencia

Ijesztően jó lett töriből a mesterséges intelligencia
Illusztráció: Telex

Lement az érettségi hetének harmadik napja, a diákok túl vannak a történelmen is. Hétfőn és kedden leérettségiztettünk két mesterséges intelligenciára (MI) épülő csetbotot, a ChatGPT-t és a Google Geminit magyarból és matekból, úgyhogy jöjjön az idei utolsó megpróbáltatása: a történelem feladatsor egy része, amit nem hibátlanul, de így is elég jól oldottak meg a gépek – és meglepő módon ezúttal az esszéknél se buktak volna le, hogy nem hús-vér diákok.

A cikkhez ezúttal is a GPT-4o-t és a Gemini 2.5 Prót használtuk. Hogy miért pont ezt a két modellt választottuk? A Geminit azért, mert ott van minden, nem túl régi androidos telefonon, ezért sokan férnek hozzá; a ChatGPT-t pedig azért, mert annak ellenére, hogy nem feltétlenül ez a legfejlettebb modell, a legtöbben ezt ismerik (még úgy is, hogy ott van Gemini a telefonjukon), és sokak fejében valószínűleg egyenlőségjel van az MI és a ChatGPT között.

Sokan ezt használják más keresőmotorok helyett (ami az OpenAI egyik célja), mert rögtön kész választ ad, elvileg nem kell átfésülni a talált információt (valójában át kellene, de ahogy a múlt héten láthattuk, még sok újságíró sem teszi ezt meg). A fejlesztők a negyedik ipari forradalomról beszélnek, és úgy adják elő, mintha az MI már szinte mindenre képes lenne (néhány apróbb, beismert hiányossággal), vagy legfeljebb pár év, és képes lesz mindenre – de ahogy a magyarérettségin láthattuk, vannak még akadályok, amiket évek óta nem tudnak megugrani.

Ahogy az embereknél, úgy az MI-nél sem mindegy, hogy tesszük fel a kérdést. Tesztjeinkben azonban nem fogunk prompt engineerként gondolkodni, mert a cikkeink nemcsak nekik szólnak, hanem mindenki másnak is, aki nem feltétlenül tanulmányozta tüzetesebben az új technológiát, de ennek ellenére lelkesen használja. Márpedig a legtöbb hétköznapi, nem előfizetős felhasználó nem gondolkodik hosszú percekig, hogy a lehető legérthetőbben fogalmazza meg az MI-nek feltett kérdést, hanem csak kérdez és reménykedik.

A történelemérettségi feladatsorát szerdán Repárszky Ildikó, a Budapesti Fazekas Mihály Gyakorló Általános Iskola és Gimnázium tanára videónkban megoldotta, és a csetbotok megoldásait is ő értékelte. Az MI-nek az 1-es, a 7-es, a 11-es és a 12-es feladatot kellett megoldania, valamint a 14-es és a 15-ös esszét kellett megírnia. A konkrét feladatokat megnézheti a videónkban (7:25, 18:51, 28:50, 31:33, 35:04, 42:19).

A magyaron alig tudtak összekaparni egy gyenge hármast az MI-k, matekból viszont mindketten hibátlanul vizsgáztak, úgyhogy lássuk, hogy alakult a töri. Két évvel ezelőtt a ChatGPT néhány nagyobb hibával, de összeszedett egy négyest, a Gemininek viszont új terepről van szó.

A tesztfeladatok

Hétfőn és kedden kicsit kreatívnak kellett lennem, hogy megértessem a feladatot az MI-kkel, ma viszont nem volt ilyen probléma: mindkét csetbot megette a feladatlap képét, így nem kellett szóban leírnom nekik, amit a diákok képeken láttak. A kedves olvasóknak viszont kénytelen vagyok leírni, mit is kellett csinálniuk az MI-knek, de ha látni szeretnék a feladatlapot, a videónkban megtekinthetik. A két csetbot teljes válaszait pedig ebben a dokumentumban gyűjtöttük össze.

Az 1. feladat az volt, hogy a diákoknak az Akropoliszról, a Parthenonról és a Santa Sabina templomról kellett eldönteniük, hogy melyik felel meg bizonyos állításoknak. Mindkét MI eltalálta, hogy az a) a Parthenon, a b) pedig a Santa Sabina, és a c) feladatrészben is jól eltalálták, hogy melyik állítás helyes, és melyik nem. Bár a diákoknak ilyet nem kell tenniük, mindkét csetbot röviden elmagyarázta, mit miért választottak. A ChatGPT-nek és a Gemini-nak is jár a 4-4 pont.

A 7-es feladat a zsidó emancipációról szólt, és itt a ChatGPT már hibázott is egyet. Nem is akárhogy, mert Repárszky megjegyezte, hogy pont olyan hibát vétett, amit egy kicsit figyelmetlenebb diáktól várna. A feladat az volt, hogy négy forrás alapján el kellett dönteni, hogy a zsidók mikor kaptak meg bizonyos jogokat a 19. században, és a ChatGPT nem vette észre, hogy ugyan egy 1848-as törvény a törvényesen bevett vallásoknak adott bizonyos jogokat, azt az izraelitákra csak 1895-ben terjesztették ki. A történelemtanár szerint ezt egy diák is simán elvétheti, ha nem olvassa el kellő figyelemmel a forrásokat. A Gemini viszont tökéletesen értelmezte a feladatot, és még részletes magyarázatot is fűzött a válaszához. Így a 7-es feladatra végül a ChatGPT 2, a Gemini pedig 4 pontot kapott.

A 11-es feladat a Rákosi-korszakról és a kollektivizálásról szólt, és az OpenAI MI-je jól indított. Tudta, hogy a forrásban megjelenő propaganda a kollektivizáláshoz kapcsolódik, hogy az egyénileg dolgozó parasztok gúnyneve a kulák volt, és azt is, hogy a forrásban feltett kérdésre, hogy miért nagyobb valahol a termelés, a válasz az volt, hogy a nagyüzemi módszerek miatt.

A d) alfeladat viszont már elgáncsolta a csetbotot, méghozzá megint pont úgy, ahogy Repárszky egy kicsit kevésbé felkészült diáktól várná. Három propagandaplakát közül kellett kiválasztani, melyikhez kapcsolódik a forrás, és bár a helyes válasz az 1-es volt, a ChatGPT a 3-ast jelölte meg. Hogy miért, azt valószínűleg soha nem fogjuk megtudni, de Repárszky azt látja, hogy sok diák összemossa a téeszesítést a beszolgáltatással, így ahogy meglátják a harmadikon a beszolgáltatást, beadást, azonnal lecsapnak rá, pedig a téeszesítés egyik előnyének akkoriban a gépesítést tekintették, ezért valójában a „Gyertek lányok traktorra!” feliratú plakát volt a jó választás.

Az e) alfeladatban ki kellett választani öt állítás közül azt a kettőt, amelyik igaz volt, itt a 2-es és az 5-ös volt a jó megoldás. A csetbot viszont a 3-ast és az 5-öst jelölte meg, ami megint csak egy olyan hiba, amit a tanár gyakorinak tart. A ChatGPT így végül a 6 pontból 4-et kap a 11-es feladatra.

A Gemini itt is sokkal profibb volt, úgy tűnik, hogy a töri lehetett a matek mellett a kedvenc tárgya a középiskolában. Az a)–d) feladatokra jól válaszolt, nem csapta be a beszolgáltatós plakát, de az e)-nél kicsit magába gabalyodott. A feladat leírásában még alá is van húzva, hogy két jó megoldás van, de kicsit lázadt, és az 1-esre is azt mondta, hogy igaz. Ezután megjegyezte, hogy ha nagyon szigorúak akarunk lenni, akkor a 2-es és az 5-ös a jó, de mivel azt állította, hogy az 1-es is igaz a Rákosi-korszakra, pedig nem, itt sajnos veszít egy pontot. Így a 6-ból 5-öt kap.

Az utolsó, 12-es tesztfeladat a mai Magyarország nemzetiségeiről szólt, több forrással. Mindkét csetbot tökéletesen válaszolt a kérdésekre, úgyhogy megkapták a 4-4 pontot.

Az örök mumus: az esszé

Két éve a ChatGPT egész jól teljesített az esszékérdéseknél, de közel sem hibátlanul. A magyarérettségi során láthattuk, hogy ez a tudása hagy némi kívánnivalót maga után, úgyhogy arra számítottunk, hogy nem lesz olyan ügyes, mint a tesztfeladatoknál. Nagyot tévedtünk, talán ijesztően nagyot.

A 14-es feladatban az 1945 utáni demográfiai változásokról volt szó, és mindkét csetbot tökéletes munkát végzett. Elhelyezték a témát térben és időben, utaltak a forrásra, és mindent beleírtak, amit Repárszky egy jól felkészült diáktól várt volna. Bár a magyarérettséginél látszott, hogy könnyű kiszúrni, hogy csetbot írta az elemzést, a történelemnél ez egyáltalán nem jött elő. Repárszky nem tudta volna megmondani, hogy nem egy jó diák írta az esszéket – még az emberekre jellemző kis nyelvi ügyetlenségek is megjelentek bennük. Járt is értük a maximális 17-17 pont.

Ez óriási ugrás volt a két évvel ezelőtti megoldásokhoz képest, és ezzel még nem volt vége: a csetbotok a hosszabb esszét is tökéletesen megírták. Minden szempontnak megfeleltek, minden háttérinformációt megemlítettek, sőt, kicsit olyanok voltak, mint egy diák, aki emelt szintűre készült, de végül a középnél maradt. A két esszé nyelvileg is egészen különbözik egymástól, így nem igazán lehet rájuk mondani, hogy steril, laborkörnyezetben írt fogalmazások, mint amilyenek a magyarérettségi műelemzései voltak. Így a ChatGPT és a Gemini is megkapta a 33 pontot.

Ijesztő irányba haladunk

Egy éve még azt írtuk, hogy a ChatGPT egy féltehetséges nyolcadikos, de több diákkal is beszéltünk, aki kisebb-nagyobb mértékben, de már régóta használ ilyen MI-s eszközöket. Ezzel Repárszky is találkozott, így egy ideje már nem irat otthon esszéket, mert több olyat is kapott korábban, amit a diákok csetbottal írattak meg. Most viszont látta, hogy ahogy fejlődnek a modellek, ez egyre kevésbé lesz kiszúrható, ami egészen ijesztő. Egyelőre ki tudja ezt küszöbölni azzal, hogy például az iskolában irat csak esszét, de ahogy a technológia fejlődik, a tanárok új kihívásokkal szembesülnek majd.

Arról nem is beszélve, hogy bármi is legyen a véleményünk a mai magyar tanrendről és a közoktatás helyzetéről, azért az iskolák egyik dolga az, hogy segítsenek önálló gondolkodásra ösztönözni a fiatalokat. Azonban ha ott van előttük egy eszköz, ami nemcsak megrágja, de meg is emészti a szükséges információt, majd kész válaszként kiköpi eléjük, akkor nehéz őket ösztönözni. Arról nem is beszélve, hogy – ahogy az OpenAI kisbetűkkel jelzi a ChatGPT-ben – a csetbotok hibáznak, de sokan nem veszik a fáradságot, hogy átírják, leellenőrizzék, amit az MI kidob eléjük. Ez pedig hosszú távon ahhoz vezethet, hogy senkinek nem fog feltűnni, ha a fél magyar sajtó átvesz egy MI-generált álhírt, csak hogy behúzzák a kattintásokat.

De egy kis pozitivitás a pontok szerelmeseinek: mindkét diák remekül teljesített ma. Az összesen elérhető 68 pontból a ChatGPT 64, a Gemini pedig 67 pontot kapott, így jár nekik az 5-ös. Az igazi érettségizőknek pedig hajrá a maradékra és később a szóbelikre, már közel a nyári szünet!

Kedvenceink
Partnereinktől
Kövess minket Facebookon is!