A gép diadala: csillagos ötös jár az MI-knek a hibátlan matekérettségiért

Van egy jó hírem az érettségizőknek: túl vagytok a matek írásbelin! Azért ne ünnepeljetek éjszakába nyúlóan, pihenjetek rá a holnapi törire, és ha esetleg kíváncsiak vagytok, jól oldottátok-e meg a feladatokat, akkor nézzétek meg a videónkat, amiben Csapodi Csaba, az ELTE Természettudományi Karának oktatója végigment a feladatsoron! És persze hajrá!
Visszafordulva a többi olvasónkhoz: ahogy tegnap megnéztük, hogy szerepel a mesterséges intelligencia (MI), azon belül is a ChatGPT és a Google Gemini a magyarérettségin, ma azt próbáltuk ki, mit kezdenek néhány középszintű matekfeladattal. A cikkhez a GPT-4o-t és a Gemini 2.5 Flash-t használtuk.
Hogy miért pont ezt a két modellt választottuk? A Geminit azért, mert ott van minden, nem túl régi androidos telefonon, ezért sokan férnek hozzá, a ChatGPT-t pedig azért, mert annak ellenére, hogy nem feltétlenül ez a legfejlettebb modell, a legtöbben ezt ismerik (még úgy is, hogy ott van Gemini a telefonjukon), és sokak fejében valószínűleg egyenlőségjel van az MI és a ChatGPT között.
Sokan ezt használják más keresőmotorok helyett (ami az OpenAI egyik célja), mert rögtön kész választ ad, elvileg nem kell átfésülni a talált információt (valójában át kellene, de ahogy a múlt héten láthattuk, még sok újságíró sem teszi ezt meg). A fejlesztők a negyedik ipari forradalomról beszélnek, és úgy adják elő, mintha az MI már szinte mindenre képes lenne (néhány apróbb, beismert hiányossággal), vagy legfeljebb pár év, és képes lesz mindenre; de ahogy a magyarérettségin láthattuk, vannak még akadályok, amiket évek óta nem tudnak megugrani.
Ahogy az embereknél, úgy az MI-nél sem mindegy, hogy tesszük fel a kérdést. Tesztjeinkben azonban nem fogunk prompt engineerként gondolkodni, mert a cikkeink nemcsak nekik szólnak, hanem mindenki másnak is, aki nem feltétlenül tanulmányozta tüzetesebben az új technológiát, de ennek ellenére lelkesen használja. Márpedig a legtöbb hétköznapi, nem előfizetős felhasználó nem gondolkodik hosszú percekig, hogy a lehető legérthetőbben fogalmazza meg az MI-nek feltett kérdést, hanem csak kérdez és reménykedik.
Telefonok, túródesszert és hegymászás
Két éve a ChatGPT csúfosan el- és megbukott a matekérettségin, pedig az ember talán pont azt hinné, hogy ha valami megy a gépnek, az a matematika. Akkori cikkünkben részletesen leírtuk, hogyan is számol a ChatGPT; hogy már évekkel az MI elterjedése előtt is léteztek matekban segítő programok; és kissé megnyugtató módon láthattuk, hogy a Bingnek sikerült összeszednie egy négyest.
Idén a feladatsor 16/a, 17/c és 18/d feladatát oldattuk meg a két MI-vel, és az elején hasonló kudarc volt, mint két éve. A konkrét feladatokat megnézheti a videónkban (16:01, 22:02, 30:10), de a cikkben megmutatjuk, mit kértünk az MI-ktől.
A kudarc abból eredt, hogy először egyszerűen feltöltöttem egy-egy fényképet az adott oldalakról, és megkértem a csetbotokat, hogy oldják meg az ott látható feladatokat. Sajnos mindketten teljesen félreértették már a kérdést is, rossz dolgot számoltak ki, a válaszuk így gyakorlatilag használhatatlan volt. Azonban a projekt célja nem az, hogy megalázzuk a gépet, ezért szövegesen is feltettem nekik a kérdést:
Itt megnézheti, mit válaszolt a ChatGPT, itt pedig azt, hogyan számolt a Gemini. Úgy tűnik, hogy az MI műelemezni ugyan még nem tud, de matematika terén tényleg sokat fejlődött az elmúlt két évben: mindketten jól válaszoltak, azaz levezették, hogy
- 2012-ben körülbelül 2,24 perc volt az átlagos hívásidő;
- 2017-ben körülbelül 7907 millió hívást indítottak;
- 2022-ben az összes hívásidő 28 388–28 392 millió perc volt.
Az utolsó választ kicsit cseles. Csapodi a videóban bemutatta, hogy a jó válasz 28 390, de azt is elmondta, hogy mivel kerekített adatokkal kell számolni, itt a megoldókulcsban valószínűleg egy intervallum lesz megadva. Viszont mikor megnézte a csetbotok válaszát, akkor az oktató a ChatGPT 28 392 milliójára és a Gemini 28 388 milliójára is azt mondta, hogy valószínűleg jó. Így mindkét csetbot megkapta a maximális 3-3 pontot.
Az első, képes próbálkozásban a ChatGPT azt számolta ki, hogy 2012-ben 8072 millió hívást indítottak, hogy 2022-ben 28 382 perc volt, és közölte, hogy több kérdés nincs is. Ezek közül van, ami hibás, van, ami nem is volt kérdés, szóval ha valami nagyon fontos feladatot így oldatna meg egy csetbottal, akkor alaposan nézze át az eredményt.
A következő feladatnál már meg sem kíséreltem a képes feltöltésből induló feladatmegoldatást (ami a Google egyik nagy ígérete, bár két éve még azt mondták, hogy csak angolul), inkább rögtön kézzel írtam be a kérdést, ami így hangzott:
A ChatGPT válaszát itt, a Gemini-ét itt megtalálja, és láthatja, hogy mindkettő ugyanaz és helyes: 10,98 köbcentiméter, ami 7-7 pontot ért. Itt igazából nincs is mit részletezni (bár ha a feladat levezetésére kíváncsi, ajánlom az említett videónkat), úgyhogy nézzük, mi volt az utolsó feladat:
Mint láttuk, az MI két év alatt matekban megtáltosodott, így talán nem meglepő, hogy ezt az akadályt is jól vették. A ChatGPT így, a Gemini pedig így vezette le a megoldást, ami 48. Ezzel 4-4 pontot zsebeltek be.
Mindkét MI-diák remekül szerepelt, az összesen kapható 14 pontból 14 pontot kaptak, úgyhogy jár nekik az 5-ös. Köszönjük, hogy ma is velünk tartottak! Holnap új résszel jelentkezünk, amiben hőseink a történelemmel néznek farkasszemet. Legutóbb a ChatGPT összeszedett egy 4-est, de az esszéi közel sem voltak tökéletesek. Szerdán kiderül, hogy megtanulta-e már, hogy a rendszerváltásnál meg kell említeni Nagy Imre temetését.