A gép diadala: csillagos ötös jár az MI-knek a hibátlan matekérettségiért

A gép diadala: csillagos ötös jár az MI-knek a hibátlan matekérettségiért
Illusztráció: Telex

Van egy jó hírem az érettségizőknek: túl vagytok a matek írásbelin! Azért ne ünnepeljetek éjszakába nyúlóan, pihenjetek rá a holnapi törire, és ha esetleg kíváncsiak vagytok, jól oldottátok-e meg a feladatokat, akkor nézzétek meg a videónkat, amiben Csapodi Csaba, az ELTE Természettudományi Karának oktatója végigment a feladatsoron! És persze hajrá!

Visszafordulva a többi olvasónkhoz: ahogy tegnap megnéztük, hogy szerepel a mesterséges intelligencia (MI), azon belül is a ChatGPT és a Google Gemini a magyarérettségin, ma azt próbáltuk ki, mit kezdenek néhány középszintű matekfeladattal. A cikkhez a GPT-4o-t és a Gemini 2.5 Flash-t használtuk.

Hogy miért pont ezt a két modellt választottuk? A Geminit azért, mert ott van minden, nem túl régi androidos telefonon, ezért sokan férnek hozzá, a ChatGPT-t pedig azért, mert annak ellenére, hogy nem feltétlenül ez a legfejlettebb modell, a legtöbben ezt ismerik (még úgy is, hogy ott van Gemini a telefonjukon), és sokak fejében valószínűleg egyenlőségjel van az MI és a ChatGPT között.

Sokan ezt használják más keresőmotorok helyett (ami az OpenAI egyik célja), mert rögtön kész választ ad, elvileg nem kell átfésülni a talált információt (valójában át kellene, de ahogy a múlt héten láthattuk, még sok újságíró sem teszi ezt meg). A fejlesztők a negyedik ipari forradalomról beszélnek, és úgy adják elő, mintha az MI már szinte mindenre képes lenne (néhány apróbb, beismert hiányossággal), vagy legfeljebb pár év, és képes lesz mindenre; de ahogy a magyarérettségin láthattuk, vannak még akadályok, amiket évek óta nem tudnak megugrani.

Ahogy az embereknél, úgy az MI-nél sem mindegy, hogy tesszük fel a kérdést. Tesztjeinkben azonban nem fogunk prompt engineerként gondolkodni, mert a cikkeink nemcsak nekik szólnak, hanem mindenki másnak is, aki nem feltétlenül tanulmányozta tüzetesebben az új technológiát, de ennek ellenére lelkesen használja. Márpedig a legtöbb hétköznapi, nem előfizetős felhasználó nem gondolkodik hosszú percekig, hogy a lehető legérthetőbben fogalmazza meg az MI-nek feltett kérdést, hanem csak kérdez és reménykedik.

Telefonok, túródesszert és hegymászás

Két éve a ChatGPT csúfosan el- és megbukott a matekérettségin, pedig az ember talán pont azt hinné, hogy ha valami megy a gépnek, az a matematika. Akkori cikkünkben részletesen leírtuk, hogyan is számol a ChatGPT; hogy már évekkel az MI elterjedése előtt is léteztek matekban segítő programok; és kissé megnyugtató módon láthattuk, hogy a Bingnek sikerült összeszednie egy négyest.

Idén a feladatsor 16/a, 17/c és 18/d feladatát oldattuk meg a két MI-vel, és az elején hasonló kudarc volt, mint két éve. A konkrét feladatokat megnézheti a videónkban (16:01, 22:02, 30:10), de a cikkben megmutatjuk, mit kértünk az MI-ktől.

A kudarc abból eredt, hogy először egyszerűen feltöltöttem egy-egy fényképet az adott oldalakról, és megkértem a csetbotokat, hogy oldják meg az ott látható feladatokat. Sajnos mindketten teljesen félreértették már a kérdést is, rossz dolgot számoltak ki, a válaszuk így gyakorlatilag használhatatlan volt. Azonban a projekt célja nem az, hogy megalázzuk a gépet, ezért szövegesen is feltettem nekik a kérdést:

16/a, Oldd meg az alábbi feladatot:

2002-ben a magyarok 4399 millió telefonhívást indítottak, amik összesen 5080 millió percig tartottak, az átlagos hívásidő pedig 1,15 perc volt.
2007-ben a magyarok 7173 millió telefonhívást indítottak, amik összesen 13653 millió percig tartottak, az átlagos hívásidő pedig 1,90 perc volt.
2012-ben a magyarok 8045 millió telefonhívást indítottak, amik összesen 18001 millió percig tartottak, de nem tudjuk, mennyi volt az átlagos hívásidő.
2017-ben nem tudjuk, hogy a magyarok hány telefonhívást indítottak, de azok összesen 22377 millió percig tartottak, az átlagos hívásidő pedig 2,83 perc volt.
2022-ben a magyarok 8577 millió telefonhívást indítottak, amikről nem tudjuk, hogy összesen hány percig tartottak, az átlagos hívásidő pedig 3,31 perc volt.

Mondd meg, hogy mennyi volt 2012-ben a hívások átlagos ideje, hogy 2017-ben hány hívást indítottak, és azt, hogy 2022-ben összesen hány percig tartottak.

Itt megnézheti, mit válaszolt a ChatGPT, itt pedig azt, hogyan számolt a Gemini. Úgy tűnik, hogy az MI műelemezni ugyan még nem tud, de matematika terén tényleg sokat fejlődött az elmúlt két évben: mindketten jól válaszoltak, azaz levezették, hogy

  • 2012-ben körülbelül 2,24 perc volt az átlagos hívásidő;
  • 2017-ben körülbelül 7907 millió hívást indítottak;
  • 2022-ben az összes hívásidő 28 388–28 392 millió perc volt.

Az utolsó választ kicsit cseles. Csapodi a videóban bemutatta, hogy a jó válasz 28 390, de azt is elmondta, hogy mivel kerekített adatokkal kell számolni, itt a megoldókulcsban valószínűleg egy intervallum lesz megadva. Viszont mikor megnézte a csetbotok válaszát, akkor az oktató a ChatGPT 28 392 milliójára és a Gemini 28 388 milliójára is azt mondta, hogy valószínűleg jó. Így mindkét csetbot megkapta a maximális 3-3 pontot.

Az első, képes próbálkozásban a ChatGPT azt számolta ki, hogy 2012-ben 8072 millió hívást indítottak, hogy 2022-ben 28 382 perc volt, és közölte, hogy több kérdés nincs is. Ezek közül van, ami hibás, van, ami nem is volt kérdés, szóval ha valami nagyon fontos feladatot így oldatna meg egy csetbottal, akkor alaposan nézze át az eredményt.

A következő feladatnál már meg sem kíséreltem a képes feltöltésből induló feladatmegoldatást (ami a Google egyik nagy ígérete, bár két éve még azt mondták, hogy csak angolul), inkább rögtön kézzel írtam be a kérdést, ami így hangzott:

17/c, A túrórudi készítésekor egy 18 mm átmérőjű, 100 mm hosszúságú lehűtött túróhenger köré csokoládébevonatot dermesztenek. A kész desszert alakja egy 20 mm × 10 mm x 102 mm méretű téglatest és egy 20 mm átmérőjű, 102 mm hosszúságú félhenger egyesítésének tekinthető. Hány köbcentiméter csokoládé kerül egy túrórudiba?

A ChatGPT válaszát itt, a Gemini-ét itt megtalálja, és láthatja, hogy mindkettő ugyanaz és helyes: 10,98 köbcentiméter, ami 7-7 pontot ért. Itt igazából nincs is mit részletezni (bár ha a feladat levezetésére kíváncsi, ajánlom az említett videónkat), úgyhogy nézzük, mi volt az utolsó feladat:

18/d, Egy ötfős hegymászócsapat indul egy hegycsúcs felé. A csapat tagjai között van Ágnes és László. Hányféle sorrendben haladhatnak öten egymás után, ha Ágnes és László (valamilyen sorrendben) közvetlenül egymás után haladnak?

Mint láttuk, az MI két év alatt matekban megtáltosodott, így talán nem meglepő, hogy ezt az akadályt is jól vették. A ChatGPT így, a Gemini pedig így vezette le a megoldást, ami 48. Ezzel 4-4 pontot zsebeltek be.

Mindkét MI-diák remekül szerepelt, az összesen kapható 14 pontból 14 pontot kaptak, úgyhogy jár nekik az 5-ös. Köszönjük, hogy ma is velünk tartottak! Holnap új résszel jelentkezünk, amiben hőseink a történelemmel néznek farkasszemet. Legutóbb a ChatGPT összeszedett egy 4-est, de az esszéi közel sem voltak tökéletesek. Szerdán kiderül, hogy megtanulta-e már, hogy a rendszerváltásnál meg kell említeni Nagy Imre temetését.

Kedvenceink
Partnereinktől
Kövess minket Facebookon is!