A köztévé MI-műsorvezetője szárnyra kelni nem fog, de emberibb még biztosan lehet

Emlékeznek még Bíró Adára? Tudják, a köztévén futó, 2023 őszén újraélesztett Delta mesterséges intelligenciával létrehozott műsorvezetője, aki majdnem pont egy éve mutatkozott be. A debütálása után meg is próbáltunk utánajárni, hogy hogyan hozhatták létre, és bár konkrétumok nem nagyon derültek ki, az látszott, hogy egy váratlanul jó megoldásról van szó, ami a magyar tévézésben biztosan kuriózumnak számít. Azóta sok minden változott: az MI-műsorvezetőnek például a kezdeti piros ruha után lett több új öltözete is.
Persze ennél sokkal érdekesebb, hogy a Deltában állandó szereplővé váló Bíró Ada láthatóan fejlődött is egy év alatt, sőt interjúztatóként is kipróbálták, és olyan történelmi személyiségekkel beszélgetett, mint Konfuciusz, Carl Gustav Jung vagy Jókai Mór. Az első évforduló alkalmából a modell mögött álló ERLA Film vezetőivel, Urbán Ernővel és Rácz Gáborral beszélgettünk egyebek mellett arról, hogy hogy kerültek képbe a Deltánál, hogyan alkották meg és fejlesztették Bíró Adát, milyen etikai és jogi kérdések merültek fel és mit hozhat a jövő.
Honnan jött ez az egész?
Mielőtt bármi másról beszélnénk, érdemes felidézni, hogy honnan indult az egész projekt, és mik voltak az elmúlt egy év fontosabb állomásai. Bíró Ada tavaly április közepén mutatkozott be, és eleinte hírolvasóként és kvázi műsorvezetőként számítottak rá. Később beszállt a képek szerkesztésébe, idén pedig interjúkat is elkezdett készíteni, ahol már nemcsak ő, hanem híres történelmi személyiségek is megelevenedtek a mesterséges intelligencia segítségével. Ha valaki aktívan pörgeti a közösségi médiát, annak mindez annyira azért nem hangzik lenyűgözően,
elvégre az olasz brainrot mellett mindennap szembe jön az emberrel egy kényelmetlenül meggyőző videó mondjuk arról, hogy Volodimir Zelenszkij kiüti a Fehér Házban vele kötekedő Donald Trumpot.
Bíró Adába a fejlődés ellenére még mindig bőven bele lehet kötni, főleg az olyan interjúkban, amilyet például Jókai Mórral is készített az MI-műsorvezető, ahol jóval kevésbé tűnik emberinek. A fejlődése viszont tagadhatatlan, az új feladatai mellett azért is, mert a korai adásokhoz képest a szájmozgása, a mimikája és a gesztusai is sokat finomodtak. E mögött a fejlődés mögött pedig a modellt megalkotó ERLA Film munkatársainak rengeteg munkaórája és a saját megoldásaik folyamatos fejlesztése van, ahogy azt Urbán Ernő és Rácz Gábor a Telexnek elmondta.

Az ERLA Film korábban is dolgozott már együtt a köztévével egy másik műsoron, de egyáltalán nem volt magától értetődő, hogy az újrainduló Deltát is ők fogják gyártani. Urbán azt mondta, tudták, hogy a köztévénél egy kulturális műsorban gondolkodnak, ők pedig kértek egy bemutatkozási lehetőséget, amit meg is kaptak. Eleinte az nem is derült ki számukra, hogy a Deltát fogják gyártani, és az egész projekt elég kockázatosnak tűnt, még úgy is, hogy a túloldalon nyitottak voltak az MI-s ötleteikre. Ilyen avatárokat egyébként piaci szereplőknek is szolgáltatnak, szóval az igény máshol is látszik ezekre.
Az első MI-s ötletük az volt, hogy életre keltenek egy korábbi tévés szereplőt, ami végül meg is történt, a Delta első adásában Jávor Pál arcát és hangját illesztették rá egy valódi színészre, aminek végeredményét itt lehet megnézni. Rácz Gábor erről azt mondta, jó bemelegítés volt, és így el tudtak kezdeni azon gondolkodni, hogy hogyan tudnának egy társműsorvezetőt generálni, amikor még ennél is sokkal többet rá tudnak bízni az MI-s megoldásokra, és egy teljesen új karaktert hozhatnak létre. Ebből az ötletelésből született meg Bíró Ada, már teljesen más szoftveres háttérrel.
Hogy jött létre Bíró Ada?
Tavalyi cikkünkben egy szakértőt is megkérdezve arra jutottunk, hogy az MI-műsorvezetőt 3D szkenneléses módszerrel hozhatták létre, azaz egy valódi modellt vettek alapul hozzá. Urbán és Rácz most azt mondta, sem motion capture, sem 3D szkennelés nem volt, igazából pont ezeknek a felváltása volt a céljuk. Rácz elmondása szerint ehelyett képi alapok segítségével, a piacon elérhető MI-szoftverekből válogatják össze azokat a dolgokat, amiket hasznosnak éreznek, és ezeket egyesítik és finomhangolják a saját rendszerükben úgy, hogy végül összeálljon az, amit generálni szeretnének.
Volt olyan karaktermodell, amihez 27 különböző szoftvert használtak, például a kézmozdulatokra, az arcmimikára, a sminkre, a hajra, a szájmozgásra, a testmozgásra és a hátterekre. Rácz szerint a legtöbb idő azzal megy el, hogy keresik a mozaik megfelelő darabjait, amikből ki tudják rakni a teljes képet, azaz a teljes modellt, amit aztán trükkök nélkül, összefüggő egészként tudnak mozgatni. Így a kezdeti, kiszámíthatóbb kézmozgásoktól eljutottak oda, hogy meg tudják valósítani például azt, hogy a modell felmutat egy infografikára a képernyő bal felső sarkában.

Azt Rácz és Urbán is megerősítette, hogy az interjús környezetben máshogy néz ki Bíró Ada – a műsorvezetői énje egy sokkal részletesebben betanított modell, amit könnyebben tudnak a realisztikus, fix hátteres környezetben működtetni. Ezekben az interjúkban a szoftveres háttér miatt inkább animált karakternek tűnik, de a jövőben a realisztikus karakter korlátait szeretnék még jobban kitolni. De hogy néz ki ez az egész? Nagyjából úgy, hogy több karaktermodell létezik – például piros ruhás, fekete nadrágos és így tovább –, amelyeket
alapképekből kiindulva, gépi tanulással addig tanítottak, amíg úgy nem viselkedtek, ahogy szerették volna, majd a saját fejlesztéseikkel finomhangolták az olyan, apróbb dolgokat, mint a száj mozgása.
Az így megalkotott karaktermodellekből aztán az aktuális igényeknek megfelelően generálnak rövidebb mozgóképes szegmenseket, és ezekből születik meg a teljes videó, ahol Bíró Ada gördülékenyen beszél, gesztikulál és sétálgat. Azaz nem az történik, hogy bemásolják az MI-műsorvezető szövegét, meg azt, hogy mit kellene csinálnia, és a szoftver simán kiköp egy ötperces videót, ahogy az egy valódi embernél lenne, hanem addig generálnak pár mondatos, pár mozdulatos szekvenciákat, amíg azok jók nem lesznek, és ezeket vágják be egymás után.
Egy ilyen szegmens generálása ugyanúgy lehet 50-60 próbálkozás is, mint az olvasók számára nagyobb eséllyel ismerős képgeneráló szoftvereknél, csak Urbán elmondása szerint náluk még a sorrend is sokat számít. Nem mindegy, hogy előbb a smink kerül fel, a kézmozdulatokat csinálják meg, vagy a szájmozgást hozzák szinkronba a szöveggel. Rácz egy másik példát is hozott arra, hogy a modellek nem mindig azt csinálják, amire számít az ember. Egy másik munkájuknál két barátnak kellett volna egymást átkarolva bemutatkoznia, de ezt a rövid részt huszonkétszer kellett újra generálni. Az ok:
a karakterek nem álltak meg egymás átkarolásánál, hanem utána egyből csókolózni kezdtek, és nem ez volt a rendezői igény.
Kihívások, lehetőségek és a jövő
Az tehát látszik, hogy bár a köztudatban Bíró Ada úgy él, mint az MI-műsorvezető, valójában egyáltalán nem arról van szó, hogy a mesterséges intelligencia csinál mindent, az egész inkább azt mutatja meg, hogy a technológiát a filmes, tévés megoldásokkal együtt, hibrid környezetben hogyan lehet használni. Rácz hangsúlyozta, hogy emiatt ebben a projektben fontos, hogy az AI generalistáknak nevezhető, mesterséges intelligenciával foglalkozó szakemberek értsék a filmes, tévés elvárásokat is, hogy vizuálisan is átlássák azt a teret, amiben alkotnak.

Természetesen ezen túl is vannak limitációk. Ahogy az már a tavalyi bejelentéskor is kiderült, nagy hangsúlyt helyeznek arra, hogy bár elméletileg lehet úgy beszélgetni Bíró Adával, hogy a szavakat egy nagy nyelvi modell (azaz, mondjuk, a ChatGPT) adja a szájába, a Delta adásaiban mindig előre megírt szöveget mond fel. Rácz hozzátette, megtehetnék ezt is, hiszen a műsor nem élőben megy, így a mondatokat is generálhatnák addig, amíg jók nem lesznek. De hacsak nem kifejezetten ez van a forgatókönyvben, akkor szerinte nincs értelme elővenni. Technikailag az emberi műsorvezetőt is ki lehetne venni a képletből, de szerintük
- egyrészt fontos, hogy egy valódi, megfelelően kvalifikált ember is validálja az elhangzottakat;
- másrészt pedig egy embernél még mindig sok az egyelőre reprodukálhatatlan mikromozgás, és a környezettel való interakció, amit az MI-vel egyelőre még csak részben tudnak megcsinálni.
A szöveget egyébként azoknál a történelmi személyiségeknél is előre állítják össze, akiket az MI-műsorvezető „meginterjúvol”, az ő esetükben külön szakértők felelnek azért, hogy hiteles forrásokból dolgozzanak. Ez sokszor szó szerinti idézeteket jelent, Jókai esetében például az emlékirataiból emeltek át mondatokat. Az így megelevenített író, aki egyébként komolyan foglalkozott szőlőtermesztéssel, így a peronoszpóráról is beszélt a műsorban. Ezt a szöveget jogász is jóváhagyta, ami azért is fontos, mert első hallásra felmerülhet az emberben, hogy
álljon meg a menet, nincsenek etikai és jogi aggályai annak, hogy híres történelmi személyeket elevenítünk meg az MI segítségével?
Ez teljesen jogos, ahogy arról tavaly is írtunk, a hollywoodi színészsztrájkban is kulcsfontosságú volt a téma, de Rácz azt mondta, előzetesen alaposan körbejárták a szabályozási kereteket – amelyek az Európai Unióban részlegesen már életbe lépett AI Act miatt már léteznek, de a részletek egyelőre még kevésbé ismertek –, és arra jutottak, hogy jogtiszta forrásokkal, a tartalmi helyességre és a kegyeleti jogok tiszteletben tartására odafigyelve történelmi szereplőket életre lehet így kelteni.
Arra a kérdésre, hogy mit hozhat a jövő, Rácz és Urbán azt mondta, hogy részben a kialakuló szabályozás miatt, részben a technológiában élen járó cégek érdekei miatt mostanra lelassult kicsit a fejlődés üteme. A közeljövőben valószínűleg nem lesz még egy olyan robbanás, mint a technológia megjelenésekor, és inkább kicsivel hosszabb snittekkel lehet majd számolni, nem azzal, hogy Bíró Ada adás közben szárnyat növeszt és elrepül – persze ha lesz ilyen technológia, annak örülni fognak. Azt is hangsúlyozták, hogy mindig csak a pillanatnyi helyzetről tudnak beszélni, mert lehet, hogy holnap jön egy 9 dolláros alkalmazás, ami pár perc alatt megcsinálja ugyanazt, amit most ők tudnak.
„Ha most ugyanazt kéne gyártanunk, amit másfél évvel ezelőtt elkezdtünk gyártani, a mai tudásunkkal, akkor hátradőlnénk, és azt mondanánk, hogy »ollé!«. De közben a technológia meg mellé jött, és mellé jöttek az igények, tehát tulajdonképpen nem vagyunk könnyebb helyzetben, mint amikor elindultunk, mert más az igényszint saját magunk felé és a megrendelők részéről is. Ugyanabban a mókuskerékben pörgünk” – foglalta össze a jelenlegi helyzetet Urbán Ernő.