Az internet az információk végtelennek tűnő óceánja, ám mint kiderült, nagyon is vannak határai – írja legújabb cikkében a Nature magazin. A korlátlannak gondolt adatbázisról ugyanis bebizonyosodott: ez a mennyiség hamarosan már nem lesz elegendő ahhoz, hogy a mesterséges intelligenciákhoz (MI) használt nagy nyelvi modelleket (large language models – LLMs) tovább lehessen fejleszteni. Márpedig ez elengedhetetlen az olyan MI-k, mint például a ChatGPT társalgási szintjének, illetve az érvelőképességének tovább növeléséhez.
A madridi székhelyű Epoch AI virtuális kutatóintézet által nemrég kiadott tanulmány 2028-ra teszi azt az időpontot, amikorra az MI-fejlesztők kimerítik az internet valamennyi információját és onnantól kezdve
már nem lesz mivel tanítani a gépi intelligenciákat. Legalábbis ha addig nem találnak ki valamilyen új eljárást.
"Az információ fogyását az is gyorsítja, hogy a nagy tartalomközlők, mint például az újságok, egyre szigorúbban korlátozzák az általuk megjelentetett információk hozzáférését. Mindinkább fizetőssé válnak ezek az internetes oldalak" – közölte Shayne Longpre, a Bostoni Egyetem MI-kutatója.
Mi több, már bírósági ügyek is kezdődtek a szerzői jogok védelme érdekében. 2023-ban a The New York Times perelte be az OpenAI-t – jelentős összegű kártérítést követelve – a szerzői jogok megsértése miatt. Hasonló lépést tett ez év áprilisában a nyolc újság kiadásával foglalkozó Alden Global Capital is. A beperelt MI-fejlesztők azzal védekeznek: a gépi intelligencia számára is lehetővé kell tenni, hogy ugyanúgy olvasson online tartalmakat és tanuljon azokból, mint egy ember. Így szerintük az interneten publikált szövegek felhasználása az MI fejlesztésére nagyon is etikusnak minősül.
"Ha a bíróságok a kiadók javára ítélnek, akkor az jócskán megnehezíti majd a tudósok munkáját, hiszen ők nem arról híresek, hogy vastag lenne a pénztárcájuk" – vélekedett Shayne Longpre. Egy másik MI-szakértő viszont úgy látja, hogy korai lenne még a vészharangot kongatni, mivel az interneten évente csak 10 százalékkal bővülnek azok a minőségi információk, amit a napilapok, magazinok vagy a szépirodalmi alkotások jelentenek. Pablo Villalobos, az Epoch AI munkatársa szerint ugyanakkor az MI tanítására felhasznált információk mennyisége évente legalább 30 százalékkal növekszik.
Villalobos azt is elmondta, hogy az interneten mára úgy 3100 billió (1 billió = ezer milliárd) adat található. Viszont ha ebből levesszük a duplikációkat, vagy az olyan, az MI tanításához szükségtelen információkat, mint amiket például a pornográfia tartalmaz, akkor már csak pár tízezer milliárd felhasználható adat marad. Ez pedig azt a mennyiséget jelenti, amit pár éven belül kimerítenek a mérhetetlen tudásvágyú MI fejlesztések. De mi lesz azután?
Több módszer is létezik már a gond megoldására.
Az egyik az, hogy a fejlesztők a nem publikus adatokból szemezgetnek, mint amilyenek a WhatsApp üzenetek, vagy a YouTube-videók szövegei. A kaliforniai Menlo Parkban működő Meta például elismerte, hogy a Meta Quest virtuális valóság fejhallgató használóitól gyűjtött információkkal tanítják az MI-t. De nem minden cég felhasználói politikája egyezik ezzel. A Zoom konferenciaapplikáció fejlesztője például azt közölte, hogy nem alkalmazza a felhasználóktól származó adatokat MI-fejlesztéshez. Ellenben az OtterAI, ami hang- és videofájlokat alakít szöveggé, bejelentette, hogy beépíti a konvertálás során szerzett információkat a gépi intelligenciát oktató programjába.
A spanyol AI kutatóközpont már idézett munkatársa úgy becsüli, hogy ilyen módszerekkel bár rengeteg adatot lehet összesöprögetni, ám ezek többsége silány minőségű vagy éppen már meglévők többszörözése. Ezért legfeljebb három évvel lehet kitolni azt a határidőt, amikorra elfogynak az írott információk. További lehetőséget kínálnak olyan speciális szövegek, mint amelyek a csillagászattal vagy a génkutatással kapcsolatos publikációkban jelennek meg.
Fei-Fei Li, a kaliforniai Stanford University vezető MI-kutatója szerint kicsit szűken értelmezzük az információ fogalmát, ez is okozhatja az adatok kimerülésével kapcsolatos aggodalmakat. Ő azt javasolja, hogy a fejlesztők keresgéljenek az egészségügy, a környezetvédelem vagy oktatás témakörében megjelent kiadványokban is. Pablo Villalobos azonban kétségeit fejezte ki azzal kapcsolatban, hogy az amerikai kutató által említett területekről az MI fejlesztéséhez használható adatokat lehetne gyűjteni.
A Meta vezető MI-fejlesztője arra hívta fel a figyelmet, hogy a nagy nyelvi modellek már most is annyi adatot tartalmaznak, amennyit egy ember 170 ezer év alatt tudna csak elolvasni. Viszont egy gyerek életének első négy évében ennek 50 szeresét gyűjti be, hiszen az információk döntő részét vizuálisan kapjuk. Hasonló eredményt lehetne elérni azzal, ha az MI-k tanulnának a saját maguk által gyűjtött információkból is. Yann LeCun a Mesterséges Intelligencia Fejlesztéséért Egyesület legutóbbi konferenciáján azt hangoztatta, hogy
az MI soha nem érheti el az emberi intelligencia szintjét, ha csak nyelvi modellekkel tanítjuk.
Mások azon az állásponton vannak, ha nem áll rendelkezésünkre elég adat, akkor alkossunk újakat. Vannak olyan MI fejlesztő cégek, amelyek embereknek fizetnek azért, hogy új adatokat hozzanak létre, míg mások gépi intelligenciával teszik ugyanezt. Az OpenAI már naponta 100 milliárd szintetikus információt gyárt, ami egy év alatt annyi, mint amennyi ma a teljes MI oktatáshoz rendelkezésre áll.
Csakhogy van egy komoly gond a mesterségesen előállított információkkal: néha egészen furcsa irányba viszik el az MI-t. Egy ilyen adatokat is használó gép, amikor azt a feladatot kapta, hogy alkosson emberi arcképeket, vonalas ábrákat is beleépített a montázsokba. Nyilván mert a tanítására használt szintetikus információk közül nem tudta kiválogatni a teljesen hamisakat. Más esetekben viszont a mesterséges adatokkal képzett gépek nagyon is jól teljesítenek. Az AlphaGeometry remekül oldott meg nehéz geometriai feladványokat, miután 100 milliónyi szintetikus adattal tanították. Az önvezető járművekhez használt MI is gond nélkül gyakorolhat egy mesterséges adatokból kialakított, virtuális térben, hiszen, ha hibázik, akkor sem sérül meg senki.
Az adatok kimerülésének problémájára megoldást kínál a számítógépes hardverfejlesztés is. Ennek révén lehetővé válik, hogy a gépek többször is elolvassanak minden adatot. Az amerikai Stanford Egyetem doktorandusza, Niklas Muennighoff 2023-ban megjelent tanulmányában azt bizonygatta, hogy ha az MI négyszer megkapja ugyanazt az információt, akkor sokkal jobban fejlődik. Ez hihetetlenül hangzik, hiszen azt gondolnánk, a gépeknek kifogástalan a memóriája, amit egyszer bevittek oda, az ott is marad.
Csakhogy az MI tanításában statisztikai módszereket is használnak és ezeknél az ismétlés nagyban segíti az információ rögzülését.
A kevesebb több elv alkalmazása is sokat segíthet. Jó néhány szakértő vitatja, hogy minden feladathoz, ugyanolyan, széles tudású MI-t kellene alkalmazni. Speciális munkákra, különleges képzettségű robot kell, aminek a képzéséhez elegendő egy sokkal szűkebb információ bázis is.
Ugyanilyen hasznos lehet az önreflexió bevezetése az MI-k oktatásába. A pszichológiából átvett kifejezés saját magunk, gondolataink, viselkedésünk, motivációink, valamint beállítódásaink megfigyelését és megértését jelenti. Márpedig egy kellően felokosított gép erre is képes kell, hogy legyen.
Összességében Pablo Villalobos szerint a specializált oktató programokkal, az információk ismétlésével, a vizuális és a szintetikus adatok használatával, valamint az önreflexió módszerével áthidalható lehet az a gond, amit az MI fejlesztőinek az internet kimerülése jelenthet.