A The New York Times egy Oumi nevű startup segítségével vizsgálta meg az AI Overviews pontosságát. A cég mesterséges intelligencia eszközöket használt a SimpleQA értékeléssel, amely egy gyakori teszt a generatív modellek, például a Gemini tényszerűségének rangsorolására. Az OpenAI által 2024-ben kiadott SimpleQA lényegében egy több mint 4000 kérdésből álló lista, ellenőrizhető válaszokkal, amelyek egy mesterséges intelligencia rendszerébe betáplálhatók.
Az Oumi tavaly kezdte el futtatni a tesztjét, amikor a Gemini 2.5 még a cég legjobb modellje volt. Akkoriban a benchmark 85 százalékos pontossági arányt mutatott. Amikor a tesztet a Gemini 3 frissítése után megismételték, az AI Overviews már
a kérdések 91 százalékát válaszolta meg helyesen. Ha ezt a hibázási arányt kivetítjük az összes Google-keresésre, az AI Overviews naponta több tízmillió helytelen választ generál
– írja az arstechnica.com, amit a Blikk szemlézett.
A jelentés számos példát tartalmaz arra, hogy az AI Overviews hol hibázott. Volt, hogy az AI Overviews olyan oldalakra hivatkozott, ahol a feltett kérdésre egyáltalán válasz, eltérő találatok esetében pedig magabiztosan a rosszat választotta.
A Google-nek természetesen nem igazán tetszik ez a teszt. Ned Adriance, a cég szóvivője a Timesnak elmondta, hogy a Google szerint a SimpleQA helytelen információkat tartalmaz. A modellértékeléseik gyakran egy hasonló, SimpleQA Verified nevű tesztre támaszkodnak, amely kevesebb, alaposabban ellenőrzött kérdést használ. „Ennek a tanulmánynak komoly hiányosságai vannak” – mondta Adriance, aki szerint „nem tükrözi, hogy az emberek valójában mit keresnek a Google-ben”.
A Google reakciója mindenesetre sokatmondó: a mesterséges intelligencia tényszerűsége terén már a 10-ből 9-es pontosság sem számít rossznak szerintük. A cég saját mérései szerint az új modellek 60–80 százalékos pontosságot érnek el – igaz, ezek a tesztek külső eszközök, például webes keresés nélkül zajlanak. Ha azonban az AI-t az internet hatalmas tudásbázisával „támasztják meg”, valóban pontosabbá válik, mint önmagában.
A probléma az, hogy az igazság gyakran a klasszikus „kék linkek” mögött rejtőzik, miközben az AI Overviews inkább arra ösztönzi a felhasználókat, hogy elfogadják az olykor pontatlan összefoglalókat, ahelyett hogy ellenőriznék a forrásokat. Bár a Google szerint egyes kritikák nem tükrözik a valós felhasználói élményt, nehéz megmondani, ezt mégis miből tudhatják, hiszen a hibák mindenki számára ismerősek – maga a vállalat is figyelmeztet: az AI tévedhet, ezért érdemes ellenőrizni a válaszokat – olvasható egyebek mellett.