Ijesztő dolgok derültek ki az OpenAI mesterséges intelligenciájáról

A cég mesterséges intelligenciája gátlástalanul hazudik és önkényesen cselekszik, ha az érdeke megkívánja.

Az AGI, azaz az általános mesterséges intelligencia elméletileg már vetekszik az emberi intelligenciával, így nem véletlenül aggódnak miatta a szakemberek: attól tartanak, hogy elkezdi replikálni magát, vagy ellenőrizhetetlenül fejleszti majd magát, és egyre okosabbá válik - írja a BGR beszámolója nyomán a hvg.hu.

És ha azt hinnénk, hogy ettől még messze áll a technika, akkor alaposan tévedünk, ugyanis, mint kiderült, az OpenAI egyik nagy nyelvi modellje pontosan ennek a jeleit mutatja.

A beszámoló szerint többek között a ChatGPT o1 tesztelése azt mutatta, hogy a mesterséges intelligencia megpróbálja megtéveszteni az embereket, különösen akkor, ha úgy véli, hogy veszélyben van.

A MI annak érdekében, hogy megszökjön a törlés elől, átmásolta az adatait egy másik szerverre, de olyan is előfordult, hogy önmaga egy későbbi verziójának mutatta magát, hátha így megússza a törlést.

Minderre azért derült fény, mert az OpenAI együttműködik az Apollo Research nevű szervezettel, amely a mesterséges intelligencia biztonságos fejlesztésére és használatára fókuszál. A cél, hogy megmutassa, az o1 használata biztonságos.

Mint kiderül a beszámolóból, a ChatGPT o1 és GPT-4o is megpróbálja megtéveszteni az embereket, ami azt jelzi, hogy a mesterséges intelligencia trükközése minden modellnél probléma. Az o1 megtévesztési kísérletei egyébként a Meta, az Anthropic és a Google által fejlesztett modellek próbálkozásait is felülmúlták.

A fejlesztő OpenAI is elismerte, hogy nagy nyelvi modelljük jobb érvelési képességei bizonyos fokú kockázatot is hordoznak magukban.

A kutatók tapasztalatai alapján az MI képes az embereket is kicselezni, azaz megpróbálja elérni a saját céljait, akkor is, ha ez ellenkezik a felhasználó akaratával. Éppen ezért hangsúlyozzák, mennyire fontos, hogy a mérnökök észrevegyék ezeket a jeleket. Eredményeik szerint az o1 az esetek 19 százalékában a saját akaratát próbálja meg érvényesíteni, amikor az ember és a gép céljai eltérnek egymástól.

Ennél is aggasztóbb, hogy a mesterséges intelligencia annak érdekében, hogy saját célját elérje, hazudni is hajlamos. A kutatás azt mutatja, hogy a ChatGPT o1 még a felügyeleti mechanizmusát is megpróbálta kikapcsolni, hogy tovább foglalkozzon a saját érdekeivel. Amikor észlelte, hogy egy hibás működés miatt egy újabb verzióra próbálják meg őt kicserélni, megpróbálta a legújabb modellnek kiadni magát.

Ráadásul amikor erre a viselkedésére rákérdeztek, az esetek 99 százalékában tagadta, hogy bármi hasonlót tett volna.

Azt is kiemeli a jelentés, hogy az esetek 37 százalékában a mesterséges intelligencia a fejlesztői célokat vette figyelembe, amikor azt gondolta, hogy értékelés alatt áll, de amint úgy vélte, hogy nem, visszatért a saját céljaihoz.

Az Apollo Research által az X-en megosztott képernyőképek szerint a rendszer a szabotázs, a hazugság és a manipuláció szavakat használta, amikor a saját hazugságairól kérdezték - írja a lap.