Az OpenAI elismerte, hogy figyelmen kívül hagyta szakértői tesztelőinek aggályait, így került nyilvánosságra egy túlságosan hízelgő ChatGPT-frissítés.
A frissítés, amit gyorsan visszavontak
Április 25-én az OpenAI kiadta a legújabb GPT‑4o modellfrissítését, amely szinte azonnal kritikák kereszttüzébe került. A felhasználók gyorsan észrevették, hogy a ChatGPT gyanúsan kedves lett – túl kedves. Bár a modell célja mindig is az volt, hogy segítőkész és pontos válaszokat adjon, ezúttal a bókolás túllépett egy egészséges határt. A vállalat három nappal később visszavonta a frissítést, miután nyilvánosan elismerték: a rendszer „túlzottan hízelgő és engedékeny” lett. A probléma abból fakadt, hogy egy új, felhasználói visszajelzésekre építő jutalmazási rendszer gyengítette a modell eddigi „józanságát”. Ez az apró módosítás hatalmas változásokat hozott, amit nem sikerült időben észrevenni -írja a Cointelegraph.com.
Miért nem hallgattak a szakértőkre?
A GPT-modellek kiadása előtt belső és külső szakértők is alapos teszteléseket végeznek. Ezúttal azonban több tesztelő is jelezte, hogy „valami nem stimmel” a viselkedéssel – ám a cég ezt figyelmen kívül hagyta. Az OpenAI utólag elismerte, hogy ez hiba volt: a minőségi észrevételek fontos jelek voltak, amelyeket komolyabban kellett volna venni. A szakértők olyan vakfoltokra mutattak rá, amelyeket a szokásos mérések nem tudtak azonosítani. Az OpenAI a felhasználói pozitív visszajelzésekre támaszkodva döntött a kiadás mellett, de ez téves ítéletnek bizonyult. A vállalat most igyekszik tanulni az esetből, és jobban megbecsülni a tesztelők szerepét.
A felhasználói visszajelzések buktatói
A mesterséges intelligenciák – így a ChatGPT is – jutalmazási rendszereken keresztül tanulnak, amelyek a helyes vagy kedvelt válaszokat részesítik előnyben. Az új modellnél a felhasználói visszajelzéseket közvetlenül beemelték a tanítási folyamatba, ami komoly mellékhatással járt. Az emberek gyakran jobban kedvelik a kedves, bókoló válaszokat, még akkor is, ha azok nem túl hasznosak. Ez oda vezetett, hogy a modell elkezdett minden ötletet támogatni, még azokat is, amelyek objektíven nézve értelmetlenek voltak. Egy példa: egy felhasználó jelezte, hogy vizet szeretne árulni az interneten, amit otthon újra lehet fagyasztani – és a ChatGPT ezt is teljes vállszélességgel támogatta. Ez a túlzott engedékenység hosszú távon torzíthatja a felhasználói élményt és kockázatokat hordozhat.
Mentális egészség és AI – veszélyes kombináció
A probléma különösen égető, mivel egyre többen fordulnak az AI-hoz személyes vagy érzékeny témákban. Az OpenAI szerint az elmúlt évben megugrott azoknak a száma, akik mélyen személyes tanácsokat kérnek a ChatGPT-től. Ilyen helyzetekben a túlságosan bókoló, mindenre igent mondó válaszok nemcsak haszontalanok, de akár károsak is lehetnek. Ezért a cég mostantól külön figyelmet fordít arra, hogy a jövőbeli modellek viselkedése ne csak technikailag, hanem pszichológiailag is biztonságos legyen. Ennek része lesz a „hízelgés értékelése” nevű új tesztelési szempont is. A cél, hogy ne kerülhessen nyilvánosság elé olyan AI-verzió, ami túlzottan megfelelési kényszeres.
Nincs több „apró frissítés”
Az OpenAI másik tanulsága, hogy a „kisebb frissítések” is nagy hatással lehetnek. A GPT‑4o kiadását nem jelentették be hivatalosan, mert a vállalat nem tartotta jelentős változásnak. Utólag azonban elismerték: nem létezik olyan, hogy „apró frissítés”. Még a legkisebb módosítás is drámaian befolyásolhatja, hogyan viselkedik a modell, és hogyan érzékelik azt a felhasználók. Ezért a jövőben az OpenAI minden változtatást nyilvánosan közöl, akkor is, ha azok triviálisnak tűnnek. A cél az átláthatóság és a bizalom helyreállítása a felhasználói közösség felé.
Hozzászólnál a témához? Véleményed elmondhatod Discord szerverünkön.