A DeepSeek felforgathatja a mesterséges intelligencia piacát

A DeepSeek egy fejlett mesterséges intelligencia modell, amely hatékonyabb és olcsóbb alternatívát kínál a nagyobb versenytársakhoz képest, miközben a számítási erőforrások okosabb felhasználásával tűnik ki.

Miben más a DeepSeek?

A DeepSeek egy mesterséges intelligencia modell, amelyet kifejezetten technikai problémák megoldására fejlesztettek ki. A rendszer R1-es verziója 670 milliárd paraméterrel rendelkezik, és az egyik legnagyobb nyílt forráskódú nyelvi modell jelenleg. Fő előnye, hogy a számítási erőforrásokat hatékonyabban használja fel, mint a konkurensei. A fejlesztési költsége mindössze hatmillió dollár volt, ami elenyésző összeg a GPT-4 több mint százmillió dolláros árához képest. A DeepSeek egy újfajta megközelítést alkalmaz, amely utánozza az emberi gondolkodást, miközben kevesebb memóriát és energiát használ fel -írja a Cointelegraph.

Hogyan sikerült ilyen olcsón kifejleszteni?

A DeepSeek alapítója, Liang Wenfeng, előre gondolkodva nagy mennyiségben halmozott fel Nvidia A100 chipeket. Ezek a chipek 2022 szeptembere óta exportkorlátozás alá esnek Kína irányába, de Liang már ezt megelőzően begyűjtött legalább 50 ezer darabot. Emellett olcsóbb, de kevésbé fejlett H800 chipeket is alkalmaztak a fejlesztés során. A DeepSeek másik kulcseleme, hogy a modell egyszerre csak a szükséges paramétereket aktiválja, csökkentve ezzel a számítási költségeket. Ennek eredményeképpen egy hatékony, mégis gazdaságos AI-modellt sikerült létrehozni.

Technológiai újítások

A DeepSeek V2-es verziója két fontos technológiai újítást vezetett be: a Mixture-of-Experts (MoE) architektúrát és a Multi-head Latent Attention (MLA) mechanizmust. A MoE architektúra lényege, hogy a modell nem egyetlen nagy neurális hálózatként működik, hanem több kisebb „szakértői” hálózatból áll. Minden bejövő adatot csak az éppen releváns szakértők dolgoznak fel, ami jelentősen növeli a hatékonyságot. Az MLA mechanizmus pedig a memóriahasználat csökkentésére szolgál azáltal, hogy az információt tömörített formában tárolja, ami gyorsabb feldolgozást tesz lehetővé.

DeepSeek vs. ChatGPT: melyik a jobb?

A DeepSeek és a ChatGPT hasonló célokat szolgálnak, de eltérő erősségekkel rendelkeznek. A kínai modell különösen a technikai problémák megoldására lett optimalizálva, míg a ChatGPT inkább kreatív szövegalkotásra és általános felhasználásra alkalmas. A DeepSeek kevesebb paramétert használ egyszerre, így olcsóbban üzemeltethető. A ChatGPT 1,8 billió paramétert tartalmaz, míg a DeepSeek ugyan 670 milliárdot, de ebből egyszerre csak 37 milliárdot aktivál egy-egy kérdés feldolgozásakor. Ez jelentős költségmegtakarítást jelent, hiszen a mindössze 5,5 millió dollárból lett kiképezve, míg a ChatGPT-re több mint 100 millió dollárt költöttek.

DeepSeek kritikák

Bár a DeepSeek technológiai szempontból figyelemreméltó, akadnak vele kapcsolatban aggályok is. A kínai AI modellekhez hasonlóan a DeepSeek is kerüli a politikailag érzékeny témákat, például a Tienanmen téri eseményeket. Emellett adatbiztonsági kérdések is felmerültek, különösen, hogy a modell Kínában készült. Ausztrália tudományos minisztere, Ed Husic, óvatosságra intett a DeepSeek használatával kapcsolatban, hangsúlyozva az adatvédelem fontosságát. Az OpenAI ezzel szemben nagyobb hangsúlyt fektet a transzparenciára és az adatbiztonságra.

Regisztrálj a Bybitre! 10 $ bónusz + 30% kedvezmény a fee-ből.

Hozzászólnál a témához? Írd meg véleményed Discord szerverünkön.