A Google kiadta a legújabb mesterséges intelligenciáját

Apple Hírek | 2023.12.10 - 22:14 | Írta: Hidasi Ákos | 23340

10. dec A Google kiadta a legújabb mesterséges intelligenciáját

Bemutatjuk Geminit.

A Google vezérigazgatója, Sundar Pichai szerint új AI korszak kezdődik: a Gemini-korszak.

A Gemini a Google legújabb nagyméretű nyelvi modellje, amelyet Pichai először a júniusi I/O fejlesztői konferencián lengetett be, most pedig a nyilvánosság elé is tárt. Pichai és Demis Hassabis, a Google DeepMind vezérigazgatója szerint ez egy hatalmas előrelépés egy olyan mesterséges intelligencia-modell kifejlesztésében, amely végül gyakorlatilag a Google összes termékére hatással lesz. "Az egyik leghatásosabb dolog ebben a pillanatban" - mondta Pichai - "az, hogy dolgozhatunk egy alaptechnológián, javíthatunk rajta, és ez azonnal átfolyik a termékeinkre".

A Gemini több, mint egy sima mesterséges intelligencia modell. Létezik egy könnyebb verzió, a Gemini Nano, amelyet natív és offline futtatásra szántak az Android-eszközökön. Van egy erőteljesebb verzió, a Gemini Pro, amely hamarosan sok Google AI szolgáltatást fog működtetni, és amely mától kezdve a Bard gerincét képezi. És van egy még nagyobb teljesítményű modell, a Gemini Ultra, amely a Google eddigi legerősebb mesterséges intelligencia fejlesztése, és úgy tűnik, hogy főként adatközpontokba és vállalati alkalmazásokhoz tervezték.

A Google most többféleképpen is piacra dobja a modellt: A Bardot mostantól a Gemini Pro hajtja, a Pixel 8 Pro felhasználók pedig a Gemini Nanónak köszönhetően kapnak majd néhány új funkciót. (A Gemini Ultra jövőre érkezik.) A fejlesztők és a vállalati ügyfelek december 13-tól a Google Generative AI Studio vagy a Vertex AI segítségével férhetnek hozzá a Gemini Pro-hoz a Google Cloudban. A Gemini egyelőre csak angol nyelven érhető el, más nyelvek nyilván hamarosan érkeznek. Pichai szerint azonban a modell idővel a Google keresőmotorjába, hirdetési termékeibe, a Chrome böngészőbe és még sok másba is beépül majd, szerte a világon. Ez a Google jövőképének alapeleme.

Előzmények

Az OpenAI nagyjából pontosan egy éve indította el a ChatGPT-t, ami eredményeként a cég és a termék azonnal a legnagyobb dolog lett a mesterséges intelligencia területén. Most a Google - a vállalat, amely a jelenlegi AI-boom mögött álló alaptechnológia nagy részét megalkotta, amely közel egy évtizede "AI-first" - magyarul talán “AI-központúnak” fordítható a kifejezés - szervezetnek nevezi magát, és amelyet egyértelműen és kínosan meglepett, hogy a ChatGPT milyen jó volt, és milyen gyorsan vette át az OpenAI technológiája az iparágat - végre készen áll a visszavágásra.

Térjünk tehát rá a fontos kérdésre

OpenAI GPT-4 vs Google Gemini: kész, mehet. Ez már egy ideje egyértelműen a Google fejében van. "Nagyon alaposan elemeztük a rendszereket egymás mellett, és elvégeztük a benchmarkingot" - mondja Hassabis. A Google 32 jól ismert benchmarkot futtatott le a két modell összehasonlításával, az olyan átfogó tesztektől kezdve, mint a Multi-task Language Understanding benchmark, egészen addig, amely a két modell Python kód generálási képességét hasonlítja össze. "Úgy gondolom, hogy a 32-ből 30-ban lényegesen előrébb vagyunk" - mondja Hassabis, és egy kis mosoly ül ki az arcára. "Némelyik nagyon szűkös. Némelyik egyértelműbb."

Miben rejlik a Gemini erőssége?

Ezekben a benchmarkokban (amelyek többnyire tényleg nagyon szorosak) a Gemini legegyértelműbb előnye abból adódik, hogy képes megérteni a videót és a hangot, illetve interakcióba lépni velük. Ez nagyon is szándékos: a multimodalitás kezdettől fogva része volt a Gemini tervének. A Google nem képzett külön modelleket a képekre és a hangra, ahogyan az OpenAI létrehozta a DALL-E-t és a Whisper-t; kezdettől fogva egyetlen multiszenzoros modellt épített. "Mindig is nagyon-nagyon általános rendszerek érdekeltek minket" - mondja Hassabis. Különösen az érdekli, hogyan lehet az összes ilyen módot keverni - hogy a lehető legtöbb adatot gyűjtsék bármilyen bemenetből, majd ugyanilyen változatos válaszokat adjanak.

Jelenleg a Gemini legalapvetőbb modelljei a szöveg (be- és kimenő szöveg), de a nagyobb teljesítményű modellek, mint a Gemini Ultra, képekkel, videóval és hanggal is tudnak dolgozni. És "ennél is általánosabb lesz" - mondja Hassabis. "Még mindig maradtak dolgok, mint a cselekvés és az érintés - inkább robotikai típusú dolgok". Azt mondja, idővel a Gemini több érzékszervet kap, tudatosabbá válik majd, és egyre pontosabbá válik a folyamat során. "Ezek a modellek csak jobban megértik a körülöttük lévő világot". Ezek a modellek persze még mindig nem tökéletesen pontosak, és még mindig vannak torzításaik és egyéb problémáik. De minél többet tudnak, mondja Hassabis, annál jobbak lesznek.

Mit tapasztalunk majd a valóságban?

A benchmarkok azonban csak benchmarkok, és végső soron a Gemini képességeinek igazi próbáját a mindennapi felhasználók fogják jelenteni, akik ötletelésre, információkeresésre, kódírásra és sok másra szeretnék majd a rendszert használni. Úgy tűnik, a Google különösen a kódolásban látja a Gemini legerősebb alkalmazását; a Gemini egy új kódgeneráló rendszert használ, az AlphaCode 2-t, amely saját állítása szerint jobban teljesít, mint a kódolási verseny résztvevőinek 85 százaléka, szemben az eredeti AlphaCode 50 százalékával. De Pichai szerint a felhasználók szinte mindenben javulást fognak észrevenni, amihez a modell hozzáér.

Ugyanilyen fontos a Google számára, hogy a Gemini a jelek szerint sokkal hatékonyabb modell. A Google saját eszközein képezték ki, és gyorsabb és olcsóbb a futtatása, mint a Google korábbi modelljeinek.

Mit jelent ez a jövőre nézve?

Pichai és Hassabis beszélgetéseiből egyértelműen kiderül, hogy a Gemini elindítását egy nagyobb projekt kezdetének és egyben egy önmagában is jelentős lépésváltásnak tekintik. A Gemini az a modell, amelyre a Google várt, amelyre évek óta építkezik, sőt, talán már azelőtt készen kellett volna lennie, mielőtt az OpenAI és a ChatGPT átvette volna a világuralmat.

A Google, amely a ChatGPT elindítása után "vörös kódot" hirdetett, és azóta úgy tűnik, hogy a felzárkózásra játsszik, úgy tűnik, még mindig próbál ragaszkodni a "bátor és felelősségteljes" mantrájához. Hassabis és Pichai egyaránt azt mondják, hogy nem hajlandóak túl gyorsan haladni, csak hogy lépést tartsanak, különösen, mivel egyre közelebb kerülünk a végső mesterséges intelligencia-álomhoz: a mesterséges általános intelligenciához, amely az önfejlesztő, az embernél okosabb és a világ megváltoztatására kész mesterséges intelligenciát jelenti. "Ahogy közeledünk az AGI-hoz, a dolgok másképp fognak alakulni" - mondja Hassabis. "Ez egyfajta aktív technológia, ezért úgy gondolom, hogy óvatosan kell megközelítenünk. Óvatosan, de optimistán."

A Google azt mondja, keményen dolgozott a Gemini biztonságának és felelősségének biztosításán, mind belső és külső teszteléssel, mind pedig red-teaminggel. Pichai rámutat, hogy az adatbiztonság és megbízhatóság biztosítása különösen fontos a vállalati célú termékek esetében, ahol a legtöbb generatív AI megéri a pénzét. Hassabis azonban elismeri, hogy a legmodernebb AI-rendszerek bevezetésének egyik kockázata, hogy olyan problémák és támadási vektorok merülnek fel, amelyeket senki sem tudott előre jelezni. "Ezért kell kiadni a dolgokat" - mondja - "hogy lássuk és tanuljunk". A Google különösen lassan halad az Ultra kiadásával; Hassabis egy ellenőrzött bétához hasonlítja, egy "biztonságosabb kísérleti zónával" a Google legképzettebb és legkorlátozatlanabb modellje számára.

Pichai és más Google-vezetők évek óta költőien beszélnek a mesterséges intelligenciában rejlő lehetőségekről. Maga Pichai többször is azt mondta, hogy a mesterséges intelligencia nagyobb átalakulást fog hozni az emberiség számára, mint a tűz vagy az elektromosság. Ebben az első generációban a Gemini modell nem biztos, hogy megváltoztatja a világot. A legjobb esetben is csak segíthet a Google-nak, hogy utolérje az OpenAI-t a nagyszerű generatív mesterséges intelligencia létrehozásának versenyében. (A legrosszabb esetben a Bard unalmas és középszerű marad, a ChatGPT pedig továbbra is győzni fog.) De Pichai, Hassabis és mindenki más a Google-nál úgy tartja, hogy ez valami igazán nagy dolog kezdete. Az internet tette a Google-t technológiai óriássá; a Gemini viszont még nagyobbá teheti.

Forrás: The Verge

Kapcsolódó tartalmak: