„Google“ pristatė „Gemini Live“ antradienį per „Made By Google“ renginį Mauntin Vju mieste, Kalifornijoje. Ši funkcija leidžia palaikyti pusiau natūralų šnekamąjį pokalbį, o ne atspausdintą, naudojant AI pokalbių robotą, kurį maitina naujausias „Google“ didelės kalbos modelis. TechCrunch buvo ten, kad išbandytų tai iš pirmų rankų.
„Gemini Live“ yra „Google“ atsakymas į „OpenAI Advanced Voice Mode“ – beveik identišką „ChatGPT“ funkciją, kuri šiuo metu naudojama ribotame alfa versijos teste. Nors „OpenAI“ įveikė „Google“, pirmiausia demonstruodama šią funkciją, „Google“ yra pirmoji, kuri įdiegė užbaigtą funkciją.
Mano patirtis rodo, kad šios mažos delsos, žodinės funkcijos atrodo daug natūralesnės nei žinučių siuntimas naudojant „ChatGPT“ ar net kalbėjimas su „Siri“ ar „Alexa“. Pastebėjau, kad „Gemini Live“ į klausimus atsakė per mažiau nei dvi sekundes ir galėjo gana greitai pasisukti, kai buvo pertraukta. „Gemini Live“ nėra tobulas, tačiau tai geriausias būdas naudotis telefonu be laisvų rankų, kokį dar mačiau.
Kaip tai veikia
Prieš kalbėdami su Gemini Live, ši funkcija leidžia pasirinkti iš 10 balsų, palyginti su tik trimis balsais iš OpenAI. „Google“ dirbo su balso aktoriais, kad sukurtų kiekvieną iš jų. Vertinau įvairovę ir pastebėjau, kad kiekvienas skamba labai žmogiškai.
Viename pavyzdyje „Google“ produktų vadybininkas žodžiu paprašė „Gemini Live“ surasti šeimai tinkamas vyno daryklas netoli Mauntin Viu su lauko zonomis ir žaidimų aikštelėmis netoliese, kad vaikai galėtų ateiti kartu. Tai daug sudėtingesnė užduotis, nei norėčiau paprašyti „Siri“ arba „Google“ paieškos, atvirai kalbant, bet Dvyniai sėkmingai rekomendavo kriterijus atitinkančią vietą: „Cooper-Garrod“ vynuogynus Saratogoje.
Beje, „Gemini Live“ palieka norimų rezultatų. Atrodė, kad tai haliucinavo netoliese esančią žaidimų aikštelę, pavadintą Henrio pradinės mokyklos žaidimų aikštele, kuri tariamai yra „10 minučių kelio“ nuo to vynuogyno. Netoliese Saratogoje yra ir kitų žaidimų aikštelių, tačiau artimiausia Henriko pagrindinė mokykla yra daugiau nei už dviejų valandų kelio automobiliu. Redvudo mieste yra Henry Fordo pradinė mokykla, bet ji yra už 30 minučių.
„Google“ mėgo parodyti, kaip vartotojai gali pertraukti „Gemini Live“ sakinio viduryje, o AI greitai pasisuks. Bendrovė teigia, kad tai leidžia vartotojams valdyti pokalbį. Praktiškai ši funkcija neveikia idealiai. Kartais „Google“ projektų vadovai ir „Gemini Live“ kalbėdavosi vienas su kitu, o dirbtinis intelektas neatrodė, kas buvo pasakyta.
Pažymėtina, kad „Google“ neleidžia „Gemini Live“ dainuoti ar mėgdžioti bet kokių balsų, išskyrus 10, pasak produkto vadovo Lelando Rechis. Tikėtina, kad bendrovė tai daro siekdama išvengti susidūrimo su autorių teisių įstatymu. Be to, Rechisas teigė, kad „Google“ nesiekia siekti, kad „Gemini Live“ suprastų emocinę vartotojo balso intonaciją – tai, ką „OpenAI“ reklamavo savo demonstravimo metu.
Apskritai ši funkcija atrodo kaip puikus būdas giliau pasinerti į temą natūraliau, nei tai darytumėte naudojant paprastą „Google“ paiešką. „Google“ pažymi, kad „Gemini Live“ yra žingsnis link „Project Astra“ – visiškai multimodalinio AI modelio, kurį bendrovė debiutavo „Google I/O“ metu. Kol kas „Gemini Live“ gali tik kalbėtis balsu, tačiau ateityje „Google“ nori pridėti vaizdo supratimą realiuoju laiku.