Puhu puheassistentille, odota pari sekuntia, kuuntele robottimaiselta kuulostava vastaus. Tämä on ollut puheassistenttien perusongelma vuosikymmenen ajan. Google väittää nyt ratkaisseensa sen.

Gemini 3.1 Flash Live julkaistiin 26. maaliskuuta 2026, ja se on Googlen mukaan heidän "laadukkain ääni- ja puhemallinsa". Malli on saatavilla kehittäjille Google AI Studion kautta, kuluttajille Gemini Live- ja Search Live -palveluissa sekä yrityksille asiakaspalvelukäyttöön.

Miksi puheassistentit ovat tähän asti tuntuneet hitailta

Perinteinen puheassistentti toimii kuin huonosti organisoitu liukuhihna. Ensin ääni tunnistetaan puheeksi (VAD), sitten se muunnetaan tekstiksi (STT), teksti lähetetään kielimallille (LLM), kielimalli tuottaa tekstivastauksen ja lopuksi erillinen malli muuntaa tekstin puheeksi (TTS). Jokainen vaihe lisää viivettä. Ja jokaisessa vaiheessa menetetään jotain: sävyä, painotuksia, tunnetilaa.

Tätä kutsutaan "wait-time stackiksi". Siihen mennessä kun tekoäly avaa suunsa, käyttäjä on jo unohtanut mitä kysyi.

Gemini 3.1 Flash Live romuttaa tämän ongelman. Se käsittelee ääntä natiivisti, suoraan äänestä ääneen, ilman erillistä transkriptiovaihetta. Malli ei lue tekstitulkintaa puheestasi vaan kuulee sinut -- sävyn, tempon ja painotukset mukaan lukien.

Mitä malli osaa käytännössä

Kolme ominaisuutta erottaa Flash Liven edeltäjistään.

Ensinnäkin malli ymmärtää miltä puhe kuulostaa, ei pelkästään mitä sanat tarkoittavat. Se tunnistaa käyttäjän turhautumisen, hämmennyksen tai innostuksen äänen perusteella ja mukauttaa vastaustaan sen mukaan. Googlen sisäisten testien mukaan malli on merkittävästi parempi sävyn ja tempon tunnistamisessa kuin edeltäjänsä 2.5 Flash Native Audio.

Toiseksi malli toimii oikeassa maailmassa. Testeissä joissa taustalla kuului liikennettä, televisio-ohjelmia tai kahvilahälinää, Flash Live erotti puheen taustamelusta selvästi paremmin kuin aiemmat mallit. Tämä on ratkaiseva ominaisuus puhelimessa käytettävälle assistentille jota ei käytetä hiljaisessa toimistossa.

Kolmanneksi malli tukee "barge-in"-toimintoa: voit keskeyttää tekoälyn kesken lauseen, ja se lopettaa välittömästi ja kuuntelee. Tämä kuulostaa pieneltä yksityiskohdalta, mutta käytännössä se muuttaa kokemusta merkittävästi. Normaali keskustelu sisältää jatkuvasti keskeytyksiä, tarkennuksia ja suunnanmuutoksia. Ilman barge-inia puheassistentti pakottaa sinut odottamaan vuoroasi kuin puhelinkonferenssissa jossa mykistysnappi on jumissa.

ComplexFuncBench Audio -testissä, joka mittaa kykyä suorittaa monivaiheisia tehtäviä pelkän äänikäskyn perusteella, Flash Live sai 90,8 prosenttia. Käytännössä tämä tarkoittaa, että voit pyytää äänellä "etsi viime kuun laskut jotka ylittävät 500 euroa ja lähetä ne sähköpostilla kirjanpitäjälle" ja malli ymmärtää koko ketjun.

Ominaisuus

Flash Live

Edeltäjä (2.5 Flash)

Audiokäsittely

Natiivi ääni-ääni

Transkriptiopohjainen

Konteksti-ikkuna

128K tokenia

Pienempi

Kielet

90+

Rajatumpi

ComplexFuncBench

90,8 %

Matalampi

Melunsietokyky

Merkittävästi parempi

Perustaso

SynthID-vesileima

Kyllä, pakollinen

Ei

Työnhakijan AI-työkalupakki

Työnhakijan AI-työkalupakki

111 valmista kehotepohjaa työnhakuun. CV:n rakentaminen, työhakemukset, LinkedIn-optimointi, haastatteluvalmistautuminen, palkkaneuvottelu ja verkostoituminen - kaikki yhdessä paketissa. Kopioi, mu...

€19.00 eur

Livekuva: tekoäly näkee mitä näytät sille

Pelkän äänen lisäksi Flash Live käsittelee myös livekuvaa. Käytännössä tämä tarkoittaa, että voit avata puhelimesi kameran, osoittaa sitä kohti jotain ja keskustella tekoälyn kanssa siitä mitä kamera näkee reaaliajassa.

Search Livessä tämä toimii jo nyt. Voit esimerkiksi osoittaa kameraa kohti rikkinäistä vesihanaa ja kysyä "miten korjaan tämän?", ja tekoäly näkee tilanteen ja opastaa sinua vaihe vaiheelta puhumalla. Tai osoittaa kameraa kohti tuntemattoman kasvin lehtiä ja saada tunnistus sekunnissa. Voit kävellä vieraassa kaupungissa, kuvata katunäkymää ja kysyä reittiohjeet puhumalla. Tekoäly näkee missä olet ja kertoo minne mennä.

Olennaista on, että kuva ja ääni kulkevat samaan aikaan samassa sessiossa. Et ota ensin kuvaa, lähetä sitä ja odota vastausta. Keskustelet ja näytät samanaikaisesti, kuten tekisit ihmisen kanssa videopuhelussa.

Live API tukee videostriimejä noin yhden kuvan sekunnissa (JPEG tai PNG). Kehittäjät voivat rakentaa sovelluksia joissa tekoäly seuraa reaaliaikaista kuvavirtaa ja kommentoi sitä samalla kun keskustelee käyttäjän kanssa äänellä. Stitch-niminen sovellus käyttää tätä jo: suunnittelija voi puhua agentille ja näyttää samalla ruudullaan olevaa designia, ja agentti antaa palautetta siitä mitä näkee.

Ato-niminen laite käyttää samaa ominaisuutta toisessa kontekstissa: se on ikäihmisille suunniteltu AI-kumppani, joka käy päivittäisiä keskusteluja käyttäjänsä kanssa. Flash Liven monikielisyys tekee siitä toimivan myös pienemmillä kielialueilla.

Weekend-tiimi puolestaan integrointi Flash Liven roolipeliin: tekoäly toimii Game Masterina joka reagoi pelaajien puheeseen ja mukauttaa tarinaa reaaliajassa. Mallin kyky ylläpitää luonteenpiirteitä ja tunnelmaa pitkissä keskusteluissa tekee tämänkaltaisista sovelluksista ensimmäistä kertaa uskottavia.

Yhdistelmä on vaikuttava: puhut, näytät ja kuuntelet samassa luontevassa vuorovaikutuksessa.

Erillisten kuvahakujen ja tekstikyselyjen aika alkaa näyttää vanhanaikaiselta.

Kehittäjille: Multimodal Live API

Kehittäjien kannalta kiinnostavin uutuus on Multimodal Live API. Se on WebSocket-pohjainen (WSS), tilallinen ja kaksisuuntainen streaming-rajapinta -- ei perinteinen pyyntö-vastaus-malli.

Käytännössä tämä tarkoittaa jatkuvaa yhteyttä jossa data virtaa molempiin suuntiin samanaikaisesti. Kehittäjä lähettää raakaa 16-bittistä PCM-audiota (16 kHz) ja vastaanottaa raakaa PCM-audiota takaisin, ilman erillisen TTS-vaiheen viivettä.

Uusi thinkingLevel-parametri antaa kehittäjälle kontrollin nopeuden ja tarkkuuden välillä:

  • Minimal: oletusarvo live-sessioissa, matalin viive

  • Low/Medium: enemmän "ajattelua" ennen vastausta

  • High: syvällisin päättely, korkeampi viive, sopii monimutkaisiin ongelmiin

Konteksti-ikkuna on 128K tokenia, mikä mahdollistaa pitkät keskustelut ja laajat työkalumäärittelyt. Googlen mukaan Gemini Live pystyy nyt seuraamaan keskustelun juonta kaksi kertaa pidempään kuin aiemmin.

Google on myös julkaissut gemini-skills -repon, joka sisältää dokumentaatiota jonka voi syöttää koodausagentille. Heidän mukaansa oikean "skillin" lisääminen nosti koodigeneroinnin tarkkuuden 87 prosenttiin Gemini 3 Flashilla ja 96 prosenttiin Gemini 3 Prolla.

Missä sitä jo käytetään

Flash Live integroituu laajasti Googlen ekosysteemiin:

Gemini Live (Android ja iOS) saa nopeammat vastaukset, vähemmän kiusallisia taukoja ja kyvyn mukauttaa vastausten pituutta ja sävyä tilanteen mukaan. Tämä on se versio jota useimmat kuluttajat kohtaavat ensimmäisenä.

Search Live laajenee samalla yli 200 maahan. Se yhdistää äänihaun ja kameran: voit kysyä Googlelta puhumalla ja samalla näyttää kameralla mitä tarkoitat. Tähän asti tämä toimi vain Yhdysvalloissa ja muutamassa muussa maassa.

Yrityskäytössä Home Depot, Verizon ja muut testaavat mallia asiakaspalvelussa. Gemini Enterprise for Customer Experience tarjoaa puheagentin rakennuspalikat yrityksille jotka haluavat korvata perinteiset puhelinvalikot todellisella keskustelulla.

SynthID: vesileima jota et kuule

Yksi huomionarvoinen yksityiskohta: kaikki Flash Liven generoima audio sisältää SynthID-vesileiman. Se on ihmiskorvalle täysin huomaamaton mutta koneellisesti tunnistettavissa.

Tämä on tärkeää juuri nyt. Kun tekoälyn generoima puhe alkaa kuulostaa ihmiseltä, deepfake-riski kasvaa.

Ars Technica kiteytti otsikossaan: "The debut of Gemini 3.1 Flash Live could make it harder to know if you're talking to a robot."

Google tekee vesileimasta pakollisen, ei valinnaisen. Kaikki API:n kautta generoitu ääni leimataan automaattisesti. Se ei estä väärinkäyttöä kokonaan -- kukaan ei estä nauhoittamasta ja muokkaamasta ääntä muilla työkaluilla -- mutta se antaa alustoille ja tutkijoille työkalun tunnistaa tekoälypuhe jälkikäteen. Se on askel oikeaan suuntaan, ja todennäköisesti standardi jota muidenkin odotetaan seuraavan.

Nano Banana AI-kuvageneraattorin työkalupakki: 110 kehotetta ammattilaistason kuviin

Nano Banana AI-kuvageneraattorin työkalupakki: 110 kehotetta ammattilaistason kuviin

Nano Banana Pro on Googlen uusin kuvanluontimalli, joka ylittää kilpailijansa kolmella tavalla: - Tekstin renderöinti - Selkeä, luettava teksti suoraan kuviin - Hahmojen johdonmukaisuus - Sama ...

€19.00 eur

Mitä tämä tarkoittaa käytännössä

Gemini 3.1 Flash Live siirtää äänipohjaiset tekoälyagentit prototyyppivaiheesta lähemmäs tuotantokäyttöä. Matala viive, melunsietokyky ja monivaiheinen päättely ovat ne ominaisuudet joita oikeat sovellukset tarvitsevat.

Suomalaisille yrityksille tässä on konkreettinen mahdollisuus. Monikielinen asiakaspalvelu, jossa asiakas puhuu omalla kielellään ja saa luonnollisen kuuloisen vastauksen reaaliajassa, ei ole enää scifi. Se on API-kutsu. Samoin huolto- ja kenttätyö jossa teknikko voi näyttää kameralla ongelmaa ja saada ohjeita puhumalla -- ilman että tarvitsee kirjoittaa mitään tai etsiä manuaalia.

Malli on toistaiseksi preview-vaiheessa, eli tuotantokäytössä on vielä rajoituksia. Function calling toimii synkronisesti, ja kaikkia ominaisuuksia ei ole vielä saatavilla. Hinnoittelua Google ei ole vielä julkistanut preview-vaiheen ulkopuolelle.

Mutta suunta on selvä. OpenAI:n Advanced Voice Mode avasi tämän kilpailun, ElevenLabs on hallinnut puhesynteesiä ja nyt Google tulee mukaan natiivilla multimodaalisella mallilla joka yhdistää äänen, kuvan ja työkalujen käytön samaan pakettiin. Puheesta tulee tekoälyn ensisijainen käyttöliittymä, ja Flash Live on Googlen paras yritys tehdä siitä sellainen joka oikeasti toimii.

Reply

Avatar

or to participate

Keep Reading