Tekoälyn hitain kohta ei ole aina ajattelu. Usein se on odottaminen.

Kirjoitat pyynnön, malli alkaa naputtaa vastausta näkyviin sana kerrallaan ja käyttöliittymä yrittää saada tämän tuntumaan työskentelyltä. Se on jo arkea. Siksi emme aina huomaa, miten outo rakenne se on: maailman kehittyneimmät AI-järjestelmät käyttäytyvät ruudulla kuin hyvin nopea kirjoituskone.

Mercury, Gemini Diffusion, LLaDA, Dream ja muut teksti-diffuusiomallit yrittävät vaihtaa tämän perusmekanismin. Ne rakentavat ja korjaavat kokonaisuutta useammassa kohdassa yhtä aikaa sen sijaan, että ne tuottaisivat vastauksen pelkkänä sanaketjuna alusta loppuun. Jos tämä lähestymistapa kypsyy, AI-sovellukset voivat tuntua paljon nopeammilta. Ennen kaikkea ne voivat tuntua eri tavalla käytettäviltä.

Lähdetään katsomaan mistä diffuusiomalleissa on oikein kyse.

Perusidea: diffuusio rikkoo ja korjaa

Diffuusiomallin ajatus on helpoin ymmärtää kuvien kautta.

Kuvamallin harjoittelussa oikeaan kuvaan lisätään vähitellen kohinaa, kunnes jäljellä on käytännössä sotkua. Malli oppii kulkemaan toiseen suuntaan: se katsoo sotkua ja arvaa, miten siitä päästään takaisin järkevään kuvaan. Kun tätä tehdään riittävän hyvin, malli voi aloittaa satunnaisesta kohinasta ja jalostaa siitä kissan, tuotepakkauksen, maiseman tai arkkitehtuuriluonnoksen.

Tekstin kanssa sama idea on hankalampi. Kuva on jatkuvaa signaalia: pikseli voi olla vähän punaisempi, vähän kirkkaampi tai vähän tummempi. Teksti koostuu erillisistä merkeistä, sanoista ja tokeneista. Sana on oikein tai väärin. Sulku koodissa on paikallaan tai ei ole. Lauseen keskellä yksi väärä sana voi muuttaa merkityksen kokonaan.

Siksi teksti-diffuusio on joukko eri tapoja soveltaa samaa perusajatusta kieleen:

osa malleista lisää kohinaa tekstin upotuksiin eli matemaattisiin esityksiin
osa peittää sanoja tai tokeneita ja opettaa mallin täyttämään aukot
osa korruptoi tokenit suoraan diskreetissä tokeniavaruudessa
osa käsittelee tekstiä lohkoina, joita voi täydentää tai korjata rinnakkain

Yhteinen idea on silti sama. Malli ei ole sidottu etenemään vain yhdestä alusta yhteen loppuun. Se voi luonnostella, tarkentaa ja korjata.

Tämä tekee diffuusiomallista vähemmän kirjoittajan ja enemmän editoijan kaltaisen. Kirjoittaja aloittaa ensimmäisestä lauseesta ja jatkaa eteenpäin. Editoija katsoo koko luonnosta ja parantaa sitä sieltä, missä parannettavaa on.

Kehotesuunnittelun mestariopas: käytännön tekniikat Claudelle, ChatGPT:lle ja Geminille

Suomenkielinen 200-sivuinen mestariopas kehotesuunnittelusta. Mallineutraali, käytännöllinen, 80+ kopiovalmista kehotetta 10 rooliin. Opus, GPT, Gemini, Skills ja MCP mukana.

€79.00 eur

Miten nykyiset LLM-mallit yleensä kirjoittavat?

Nykyiset GPT-, Claude-, Gemini-, Llama- ja Qwen-tyyppiset kielimallit ovat pääosin autoregressiivisiä. Se tarkoittaa, että malli ennustaa seuraavan tokenin aiempien tokenien perusteella.

Jos vastaus alkaa näin:

❝

Diffuusiomalli on...

malli arvioi, mikä tokeni tulee seuraavaksi. Sitten se lisää tokenin vastaukseen, arvioi taas seuraavan ja jatkaa näin, kunnes vastaus on valmis.

Tässä on paljon hyvää. Autoregressiivinen malli tietää tarkasti, mitä se on jo sanonut. Se osaa jatkaa tarinaa, rakentaa argumenttia ja pitää keskustelun suunnan. Kieli itsessään on usein ajallista ja järjestyksellistä: ensin sanotaan asia, sitten sitä perustellaan, lopuksi vedetään yhteen.

Mutta rakenteessa on myös kova pullonkaula. Pitkää vastausta ei voi tuottaa kokonaan rinnakkain, koska tokeni numero 500 riippuu tokeneista 1-499. Jos malli kirjoittaa 2 000 tokenia, sen täytyy tehdä paljon peräkkäisiä päätöksiä.

Yksittäisessä chatissa tämä on ärsyttävää mutta siedettävää. Agenttityössä se muuttuu rakenteelliseksi ongelmaksi.

Kuvittele agentti, joka:

lukee sähköpostin
hakee dokumentit
tiivistää ne
tekee taulukon
tarkistaa luvut
kirjoittaa vastauksen
muotoilee sen asiakkaalle sopivaksi
pyytää toiselta mallilta arvioinnin
korjaa tekstin
tallentaa lopputuloksen

Yksi mallikutsu voi kestää vain muutaman sekunnin. Kymmenet kutsut tekevät työnkulusta hitaan. Jos käyttäjä odottaa ruudun ääressä, kokemus hajoaa.

Siksi nopeus ei ole vain tekninen mittari. Se on tuotesuunnittelua.

Mitä teksti-diffuusiomalli tekee eri tavalla?

Teksti-diffuusiomalli yrittää tehdä tekstille sen, minkä kuvamallit tekivät kuville: aloittaa epätäydellisestä esityksestä ja jalostaa sitä kohti kelvollista lopputulosta.

Käytännössä tämä voi näyttää monelta eri asialta.

Yksi malli saa eteensä lauseen, josta osa tokeneista on peitetty. Se ennustaa peitetyt kohdat, peittää osan uudelleen ja jatkaa jalostamista. Toinen malli aloittaa kokonaisesta lohkosta, joka on osittain kohinaa, ja muuttaa sitä vaiheittain luettavaksi tekstiksi. Kolmas malli käsittelee koodia niin, että se voi täyttää keskelle puuttuvan funktion, korjata aiemmin syntyneen rivin tai ehdottaa seuraavaa editointia ilman, että koko vastaus pitää rakentaa vasemmalta oikealle.

Tärkeä ero on rinnakkaisuus. Diffuusiomalli voi arvioida useita kohtia samassa vaiheessa. Se voi tehdä luonnoksen koko vastauksesta ja parantaa sitä useilla kierroksilla.

Tästä syntyy uusi säätövara:

kuinka monta diffuusioaskelta käytetään
kuinka monta tokenia korjataan kerralla
missä järjestyksessä vastaus jalostetaan
painotetaanko nopeutta vai laatua
annetaanko mallille mahdollisuus korjata omaa luonnostaan

Autoregressiivisessä mallissa laatu paranee usein antamalla mallin ajatella pidempään, tuottaa pidempi ketju tai kokeilla useita vastauksia. Diffuusiomalleissa kiinnostava kysymys on toinen: kuinka paljon luonnosta pitää jalostaa ennen kuin se on tarpeeksi hyvä?

Se kuulostaa pieneltä erolta. Se ei ole sitä.

Jos malli pystyy tuottamaan riittävän hyvän vastauksen muutamalla rinnakkaisella jalostuskierroksella, se voi olla paljon nopeampi juuri niissä kohdissa, joissa nykyiset AI-sovellukset tuntuvat kankeilta.

Mercury 2: kaupallinen testi nopeuden ympärillä

Inception Labsin Mercury 2 on syy, miksi teksti-diffuusiomalleista puhutaan nyt paljon enemmän kuin pari vuotta sitten.

Yhtiö esitteli Mercuryn kaupallisena diffuusiopohjaisten kielimallien perheenä. Ensimmäinen vahva kärki oli koodi: Mercury Coder Mini ja Mercury Coder Small. Inceptionin julkaisemissa vertailuissa Mercury Coder Mini ylsi yli 1 000 tokeniin sekunnissa H100-luokan GPU:lla, ja Mercury Coder Small jäi siitä alemmas mutta edelleen selvästi monia nopeita autoregressiivisiä malleja nopeammaksi.

❝

Nopeus on tässä olennainen lupaus. Mercury ei yritä voittaa kaikkia huipputason malleja kaikessa. Se yrittää siirtää nopeus-laatu-käyrää: tarpeeksi hyvä vastaus paljon nopeammin.

Myöhemmin Inception laajensi Mercuryä yleisempään chat-käyttöön ja julkaisi Mercury 2:n, jota se kuvaa nopeaksi päättelymalliksi. Mercury 2:n esittelyssä yhtiö korostaa tuotanto-AI:n muuttunutta luonnetta. AI-työ koostuu yhä useammin loopeista: agenteista, hakuketjuista, dokumenttien käsittelystä, luokittelusta, uudelleenkirjoituksesta ja tarkistuksista.

Tällaisissa looppeissa viive kertautuu. Jos yksi vaihe nopeutuu, koko ketju voi muuttua.

Mercury 2:n kohdalla Inception puhuu rinnakkaisesta jalostamisesta. Malli ei dekoodaa vastausta perinteisesti yksi tokeni kerrallaan, vaan tuottaa useita tokeneita samaan aikaan ja lähestyy vastausta pienellä määrällä jalostusaskelia. Yhtiön mukaan Mercury 2 yltää 1 009 tokeniin sekunnissa NVIDIA Blackwell -laitteistolla, tukee 128 000 tokenin kontekstia, työkalukäyttöä ja skeeman mukaista JSON-vastausta.

Nämä ovat valmistajan omia lukuja ja riippuvat ympäristöstä. Niitä ei pidä lukea niin, että Mercury olisi automaattisesti paras malli jokaiseen tehtävään. Silti suunta on kiinnostava: jos diffuusiomalli voi tarjota käyttökelpoista laatua näin matalalla viiveellä, sen paikka voi löytyä tuotannon sisältä.

Erityisen hyvä esimerkki on Mercury Edit 2. Se on suunnattu koodieditorin seuraavan editin ennustamiseen. Käyttäjä ei aina tarvitse pitkää selitystä. Hän tarvitsee yhden tarkan muutoksen oikeaan kohtaan. Tämä on diffuusiomallille luonteva tehtävä: katso konteksti, arvioi keskeneräinen rakenne ja ehdota korjaus nopeasti.

Koodieditorissa sekunnin tauko tuntuu pitkältä. Jos ehdotus tulee niin nopeasti, että se tuntuu osalta omaa ajattelua, käyttökokemus muuttuu.

1-to-1 AI-sparraus (300 €)

Kaksi tuntia henkilökohtaista AI-sparrausta, joka rakentuu kokonaan sinun tilanteesi ja tavoitteidesi ympärille. Ei valmiita kalvoja, ei geneeristä sisältöä - vaan konkreettista apua juuri niihin kysymyksiin, joita sinulla on tekoälyn hyödyntämisestä.

zcal.co/janneikola/ai-sparraus

Gemini Diffusion: Google kokeilee samaa suuntaa

Google DeepMindin Gemini Diffusion on toinen tärkeä merkki. Google kuvaa sitä kokeelliseksi tutkimusmalliksi, joka muuttaa satunnaista kohinaa koherentiksi tekstiksi tai koodiksi samaan tapaan kuin modernit kuva- ja videomallit muuntavat kohinaa visuaaliseksi sisällöksi.

Google korostaa kahta asiaa: nopeutta ja editointia. Gemini Diffusionin luvataan tuottavan sisältöä selvästi nopeammin kuin Googlen aiemmat nopeimmat mallit ja samalla vastaavan niiden koodauskykyä. Mallin kohde ei siis ole pelkkä keskustelu, vaan erityisesti tehtävät, joissa nopea luonnostelu ja korjaaminen ovat hyödyllisiä.

Googlen mahdollinen etu on ekosysteemi. Jos teksti-diffuusio toimii riittävän hyvin, sen ei tarvitse näkyä käyttäjälle uutena mallinimenä. Se voi tulla Geminiin, AI Studioon, koodityökaluihin, dokumenttien editointiin ja hakupohjaisiin työnkulkuihin taustatekniikkana.

Tämä on tärkeä havainto. Moni käyttäjä ei lopulta välitä, onko mallin sisällä autoregressiivinen vai diffuusiopohjainen dekoodaus. Hän huomaa vain, että ehdotus tuli heti, koko dokumentti muotoiltiin sekunnissa tai koodi täydentyi ilman miettimistaukoa.

❝

Tekniikka voittaa usein silloin, kun käyttäjä lakkaa ajattelemasta sitä.

LLaDA: avoin diffuusiokielimalli isossa kokoluokassa

LLaDA eli Large Language Diffusion with mAsking on tutkimuksen kannalta yksi tärkeimmistä malleista, koska se näytti, että diffuusioajattelua voi skaalata LLM-luokkaan.

LLaDA käyttää maskausta. Harjoittelussa tekstiä peitetään, ja malli oppii ennustamaan peitettyjä tokeneita. Generoinnissa prosessi käännetään: malli lähtee liikkeelle maskatusta tai osittain puuttuvasta tekstistä ja täyttää sitä vaiheittain.

LLaDA-paperin tekijät haastavat ajatuksen, että suurten kielimallien kyvyt vaatisivat välttämättä autoregressiivisen rakenteen. Heidän mukaansa LLaDA 8B pystyy kilpailemaan samankokoisten autoregressiivisten mallien kanssa useissa yleisissä tehtävissä, matematiikassa, koodissa ja ohjeiden noudattamisessa. Paperissa nostetaan esiin myös reversal curse -ilmiö, jossa autoregressiiviset mallit voivat osata yhteyden yhteen suuntaan mutta eivät toiseen.

LLaDA ei ole tavalliselle käyttäjälle samalla tavalla tuotemainen kuin Mercury. Sen merkitys on enemmän tutkimuksessa ja avoimessa ekosysteemissä. Se antaa kehittäjille ja tutkijoille mallin, jota voi ajaa, purkaa ja verrata.

Jos Mercury on kaupallinen nopeusväite, LLaDA on arkkitehtuuriväite: ehkä LLM:n ei tarvitse olla vasemmalta oikealle kirjoittava kone.

Dream 7B ja Dream-Coder: malli voi valita generointijärjestyksen

Dream 7B jatkaa samaa keskustelua avoimen tutkimuksen puolella. Se on 7 miljardin parametrin diffuusiokielimalli, jossa kiinnostava ajatus on joustavampi generointijärjestys.

Autoregressiivinen malli on järjestyksensä vanki. Se etenee alusta loppuun. Dream-tyyppisessä diffuusiomallissa generointi voi muistuttaa enemmän luonnostelua: ensin hahmotellaan kokonaisuutta, sitten tarkennetaan tärkeitä kohtia, lopuksi korjataan yksityiskohtia.

Dream-Coder vie tämän koodiin. Se voi eri tehtävissä käyttäytyä eri tavoin:

yksinkertaisessa täydennyksessä se voi muistuttaa vasemmalta oikealle etenevää mallia
monimutkaisessa algoritmitehtävässä se voi hahmotella rakenteen ensin
koodin ymmärtämisessä se voi käyttää limittäistä päättelyä ja täydennystä

Tämä tekee diffuusiomalleista kiinnostavia juuri koodissa. Koodi ei ole pelkkää proosaa. Funktion alku voi riippua lopusta, tyypit voivat määräytyä kutsupaikan mukaan ja virhe voi olla keskellä tiedostoa. Ihminenkin editoi koodia usein ei-lineaarisesti: ensin rakenne, sitten yksityiskohdat, sitten nimet, sitten reunatapaukset.

Diffuusiomallin luonteessa on samaa.

Seed Diffusion ja Stable-DiffCoder: ByteDance panostaa koodiin

ByteDance Seed -linja on toinen vahva koodipainotteinen suunta.

Seed Diffusion Preview raportoi erittäin korkeita nopeuslukuja kooditehtävissä. Paperin mukaan malli saavutti 2 146 tokenia sekunnissa H20-GPU:illa ja säilytti kilpailukykyisen suorituskyvyn koodibenchmarktien joukossa. Luku on kova, mutta taas sama varoitus pätee: nopeusmittarit riippuvat mittaustavasta, laitteistosta, batchauksesta, kontekstista ja siitä, mitä lasketaan tokeniksi.

Kiinnostavampi osa on ehkä Stable-DiffCoder. Se rakentuu Seed-Coderin arkkitehtuurin, datan ja koulutusputken päälle, mutta lisää lohkodiffuusioon perustuvan jatkokoulutuksen. Käytännössä tämä tarkoittaa, että autoregressiivisen koodimallin pohjalle opetetaan diffuusiomaisempaa lohkotason generointia ja korjausta.

Stable-DiffCoderin tekijät väittävät, että diffuusiokoulutus ei tuo vain nopeutta vaan voi nostaa myös laatua tietyissä kooditehtävissä. Tämä on tärkeää. Jos diffuusio jää vain nopeaksi mutta selvästi huonommaksi, sen käyttö jää aputöihin. Jos se parantaa myös rakennetta, editointia tai vähäresurssisten ohjelmointikielten hallintaa, sillä on oma paikkansa koodimallien kehityksessä.

Koodi voi olla diffuusiomallien ensimmäinen iso läpimurtokenttä. Se on tarpeeksi rakenteista, jotta virheet näkyvät. Se on tarpeeksi arvokasta, jotta nopeudesta maksetaan. Ja se on tarpeeksi editointipainotteista, jotta vasemmalta oikealle kirjoittaminen tuntuu usein oudolta rajoitteelta.

https://kehotesuunnittelija.fi/

SEDD, MDLM ja vanhemmat tutkimuslinjat: taustalla tapahtui paljon ennen Mercuryä

Mercury ei syntynyt tyhjästä. Teksti-diffuusio on ollut tutkimuskohde jo vuosia.

Diffusion-LM oli varhainen yritys tehdä kontrolloitavaa tekstintuotantoa diffuusiolla. Sen idea oli muuttaa teksti jatkuviksi vektoriesityksiksi, jalostaa niitä diffuusioprosessilla ja pyöristää lopputulos takaisin sanoiksi. Mallin vahvuutena oli kontrolli: haluttiin esimerkiksi määrätä tekstin syntaktista rakennetta tai muita hienovaraisia ominaisuuksia.

DiffuSeq sovelsi diffuusiota sekvenssistä sekvenssiin -tehtäviin, kuten tekstin muuntamiseen, tiivistämiseen tai vastaaviin ehdollisiin tehtäviin. Se osoitti, että diffuusiomallit voivat olla kiinnostavia myös silloin, kun lähtöteksti ja tavoiteteksti liittyvät toisiinsa tiukasti.

SEDD eli Score Entropy Discrete Diffusion vei teoriaa eteenpäin diskreetissä tokeniavaruudessa. Sen tavoite oli tehdä diskreetistä diffuusiosta vahvempaa ja paremmin perusteltua. MDLM eli Masked Diffusion Language Models puolestaan yksinkertaisti maskattujen diffuusiomallien koulutusta ja toi niitä lähemmäs klassista maskattua kielimallinnusta.

❝

Nämä eivät ehkä päädy kuluttajatuotteiden nimiin. Se ei tee niistä vähäpätöisiä. Usein lopulliset tuotteet näyttävät yksinkertaisilta juuri siksi, että niiden alle on kertynyt vuosien tutkimusmenetelmiä.

MMaDA: sama ajatus tekstille ja kuville

MMaDA eli Multimodal Large Diffusion Language Models vie kysymyksen vielä pidemmälle. Sen tavoite on rakentaa yhtenäisempi malli, joka käsittelee tekstiä ja kuvia samassa diffuusiokehyksessä.

Tämä on pidemmän aikavälin suunta, mutta se kertoo miksi aihe on isompi kuin tokeninopeus.

Nykyiset multimodaaliset järjestelmät ovat usein yhdistelmiä: yksi osa ymmärtää kuvaa, toinen kirjoittaa tekstiä, kolmas tuottaa kuvan, neljäs käyttää työkaluja. Diffuusiopohjainen multimodaalinen malli voisi periaatteessa luonnostella, ymmärtää, korjata ja generoida eri formaatteja samalla logiikalla.

❝

Ajattele dokumenttia, jossa on tekstiä, kaavioita, taulukoita ja kuvia. Autoregressiivinen tekstimalli on luonteva kirjoittamaan dokumentin läpi. Diffuusiomainen multimodaalinen malli voisi olla luontevampi korjaamaan koko dokumenttia: tiivistä tämä osio, siirrä tämä kaavio, tee kuvasta selkeämpi, muuta otsikon sävyä ja pidä kokonaisuus yhtenäisenä.

Tämä on vielä vaikeaa. Mutta juuri tällaisissa käyttöliittymissä diffuusion "koko luonnos näkyvissä" -luonne voi olla vahva.

Mallikenttä lyhyesti

Malli tai perhe	Pääidea	Vahvuus	Kypsyys	Todennäköinen hyvä käyttötapa
Mercury	Kaupallinen diffuusiopohjainen LLM	Nopeus ja tuotantokäyttö	Pisimmällä kaupallisena tuotteena	Koodi, agenttien alitehtävät, RAG-putket, reaaliaikaiset sovellukset
Mercury Edit 2	Diffuusiomalli seuraavan koodimuutoksen ennustamiseen	Matala viive editorissa	Tuotepainotteinen	Automaattitäydennys, seuraava muutos, refaktorointi
Gemini Diffusion	Googlen kokeellinen teksti-diffuusiomalli	Ekosysteemi ja tutkimusvoima	Kokeellinen	Koodi, matematiikka, editointi, tulevat Gemini-työkalut
LLaDA	Maskattu diffuusiopohjainen LLM	Avoin tutkimus ja skaalautuminen	Tutkimus/avoin	Ohjeiden noudattaminen, mallivertailu, tutkimus
Dream 7B	Avoin diffuusiomalli	Joustava generointijärjestys	Tutkimus/avoin	Suunnittelu, päättely, kokeilut
Dream-Coder	Diffuusiomalli koodille	Adaptiivinen koodigenerointi	Tutkimus/avoin	Algoritmit, koodin ymmärrys, täydennys
Seed Diffusion	Suuren nopeuden koodidiffuusio	Erittäin nopeat raportoidut luvut	Tutkimus/kokeellinen	Koodigenerointi suurissa putkissa
Stable-DiffCoder	Lohkodiffuusio Seed-Coderin pohjalla	Koodilaatu ja editointi	Avoin/kokeellinen	Koodieditointi, rakenteinen koodi
SEDD / MDLM	Menetelmäpohja diskreetille ja maskatulle diffuusiolle	Teoria ja koulutusreseptit	Tutkimus	Tulevien mallien rakennuspalikat
Diffusion-LM / DiffuSeq	Varhaiset kontrolli- ja sekvenssistä sekvenssiin -mallit	Kontrolloitavuus ja muunnostehtävät	Tutkimus	Tekstin muunnokset, tutkimus
MMaDA	Multimodaalinen diffuusiokehikko	Teksti ja kuva samassa suunnassa	Tutkimus	Pitkän aikavälin multimodaaliset työkalut

Ketkä voivat voittaa?

Todennäköisin vastaus on tylsä mutta todennäköinen: voittajia on useita.

Inception ja Mercury voivat voittaa ensimmäisen kaupallisen aallon, jos nopeus, hinta ja API-kokemus pitävät. Erityisen vahva paikka on tuotannon sisällä: agenttien alitehtävät, koodieditorit, RAG-putket, dokumenttien muotoilu ja reititys. Niissä mallin ei tarvitse aina olla maailman älykkäin. Sen pitää olla tarpeeksi hyvä, luotettava ja nopea.

Google voi voittaa ekosysteemin kautta. Gemini Diffusion ei tarvitse erillistä hypeaaltoa, jos sen tekniikka päätyy Geminiin, AI Studioon, Workspaceen tai kehittäjätyökaluihin. Googlella on myös valmiiksi kuva- ja videodiffuusion osaamista, valtava infra ja tuotteet, joissa viive merkitsee.

ByteDance voi voittaa koodissa, jos Seed- ja Stable-DiffCoder-linja osoittaa, että diffuusiokoulutus parantaa nopeus-laatu-suhdetta oikeissa kehittäjätyön testeissä. Koodi on hyvä areena, koska tuloksia voi ajaa, mitata ja verrata.

Avoimet mallit voivat voittaa kehittäjien ja tutkijoiden mielessä. LLaDA, Dream ja Stable-DiffCoder antavat mahdollisuuden katsoa konepellin alle. Se on tärkeää, koska diffuusiokielimallien parhaat käytännöt eivät ole vielä vakiintuneet. Avoin ekosysteemi löytää usein omituiset mutta arvokkaat käyttötapaukset nopeammin kuin suljetut tuotteet.

Hiljainen voittaja voi olla menetelmä, ei brändi. SEDD, MDLM, lohkodiffuusio ja muut tekniikat voivat päätyä tulevien mallien sisään niin, ettei käyttäjä koskaan kuule niiden nimiä.

❝

Näin käy usein AI:ssa. Tutkimusnimi katoaa. Käyttökokemus jää.

Mitä hyötyä tästä on käyttäjälle?

Ensimmäinen hyöty on vähemmän odottamista.

Se kuulostaa arkiselta, mutta arkisuus on asian ydin. Kun AI vastaa nopeasti, sitä käytetään eri tavalla. Koodieditorissa nopea ehdotus hyväksytään osaksi työn virtaa. Hidas ehdotus keskeyttää. Dokumenttityössä nopea uudelleenmuotoilu rohkaisee kokeilemaan. Hidas uudelleenmuotoilu tekee käyttäjästä varovaisen.

Toinen hyöty on parempi editointi.

Nykyinen chatbot-kokemus ohjaa ajattelemaan AI:ta vastauskoneena. Kirjoita kysymys, saat tekstin. Diffuusiomallit sopivat luontevammin tilanteisiin, joissa olemassa olevaa sisältöä muutetaan. Korjaa tämä kappale. Täytä keskelle puuttuva osio. Muuta koodin rakenne ilman, että kaikki nimet vaihtuvat. Tee koko dokumentista napakampi.

Kolmas hyöty on halvemmat ja useammat alitehtävät.

Jos diffuusiomallit ovat sekä nopeampia että halvempia ajaa, sovellukset voivat käyttää enemmän mallikutsuja. Agentti voi pyytää nopealta mallilta luonnoksen, toiselta tarkistuksen, kolmannelta luokittelun ja vahvemmalta mallilta lopullisen päätöksen. Tällainen mallireititys on jo alkanut, mutta halvat ja nopeat diffuusiomallit voivat tehdä siitä tavallisempaa.

Neljäs hyöty on uudet käyttöliittymät.

Kun viive laskee tarpeeksi, AI voi muuttua keskustelukumppanista jatkuvaksi muokkauskerrokseksi. Teksti päivittyy samalla kun ajattelet. Koodi ehdottaa seuraavaa muutosta ennen kuin ehdit pyytää sitä. Dokumentti muuttaa rakennetta lennossa. Ääniagentti vastaa luonnollisessa rytmissä ilman kömpelöä taukoa.

Tämä on iso ero. Käyttäjä ei välttämättä ajattele "käytän diffuusiomallia". Hän ajattelee: tämä tuntuu nopealta.

Lovable 101: Suomen kattavin opas vibe-koodaukseen

Rakenna toimivia sovelluksia ilman koodaustaitoja. 245-sivuinen opas ideasta julkaisuun Lovable-alustalla.

€19.00 eur

Missä diffuusiomallit voivat epäonnistua?

Nopeus ei tee mallista viisasta.

Diffuusiomallien suurin riski on, että nopea vastaus näyttää vaikuttavalta mutta vaatii paljon korjausta. Jos malli säästää kolme sekuntia ja aiheuttaa kolme minuuttia tarkistustyötä, hyöty katosi.

Pitkä koherentti vastaus on yksi vaikea alue. Autoregressiivinen malli rakentaa ajatusta luonnostaan järjestyksessä. Se muistaa, mitä se juuri sanoi, koska se on osa samaa ketjua. Diffuusiomallin pitää hallita kokonaisuutta eri mekanismilla. Se voi olla vahvuus editoinnissa, mutta avoimessa pitkässä argumentaatiossa se pitää todistaa tehtäväkohtaisesti.

Faktat ovat toinen riski. Diffuusio ei itsessään ratkaise hallusinaatioita. Malli voi olla nopea ja silti väärässä. Siksi RAG, lähteistys, evalit ja ihmisen tarkistus pysyvät tarpeellisina.

Kolmas riski on ekosysteemi. Nykyiset AI-työkalut, promptauskäytännöt, palvelininfra, välimuistit ja evalit on rakennettu autoregressiivisten mallien ympärille. Diffuusiomallit tarvitsevat omat parhaat käytäntönsä: miten säädetään askelten määrä, miten mitataan kokonaisviive, miten vertaillaan laatua, miten päätetään milloin vastaus on valmis.

Neljäs riski on benchmark-harha. Tokenia sekunnissa on houkutteleva luku, mutta se ei kerro kaikkea. Käyttäjää kiinnostaa kokonaisviive, laatu, korjaustarve, kontekstin käyttö, työkalukutsut, kustannus ja toimintavarmuus kuormassa.

❝

Siksi diffuusiomalleja ei kannata arvioida kysymällä "onko tämä parempi kuin GPT tai Claude". Parempi kysymys on: missä tehtävässä tämä muuttaa työn rytmin?

Miten aihetta kannattaa seurata?

Jos haluat testata diffuusiomallia käytännössä, aloita tehtävästä jossa nopeus on oikeasti pullonkaula.

Hyviä ensimmäisiä kohteita:

koodin täydennys ja seuraavan muutoksen ehdotukset
dokumentin uudelleenmuotoilu
lyhyet tekstimuunnokset
luokittelu ja reititys
RAG-putken välivaiheet
agenttien alitehtävät
JSON- tai skeemamuotoinen ulostulo

Huonoja ensimmäisiä kohteita:

juridinen, lääketieteellinen tai taloudellinen analyysi ilman tarkistusta
pitkä strateginen päättely
sisältö, jossa pieni virhe voi olla kallis
tehtävä, jossa nykyinen malli on jo tarpeeksi nopea
työ, jossa laatua ei voi helposti arvioida

Kysy kolme asiaa:

Onko tämä tehtävä viiveherkkä?
Onko tulos rakenteinen, lyhyt tai editoitava?
Riittääkö "tarpeeksi hyvä nopeasti", vai tarvitaanko paras mahdollinen vastaus?

Jos vastaus kahteen ensimmäiseen on kyllä, diffuusiomalli voi olla kiinnostava. Jos kolmas vaatii parasta mahdollista päättelyä, vahva autoregressiivinen huipputason malli voi edelleen olla parempi.

Tulevaisuus on luultavasti hybridi. Yksi malli ei tee kaikkea. Vahva päämalli suunnittelee, nopea diffuusiomalli hoitaa välivaiheita, erikoistunut koodimalli editoi, hakujärjestelmä tuo lähteet ja pienempi malli tarkistaa muodon.

AI-sovelluksen laatu ei synny enää vain yhdestä mallista. Se syntyy mallien työnjaosta.

Yhteenveto: nopeus muuttaa muodon

Diffuusiomallit tuovat kieleen ajatuksen, joka teki kuvamalleista tehokkaita: luonnos syntyy epätäydellisenä ja sitä jalostetaan.

Tekstissä tämä on vaikeampaa kuin kuvissa. Tokenit ovat diskreettejä, kieli on järjestyksellistä ja koodi hajoaa pienistä virheistä. Siksi teksti-diffuusio jäi pitkään tutkimuksen puolelle.

Nyt tilanne on muuttumassa. Mercury tekee diffuusiomalleista kaupallisen tuotantoväitteen. Gemini Diffusion kertoo, että Google tutkii samaa suuntaa tosissaan. LLaDA, Dream, Seed Diffusion ja Stable-DiffCoder näyttävät, että avoin tutkimus löytää omia reittejään.

Lähivuosien voittaja ei välttämättä ole malli, joka kirjoittaa pisimmän esseen. Se voi olla malli, joka tekee 40 pientä välivaihetta niin nopeasti, ettei käyttäjä huomaa odottavansa.

Siinä diffuusiomallien lupaus on vahvimmillaan. Ne voivat tehdä tekoälystä nopeamman lisäksi vähemmän erillisen työkalun ja enemmän osan työn virtaa.

Lähteet

Inception Labs: Introducing Mercury
Inception Labs: Introducing Mercury 2
Inception Labs: The Next Step for dLLMs: Scaling up Mercury
Inception Labs: Introducing Mercury Edit 2
Arxiv: Mercury: Ultra-Fast Language Models Based on Diffusion
Google DeepMind: Gemini Diffusion
Google Blog: Gemini Diffusion: Google DeepMind's experimental research model
Arxiv: Large Language Diffusion Models
GitHub: ML-GSAI/LLaDA
Arxiv: Dream 7B: Diffusion Large Language Models
Arxiv: Dream-Coder 7B: An Open Diffusion Language Model for Code
Arxiv: Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference
Hugging Face: Stable-DiffCoder-8B-Instruct
Arxiv: Stable-DiffCoder: Pushing the Frontier of Code Diffusion Large Language Model
Arxiv: Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution
Hugging Face Papers: Simple and Effective Masked Diffusion Language Models
Arxiv: Diffusion-LM Improves Controllable Text Generation
Arxiv: DiffuSeq: Sequence to Sequence Text Generation with Diffusion Models
Arxiv: MMaDA: Multimodal Large Diffusion Language Models

Haluatko sparrailla AI:sta etäkahvitellen?

Tekoäly voi olla voimakas työkalu, ja näiden aloittelijaystävällisten vaihtoehtojen avulla voit hyödyntää sitä omissa projekteissasi – olipa kyseessä sisällöntuotanto, ohjelmointi, markkinointi tai oppiminen.

Jos kaipaat koulutusta tekoäly-työkalujen käyttöön, nappaa tästä sitoumukseton etäkahvitteluaika ja jutellaan tarpeistasi 👇

Varaa etäkahvitteluaika tästä

Keskustellaan koulutus- tai työkalutarpeistasi.

zcal.co/janneikola

Mercury ja teksti-diffuusion paluu: miksi tekoälystä voi tulla paljon nopeampaa

Perusidea: diffuusio rikkoo ja korjaa

Miten nykyiset LLM-mallit yleensä kirjoittavat?

Mitä teksti-diffuusiomalli tekee eri tavalla?

Mercury 2: kaupallinen testi nopeuden ympärillä

Gemini Diffusion: Google kokeilee samaa suuntaa

LLaDA: avoin diffuusiokielimalli isossa kokoluokassa

Dream 7B ja Dream-Coder: malli voi valita generointijärjestyksen

Seed Diffusion ja Stable-DiffCoder: ByteDance panostaa koodiin

SEDD, MDLM ja vanhemmat tutkimuslinjat: taustalla tapahtui paljon ennen Mercuryä

MMaDA: sama ajatus tekstille ja kuville

Mallikenttä lyhyesti

Ketkä voivat voittaa?

Mitä hyötyä tästä on käyttäjälle?

Missä diffuusiomallit voivat epäonnistua?

Miten aihetta kannattaa seurata?

Yhteenveto: nopeus muuttaa muodon

Lähteet

Haluatko sparrailla AI:sta etäkahvitellen?

Reply

Keep Reading

AI-Sanomat

Home

Account

Bottiverstas

Premium-sisällöt

Työkalut