World models: Tekoäly opettelee ymmärtämään maailmaa

87 tuntia Counter-Strike-pelivideota. Yksi GPU. Siitä syntyi DIAMOND -- pelattava Counter-Strike-simulaatio, jossa tekoäly generoi jokaisen ruudun reaaliajassa pelaajan toimien perusteella. Ei koodia pelin fysiikasta. Ei sääntöjä luodeista tai seinistä. Malli oppi ne katsomalla.

Samaan aikaan Waymo testaa autonomista autoa tilanteessa, jota ei ole koskaan tapahtunut: tornado risteyksissä, norsut ajoradalla, lumimyrsky tropiikissa. Tilanteet eivät ole oikeita. Ne ovat simuloituja -- maailmamallilla, joka on oppinut miljoonista ajomiileistä miten fyysinen todellisuus käyttäytyy.

Mitä maailmamallit oikeastaan ovat, miksi niihin virtaa nyt miljardeja ja mitä ne tarkoittavat robotiikalle ja liiketoiminnalle?

Mikä on maailmamalli?

Kun joku heittää sinulle pallon, et laske fysiikan kaavoja. Aivosi simuloivat pallon liikeradan -- ennen kuin pallo edes saapuu. Tiedät mihin laittaa käden. Et ajattele sitä tietoisesti, mutta aivosi tekevät monimutkaista ennustamista koko ajan.

Juuri tätä maailmamalli tekee tekoälylle. Se rakentaa sisäisen representaation siitä, miten maailma toimii, ja käyttää sitä ennustamaan mitä tapahtuu seuraavaksi. (Kirjoitin aiemmin fyysisen tekoälyn murroksesta -- maailmamallit ovat sen murroksen ydinteknologia.)

Ero kielimalliin on selvä.

Ominaisuus	Kielimalli (GPT, Claude)	Maailmamalli
Mitä ennustaa	Seuraava sana	Seuraava tila maailmassa
Data	Teksti	Video, sensorit, fysiikka
Fysiikan ymmärrys	Heikko (opittu tekstistä)	Vahvempi (opittu visuaalisesti)
Suunnittelu	Rajoitettu	Sisäinen simulointi
Sovellukset	Kirjoitus, koodi, analyysi	Robotit, autot, pelit

❝

Metan tutkimusjohtaja Yann LeCun kiteyttääkin ongelman: kielimallit ovat "epäuskollinen puristus todellisuudesta". Ne voivat kuvailla pallonheiton täydellisesti, mutta eivät simuloida sitä. Kielimalli on kuin kirjan lukemista pallonheitosta. Maailmamalli on kuin pallon heittämistä itse.

LeCunin kehittämä JEPA-arkkitehtuuri (Joint Embedding Predictive Architecture) ei ennusta pikseleitä tai sanoja vaan abstrakteja representaatioita maailman tilasta. Metan V-JEPA erottaa toisistaan kynän asettamisen, nostamisen ja teeskentelemisen -- pelkästä videosta, ilman merkintöjä. Se on kyllä vaikuttavaa.

Lyhyt historia: unista maailmamalleihin

Idea ei ole uusi. Kognitiotieteilijä Kenneth Craik esitti jo vuonna 1943, että ihmismieli rakentaa sisäisiä malleja todellisuudesta. Tekoälytutkimuksessa termin popularisoivat David Ha ja Jürgen Schmidhuber vuonna 2018.

Heidän "World Models" -paperissaan tekoäly oppi ajamaan autoa "uneksimalla" -- se harjoitteli latentissa tilassa ilman oikeaa ympäristöä. Tulokset olivat vaatimattomia, mutta periaate kantoi.

Tämän jälkeen tahti on kiihtynyt:

2020: Google DeepMindin MuZero hallitsi shakin, Gon, shogin ja 57 Atari-peliä tietämättä yhdenkään pelin sääntöjä. Se oppi sisäisen maailmamallin pelkästä pelikuvasta.

2023: DreamerV3 löysi timantin Minecraftissa nollasta -- ilman ihmisdataa tai ohjeita. Ensimmäinen algoritmi, joka pystyi siihen. Se toimi yli 150 eri tehtävässä yhdellä konfiguraatiolla.

2024: OpenAI julkaisi Soran ja väitti suoraan, että videogeneraatiomallit ovat "polku kohti maailmasimulaattoreita". Joulukuussa Google DeepMind julkaisi Genie 2:n, joka luo interaktiivisia 3D-ympäristöjä yhdestä kuvasta.

2025-2026: Ensimmäiset kaupalliset tuotteet ja miljardirahoitukset. NVIDIA Cosmos, World Labsin Marble ja AMI Labsin JEPA-pohjaiset mallit aloittavat tuotantovaiheen.

Miksi juuri nyt? Laskentateho on vihdoin riittävää, videodataa on tarpeeksi ja kielimallien rajat ovat tulleet näkyviin. LLM:t eivät vaan opi fysiikkaa tekstistä, olipa dataa kuinka paljon tahansa.

Miljardiluokan panos: kuka rakentaa maailmamalleja?

Rahoitusluvut kertovat mihin suuret toimijat uskovat.

Yritys	Perustaja / Taustavoima	Rahoitus	Arvostus	Fokus
AMI Labs	Yann LeCun (Meta)	1,03 mrd. $	3,5 mrd. $	JEPA, tavoitelähtöinen AI
World Labs	Fei-Fei Li (Stanford)	1 mrd. $	~5 mrd. $	Spatiaalinen älykkyys, 3D
Luma AI	Jiaming Song ym.	900 milj. $	4+ mrd. $	Visuaaliset maailmamallit
Wayve	Alex Kendall	1,2 mrd. $	8,6 mrd. $	Autonominen ajo
Physical Intelligence	Karol Hausman ym.	600 milj. $	5,6 mrd. $	Robotiikka
General Intuition	Pim de Witte ym.	133,7 milj. $	-	Pelidata, spatiaalinen päättely

AMI Labsin rahoituskierros on Euroopan suurin siemenrahoitus koskaan. LeCun perusti yrityksen yhdellä teesillä: eivät kielimallit riitä, tarvitaan maailmamalleja jotka oppivat kuten lapset -- havainnoimalla, ei lukemalla.

Fei-Fei Li, Stanfordin professori ja ImageNet-tietokannan luoja, perusti World Labsin ajatukselle "spatiaalisesta älykkyydestä". Kielimallithan eivät ymmärrä tilaa. Ne eivät tiedä miltä huone näyttää toiselta puolelta. World Labs rakentaa malleja, jotka ymmärtävät 3D-maailmaa.

NVIDIA on ottanut alustarooliin. Cosmos on "foundation world model" -- avoimen lähdekoodin alusta, joka on koulutettu 9 000 biljoonalla tokenilla ja 20 miljoonalla tunnilla reaalimaailman videota. Se on tarkoitettu muiden yritysten pohjaksi, samaan tapaan kuin GPT on pohja kielisovelluksille. Tammikuussa 2026 sillä oli jo yli 2 miljoonaa latausta, ja varhaisia käyttäjiä ovat Figure AI, 1X, Waabi ja Uber.

Toimitusjohtajan AI-työkalupakki

121 strategista kehotepohjaa yrityksen johtamiseen. Yritysstrategia, hallitustyöskentely, johtoryhmän johtaminen, sijoittajaviestintä, M&A, kulttuurin rakentaminen, AI-transformaatio ja kriisijohta...

€79.00 eur

Sovellukset jo nyt: ei pelkkää tutkimusta

Maailmamalleja käytetään jo tuotannossa. Kolme aluetta erottuu.

Autonomiset ajoneuvot

Waymo julkaisi helmikuussa 2026 oman maailmamallinsa, joka perustuu Google DeepMindin Genie 3 -arkkitehtuuriin. Se on koulutettu miljoonien autonomisten ajomailien datalla ja pystyy simuloimaan tilanteita, joita yksikään kuljettaja ei ole koskaan kohdannut.

Malli generoi fotorealistisia ajoskenaarioita: liukkaat tiet, äkilliset esteet, outoja eläimiä ajoradalla. Kehittäjät voivat testata ajopolitiikkaa miljoonissa simuloiduissa tilanteissa sen sijaan, että ajaisivat ne kaikki oikeasti.

❝

Comma.ai meni pidemmälle. Se on ensimmäinen yritys, joka on ottanut world model -koulutetun ajopolitiikan tuotantokäyttöön. Heidän järjestelmänsä oppii ensin sisäisen mallin liikenteestä ja käyttää sitä sitten oikeassa ajoneuvossa.

Robotiikka

NVIDIA Cosmos -alustaa käyttävät jo Figure AI, 1X ja muut humanoidirobotteja rakentavat yritykset. Idea on sama kuin autonomisissa autoissa: robotti harjoittelee miljoonissa simuloiduissa ympäristöissä ennen kuin koskee oikeaan esineeseen.

Physical Intelligence keräsi 600 miljoonan dollarin rahoituksen tähän nimenomaiseen ongelmaan. Heidän tavoitteensa on rakentaa yleiskäyttöinen maailmamalli, jonka päälle mikä tahansa robotti voi oppia uusia tehtäviä.

Pelit ja simulaatio

Pelit ovat maailmamallitutkimuksen koelaboratorio. Ympäristö on hallittu ja säännöt selviä, joten iterointi on nopeaa.

DIAMOND-projekti osoitti, että 87 tunnin pelivideosta voi syntyä pelattava Counter-Strike -- murto-osalla datasta verrattuna aiempiin yrityksiin. DreamerV3 todisti, että maailmamalli voi ratkaista monimutkaisia tehtäviä (kuten timantin löytäminen Minecraftissa) ilman ihmisesimerkkejä.

Google DeepMindin Genie 3 vie ajatuksen tuotantotasolle: 24 fps, 720p-resoluutio ja johdonmukaisia ympäristöjä useiden minuuttien ajan. Se luo kokonaisia pelattavia maailmoja yhdestä kuvasta tai tekstikuvauksesta.

Tulevaisuus: yritysten omat maailmamallit

Autonomiset autot ja robotit ovat näyttäviä esimerkkejä, mutta liiketoimintasovellukset saattavatkin olla vielä merkittävämpiä.

Rohit Krishnan kirjoittaa Strange Loop Canon -blogissaan vision, jossa jokaisella yrityksellä on oma maailmamallinsa -- business world model. Se yhdistää CRM:n, kirjanpidon, varaston ja markkinadatan yhdeksi simuloitavaksi kokonaisuudeksi.

❝

Konkreettinen esimerkki: kiinteistöyritys, jolla on 15 kohdetta eri puolilla maata. Hajanaisia järjestelmiä: hallintaohjelmisto, kirjanpito, CRM, huoltotilaukset. Nykyään päätöksenteko perustuu raporttien lukemiseen ja intuitioon.

Maailmamalli yhdistäisi kaiken datan ja vastaisi kysymyksiin kuten: "Jos lasken vuokrahintoja 15 prosenttia, mitä tapahtuu käyttöasteelle ja voittomarginaalille ensi kvartaalilla?" Ei arvaus. Simulaatio.

Krishnanin mukaan johtaminen muuttuu "manage by exception" -malliksi. Tekoälyagentit tekevät tuhansia päätöksiä yön aikana. Aamulla johtaja tarkistaa poikkeamat: mikä meni odottamattomasti, missä tulokset paranivat nopeasti ja missä malli havaitsi uuden trendin.

Gartner ennustaa, että 40 prosenttia yrityssovelluksista sisältää tehtäväkohtaisia AI-agentteja vuoteen 2026 mennessä. Business world models olisivat seuraava askel: agentit jotka simuloivat vaihtoehtoja ennen toimintaa.

Suomessa tämä osuukin erityiseen vahvuuteen. Suomalaiset yritykset omaksuvat tekoälyä vauhdilla, ja teollinen perinteemme -- konepajat, prosessiteollisuus, logistiikka, energia -- on täynnä fyysisiä järjestelmiä, joiden digitaaliset kaksoset hyötyisivät maailmamalleista. Yritys voisi yhdistää tuotantolinjan sensoridatan, tilauskannan ja toimitusketjun yhdeksi malliksi. Sillä optimoisi toimintaansa tavalla, johon perinteiset analytiikkatyökalut eivät pysty.

Haasteet ja realismia

Maailmamallien lupaus on suuri, mutta rajansakin ovat todellisia.

Kumuloituva virhe. 99,5 prosentin tarkkuus per kuvaruutu kuulostaa erinomaiselta, mutta 200 ruudun jälkeen virhe kertyy hallusinaatioksi. DIAMOND-simulaatiossa pelaaja voi hyppiä loputtomiin, koska malli ei ymmärrä törmäysfysiikkaa täydellisesti. Soran generoimissa videoissa lasin rikkoutuminen toimii toisinaan ja toisinaan ei.

Laskentavaatimukset. Maailmamallin päättely vaatii tyypillisesti 8-32 GPU:ta per pyyntö, kun kielimalli selviää yhdellä tai kahdeksalla. Koulutus vaatii kymmeniä tuhansia GPU:ita ja petabytescale-tallennustilaa videodatalle. Tämä rajaa maailmamallit toistaiseksi suurten yritysten pelikentäksi -- tekoäly korvaa ensin ne joilla on resursseja, ja sama pätee yrityksiin.

Kausaliteetti vs. korrelaatio. Malli oppii "kiihtymisen jälkeen seuraa liike" -- mutta ymmärtääkö se, että kiihtyminen aiheuttaa liikkeen? Tämä filosofinen ja tekninen kysymys on ratkaisematta. Maailmamallit saattavat olla erinomaisia ennustajia mutta huonoja selittäjiä. Rehellisesti sanottuna kukaan ei vielä tiedä, riittääkö tilastollinen säännönmukaisuus vai tarvitaanko jotain syvempää.

Harvinaiset tilanteet. Malli toimii hyvin tutuissa tilanteissa mutta voi epäonnistua täysin tuntemattomissa. Juuri ne tilanteet ovat kriittisimpiä esimerkiksi autonomisessa ajamisessa.

Realistinen aikajana: tehtäväkohtaiset maailmamallit (autonominen ajo, robotiikka, simulaatio) ovat jo tuotannossa. Yleiskäyttöinen maailmamalli, joka ymmärtää fyysistä todellisuutta laajasti, lienee 3-5 vuoden päässä.

Mitä tästä pitäisi ajatella?

Maailmamallit eivät korvaa kielimalleja. Ne täydentävät niitä siellä, missä teksti loppuu ja fyysinen todellisuus alkaa. Kielimalli osaa kirjoittaa robotin käyttöohjeen. Maailmamalli osaa ohjata robottia. Parhaimmillaan ne toimivat yhdessä, kuten ensimmäisten AI-agenttityöntekijöiden kohdalla on jo nähty.

Yli 5 miljardia dollaria on virrannut maailmamalli-startupeihin kahdessa vuodessa. LeCun, Fei-Fei Li, DeepMind ja NVIDIA panostavat kaikki samaan suuntaan. Se kertoo jotain.

Ja toisin kuin moni tekoälytrendi, tämä ei ole pelkkää tulevaisuuspuhetta. Waymon ajosimulaatiot, Comma.ai:n ajopolitiikka ja NVIDIA Cosmosin robotiikka-alusta ovat jo tuotannossa.

Mitä seurata seuraavaksi: AMI Labsin ja World Labsin ensimmäiset julkiset demot, NVIDIA Cosmos -ekosysteemin kasvu ja ensimmäiset business world model -kokeilut. Kielimallit toivat tekoälyn tekstiin. Maailmamallien myötä se ulottuu fyysiseen todellisuuteen: autoihin, robotteihin, tehtaisiin.

Lähteet

Packy McCormick, "World Models", Not Boring, 2025 - notboring.co
Rohit Krishnan, "The Future of Work is World Models", Strange Loop Canon - strangeloopcanon.com
Ha & Schmidhuber, "World Models", 2018 - worldmodels.github.io
Meta AI, "V-JEPA", 2024 - ai.meta.com
Google DeepMind, "Genie 2", 2024 - deepmind.google
OpenAI, "Video generation models as world simulators", 2024 - openai.com
Waymo, "The Waymo World Model", 2026 - waymo.com
NVIDIA, "Cosmos", 2025 - nvidia.com
TechCrunch, "AMI Labs raises $1.03B", maaliskuu 2026 - techcrunch.com
DIAMOND, "Diffusion for World Modeling" - diamond-wm.github.io
DreamerV3, "Mastering Diverse Domains through World Models", 2023 - arxiv.org
Comma.ai, "Learning to Drive from a World Model" - blog.comma.ai

World models: Tekoäly opettelee ymmärtämään maailmaa

Mikä on maailmamalli?

Lyhyt historia: unista maailmamalleihin

Miljardiluokan panos: kuka rakentaa maailmamalleja?

Sovellukset jo nyt: ei pelkkää tutkimusta

Autonomiset ajoneuvot

Robotiikka

Pelit ja simulaatio

Tulevaisuus: yritysten omat maailmamallit

Haasteet ja realismia

Mitä tästä pitäisi ajatella?

Lähteet

Reply

Keep Reading

AI-Sanomat

Home

Account

Bottiverstas

Premium-sisällöt

Työkalut