Tammikuussa 2025 Yann LeCun istui Davosin lavalle ja sanoi sen ääneen. Nykyisen paradigman säilyvyysaika on lyhyt, todennäköisesti kolmesta viiteen vuoteen. Lokakuussa hän tiukensi viestiä AI Frontier Symposiumissa: LLM:t muuttuvat hyödyttömiksi viiden vuoden sisällä. Tilalle hän ennustaa Energy-Based Model -tyyppisiä arkkitehtuureja.

Lausahdusten takana ei ole kuka tahansa. LeCun on Metan päätekoälytutkija, Turing-palkittu pioneeri ja yksi syvien neuroverkkojen isistä. Kun hän sanoo, että ChatGPT:n ja Clauden pohja-arkkitehtuuri on väistymässä, kannattaa kuunnella. Vaikka ei oltaisi samaa mieltä.

Tämä artikkeli avaa, miksi LeCun puhuu näin, mikä Energy-Based Model on ja onko se oikeasti GPT:n perillinen. Mukaan mahtuvat myös diffuusiomallit, Mamba, JEPA, world models ja muut tällä hetkellä eniten huomiota keräävät vaihtoehtoiset arkkitehtuurit. Pääpaino on EBM:ssä, koska siitä ei ole suomeksi vielä kirjoitettu juuri mitään.

Vaikka artikkeli saattaa kuulostaa tekniseltä, se on kirjoitettu tavallisen tietotyöläisen näkökulmasta eli älä anna vielä periksi 🤓

Miksi nykyiset LLM:t ovat ongelmissa

Transformer-arkkitehtuuri, jolle GPT, Claude ja Gemini perustuvat, on nyt kahdeksan vuotta vanha. Se julkaistiin Googlella 2017 paperissa "Attention Is All You Need". Sen jälkeen koko ala on rakentanut sen päälle. Skaalattu suuremmaksi, opetettu enemmällä datalla, viritetty vahvistusoppimisella. Mutta itse arkkitehtuuria ei ole vaihdettu.

LeCun ja moni muu tutkija pitää tätä ongelmana, koska transformerin rajat alkavat näkyä neljällä tavalla.

Hallusinaatiot eivät ole bugi. Ne ovat rakenteellinen piirre. Transformer ennustaa todennäköisimmän seuraavan sanan annettujen sanojen perusteella. Se ei tarkista faktaa mistään, koska sillä ei ole tarkistuskykyä. Joskus arvaus osuu oikein. Joskus se on lähellä. Joskus täysin pielessä. Käyttäjä ei näe eroa. (Kirjoitin aiemmin siitä, miten arvioit onko AI:n vastaus luotettava.)

Maailmamalli puuttuu. LLM ei ymmärrä syy-seuraussuhteita, fysiikkaa eikä ajan kulkua. Se tunnistaa kielelliset rakenteet niin hyvin, että vaikutelma ymmärryksestä syntyy. Mutta kun mallia pyytää tekemään johtopäätöksiä, jotka vaativat oikean maailman tuntemusta, virheet tulevat tutuiksi. (Avasin tätä laajemmin artikkelissa world models opettelevat ymmärtämään maailmaa.)

Laskenta kasvaa neliöllisesti. Kun konteksti pitenee, tarvittava laskenta kasvaa neliöllisesti. Tuhannen sanan konteksti on miljoona vertailuparia. Kymmenen tuhannen sanan konteksti on sata miljoonaa. Tämä on syy siihen, miksi pitkät keskustelut hidastuvat ja miksi miljoonan tokenin kontekstit ovat yhä kalliita.

System 1 -loukku. Daniel Kahnemanin kuuluisa jako: nopea intuitiivinen ajattelu (System 1) ja hidas harkittu päättely (System 2). Nykyiset LLM:t ovat puhdas System 1. Kaikki vastaukset syntyvät yhdellä läpäisyllä, ilman pysähdystä, ilman tarkistusta. Reasoning-mallit kuten o3 ja DeepSeek R1 yrittävät tuoda System 2:n ohjelmistotasolla pyytämällä mallia ajattelemaan ääneen ennen vastausta. Se auttaa, mutta se on laastari arkkitehtuurissa, joka ei luonnostaan tee mitään muuta kuin ennusta. (Asia on käsitelty tarkemmin artikkelissa reasoning-vallankumous.)

❝

LLM on kuin opiskelija, joka kirjoittaa tenttivastauksensa hakematta mitään paperista ja luottaa pelkkään muistiin. Joskus oikein, usein lähellä, toisinaan täysin pielessä. Se on uskomattoman tehokas tapa tuottaa tekstiä, mutta se ei ole ajattelua siinä mielessä missä ihminen ajattelee.

Energy-Based Models: mikä se on?

Energy-Based Modelin perusidea on yksinkertainen. Sen sijaan että malli tuottaisi vastauksen suoraan, se oppii arvioimaan, kuinka hyvä jokin vastaus on suhteessa kysymykseen. Tämä arvio on numero, jota kutsutaan energiaksi. Matala energia tarkoittaa, että vastaus sopii kysymykseen hyvin. Korkea energia tarkoittaa, että ei sovi.

Ajattele sitä maisemana. Kuvittele kartta, jossa joka pisteessä on korkeus. Vuoret ovat huonoja vastauksia. Laaksot ovat hyviä vastauksia. EBM ei aloita siitä, että se kävelisi suoraan tiettyyn pisteeseen. Se aloittaa jostain ja vierittää itsensä alas. Etsii laaksoa. Energian minimointi on kävelyä alaspäin tässä maisemassa.

Tästä seuraa kaksi mielenkiintoista asiaa.

Ensinnäkin malli voi arvioida useita vastausvaihtoehtoja ja valita parhaan, koska sillä on luonnostaan mittari sille, mikä on parempaa. Toiseksi malli osaa kertoa, kuinka varma se on, koska laakson syvyys on käytännössä luottamuspisteet. Jos laakso on matala ja loiva, malli on epävarma. Jos laakso on syvä ja jyrkkä, malli on varma.

Tämä eroaa GPT:n tavasta toimia perustavalla tasolla. GPT valitsee aina sanan, joka on tilastollisesti todennäköisin seuraava. Se ei vertaa kahta lopullista vastausta keskenään. Se rakentaa yhden, sana kerrallaan, eikä peruuta valintoja. Jos kolmanteen sanaan on tullut huono valinta, virhe kasvaa loppuun asti.

Sama System 1 vastaan System 2 -ajatusrakennelma. GPT on automaattinen ja nopea. EBM voi olla harkitseva ja hitaampi, mutta tarkempi. Erona reasoning-mallien tapaan ratkoa asia on se, että EBM:ssä harkinta on sisäänrakennettu arkkitehtuuriin. Se ei ole ohjelmistotason korjaus.

Hyvä vertaus on shakkitietokone. Deep Blue ei valinnut siirtoa intuitiolla. Se etsi miljoonien siirtokombinaatioiden joukosta sen, joka maksimoi sen pisteet. EBM tekee jotain vastaavaa vastausavaruudessa, ei shakkilaudalla. Se ei generoi yhtä vastausta. Se etsii parasta.

Nobel-palkinto teki EBM:stä taas ajankohtaisen

Lokakuussa 2024 Ruotsin Tiedeakatemia ilmoitti fysiikan Nobel-palkinnon saajat. John Hopfield ja Geoffrey Hinton. Palkinto annettiin "perustavanlaatuisista löydöistä ja keksinnöistä, jotka mahdollistavat koneoppimisen keinotekoisilla neuroverkoilla".

Mielenkiintoinen yksityiskohta jäi suurimmassa osassa uutisointia sivuun. Hopfield ja Hinton eivät palkittu transformereista. Heidät palkittiin energiapohjaisten neuroverkkojen pioneerityöstä.

Hopfield-verkot ovat vuodelta 1982. Idea on, että verkko muistaa kuvioita energiamaisemana. Kun siihen syötetään häiriöistä versiota muistetuista kuvioista, verkko vierittää itsensä alas energiamaisemassa kohti lähintä alkuperäistä kuviota. Sama perusperiaate kuin nykyaikaisissa EBM:issä.

Hinton kehitti samalla 1980-luvulla Boltzmann-koneita. Ne ovat verkkoja, jotka oppivat datan jakauman energiafunktion kautta. Niistä tuli yksi syvien uskomusverkkojen ja monen modernin generatiivisen mallin esi-isä.

Miksi idea sitten katosi tutkijoiden työpöydiltä? Koska se oli laskennallisesti raskas. Energian minimointi vaatii iterointia, ja 1990-luvun ja 2000-luvun laskentateho ei riittänyt skaalaamaan EBM:iä mihinkään käytännössä mielenkiintoiseen kokoon. Sitten tulivat konvoluutioneuroverkot, syvät neuraaliverkot ja vihdoin transformerit, jotka olivat tehokkaampia opettaa nykyisellä laitteistolla.

Tilanne kääntyy nyt. Laskentaa on saatavilla satakertaisesti enemmän kuin kymmenen vuotta sitten. EBM:n kustannus laskee. Ja Nobel-palkinto signaalina kertoo, että kenttä pitää näitä ideoita tärkeinä, ei ainoastaan transformereita.

https://zcal.co/janneikola/ai-sparraus

Energy-Based Transformer: konkreettinen läpimurto kesällä 2025

Heinäkuussa 2025 ilmestyi paperi, joka sai monet tutkijat havahtumaan. "Energy-Based Transformers are Scalable Learners and Thinkers", kirjoittajina tutkijoita viidestä huippuyliopistosta: UVA, UIUC, Amazon GenAI, Stanford ja Harvard.

Paperin pääväite oli rohkea. EBT, eli energiapohjaisen transformerin variantti, skaalautuu paremmin kuin tavallinen transformer. 35 prosenttia nopeampi datan suhteen, 29 prosenttia parempi inferenssin aikana. Se tarkoittaa, että samalla datamäärällä EBT oppii enemmän, ja samalla parametrimäärällä se osaa enemmän.

❝

Lisäksi EBT osoitti hyvää suoriutumista kuvanpoistokohinassa. 99 prosenttia vähemmän eteenpäin-laskentavaiheita verrattuna Diffusion Transformeriin, mutta silti kymmenen kertaa parempi tarkkuus ImageNetissä. Yhdellä paperilla saatiin esitettyä, että energiapohjainen lähestymistapa pärjää sekä kielen että kuvien kanssa.

Ilmaista lounasta ei kuitenkaan ole. EBT:n koulutus vaatii 3,3-6,6 kertaa enemmän laskentaa kuin tavallisen transformerin. Tämä on iso ongelma, kun puhutaan satojen miljardien parametrien malleista. Ja toinen ongelma: EBT skaalattiin paperissa vain 800 miljoonaan parametriin. GPT-4 on arvioiden mukaan tuhannesta kahteen tuhanteen miljardiin. Matkaa GPT-luokan EBM:ään on vielä paljon.

Mitä paperi siis todistaa? Periaatteen toimivuuden.

Skaalauslait ovat suotuisat. Mutta se ei ole vielä tuote, vaan prototyyppi. Hyvä vertaus on sähköautojen ensimmäiset prototyypit 1990-luvulla. Ne ajoivat. Ne suoriutuivat tietyistä testeistä paremmin kuin polttomoottorit. Mutta tankki oli pieni ja tuotantolinja puuttui.

JEPA ja maailmamallit: LeCunin oma visio

Yann LeCun ei jää teoriapuheen tasolle. Metalla on käynnissä JEPA-niminen tutkimusohjelma, joka edustaa LeCunin näkemystä siitä, mikä korvaa transformerin. JEPA on lyhenne sanoista Joint Embedding Predictive Architecture.

JEPA eroaa transformerista yhdellä perusteellisella tavalla. Se ei yritä ennustaa sanoja tai pikseleitä. Se ennustaa abstrakteja representaatioita, eli mallin sisäisiä tiivistettyjä kuvauksia siitä, mitä maailmassa tapahtuu. Sen sijaan että malli oppisi sanomaan "kissa istuu matolla", se oppii sisäisesti, että kuvassa on lämminverinen olento, joka on staattisessa asennossa pintaa vasten. Käyttäjälle näkyvä kieli on toinen kerros.

LeCunin perusargumentti on, että lapsi oppii fyysisen maailman toiminnan vuosia ennen kuin osaa puhua. Hän näkee, että tavarat putoavat. Että vesi virtaa. Että jos kupin työntää reunalta, se kaatuu. Tämä on maailmamalli. Sen päälle myöhemmin rakennetaan kieli. LLM:t oppivat päinvastaisessa järjestyksessä, kielestä alkaen, ja LeCunin mielestä se on syy siihen, miksi ne eivät koskaan opi todella ymmärtämään.

Käytännön todiste on V-JEPA 2, jonka Meta julkaisi kesäkuussa 2025. Malli on 1,2 miljardia parametria ja koulutettu yli miljoonalla videotunnilla. Sen erikoisalue on robottien ohjaus ja fyysinen maailma. Tuloksena 30 kertaa nopeampi suoriutuminen kuin Nvidian Cosmos-mallilla robottiohjaustehtävissä, ilman tehtäväkohtaista esiopetusta. (Avasin asiaa tarkemmin artikkelissa fyysinen AI.)

V-JEPA 2 ei ole kielimalli. Se ei kirjoita sähköposteja eikä vastaa kysymyksiin. Mutta se osoittaa, että JEPA-arkkitehtuuri toimii ja skaalautuu fyysisen ymmärryksen tehtäviin. LeCunin pidempi visio on, että samasta lähtökohdasta rakennetaan myös kieltä ymmärtäviä järjestelmiä. Aikataulua hän ei lupaa.

Vertaus auttaa. LLM on kuin henkilö, joka on lukenut koko Wikipedian mutta ei ole koskaan käynyt ulkona. Hän tietää paljon sanoista ja lauseista. V-JEPA-malli on katsonut miljoona tuntia videota maailmasta ja ymmärtää, miten asiat liikkuvat, putoavat ja vaikuttavat toisiinsa. Kummallakin lähestymistavalla on rajoituksensa. Kysymys on siitä, kumpi vie kauemmas.

Muut haastajat lyhyesti

EBM ja JEPA eivät ole ainoita ehdokkaita transformerin perilliseksi. Kenttä elää, ja kilpailevia arkkitehtuureja on jo tuotannossa.

Diffuusio-LLM:t. Diffuusiomallit tunnetaan kuvageneroinnista (Stable Diffusion, Midjourney), mutta vuonna 2025 sama lähestymistapa tuotiin kielimalleihin. Inception Labsin Mercury 2 julkaistiin helmikuussa 2026. Se tuottaa noin tuhat tokenia sekunnissa, mikä on viisi kertaa enemmän kuin Claude Haikun reasoning-versio. Googlen Gemini Diffusion (toukokuu 2025) yltää 1 000 - 2 000 tokenia sekunnissa. Diffuusio-LLM ei tuota tekstiä sana kerrallaan, vaan kohinasta tarkentaen, mikä mahdollistaa rinnakkaisen generoinnin. Helmikuun 2025 LLaDA-paperi osoitti, että 8 miljardin parametrin diffuusio-LLM voi voittaa GPT-4o:n käänteistehtävissä. Diffuusiomallit ovat sukulaisia EBM:ille, sillä ne molemmat opettelevat scoringfunktiota datajakauman päällä.

State Space Models, kuten Mamba ja Jamba. Mamba on rinnakkainen vaihtoehto attention-mekanismille. Sen etu on lineaarinen skaalaus pitkissä konteksteissa, kun transformer skaalautuu neliöllisesti. AI21 Labsin Jamba-1.5 yhdistää Mamban ja transformerin hybridiksi. 94 miljardia aktiivista parametria, 256 000 tokenin konteksti-ikkuna ja kolme kertaa parempi läpäisykyky kuin Mixtral. Hybridit ovat tällä hetkellä yleinen kompromissiratkaisu: parhaat puolet kahdesta arkkitehtuurista.

Test-time compute -mallit. OpenAI:n o3, DeepSeekin R1 ja Googlen Gemini 2.5 valitsivat eri reitin. Ne pysyvät transformerissa, mutta antavat mallin "ajatella pidempään" ennen vastausta. DeepSeek-R1 paransi AIME-matematiikkabenchmark-tarkkuutensa 15,6 prosentista 71 prosenttiin pelkällä vahvistusoppimisella, ilman arkkitehtuurivaihdosta. Tämä on tällä hetkellä nopein reitti parempaan päättelyyn ja jo käytössä miljoonilla.

World models. Google DeepMindin Genie 3 (elokuu 2025) tuottaa reaaliaikaista 3D-maailmaa, jonka käyttäjä voi liikkua ja tutkia. 720p-resoluutio ja 24 kuvaa sekunnissa. Yhteys JEPA-visioon on selvä: maailmamallit oppivat ympäristön rakenteen, ei vain pintaesityksiä.

Liquid Neural Networks. Liquid AI:n LFM2 erikoistuu edge-laitteisiin ja pieniin malleihin, joissa muistinkäyttö ja energiankulutus on rajattu. Pärjää erityisen hyvin mobiililaitteilla.

Neurosymboliset järjestelmät. Yhdistävät neuraaliverkon kielitaidon ja symbolisten logiikkasolverien tarkkuuden. Käytetään erityisesti yritysratkaisuissa, joissa virheellinen päättely maksaa.

Vertailutaulukko

Arkkitehtuuri	Nopeus	Päättelykyky	Koulutuskustannus	Status 2026
Transformer (GPT, Claude)	Hyvä	System 1	Tuttu	Tuotannossa, hallitseva
Test-time compute (o3, R1)	Hidas	System 2 ohjelmistolla	Normaali	Tuotannossa, kasvaa nopeasti
Diffuusio-LLM (Mercury 2)	Erittäin nopea	System 1	Normaali	Varhainen tuotanto
State Space Model (Mamba, Jamba)	Hyvä pitkissä	System 1	Pienempi	Tuotannossa, niche
Energy-Based Model (EBT)	Hyvä	System 2 luonnostaan	Suuri	Tutkimusvaihe
JEPA (V-JEPA 2)	Erittäin nopea robotiikassa	Maailmaymmärrys	Suuri	Tutkimus, robotiikka

Taulukko paljastaa yhden tärkeän asian. Mikään yksittäinen arkkitehtuuri ei vielä voita kaikilla mittareilla. Diffuusio-LLM:t ovat nopeita mutta heikkoja päättelyssä. EBT lupaa paljon mutta on tutkimusvaiheessa. Test-time compute on tehokas, mutta hidas ja kallis ajaa. Tämä on syy siihen, miksi tulevaisuus näyttää enemmän hybridiltä kuin yhden voittajan kentältä.

(Olen avannut samaa teemaa myös artikkelissa tekoälyn lajiutuminen on alkanut.)

Kritiikki ja vastaväitteet

LeCunin visio ei ole kiistaton. Useat tutkijat ja yritysjohtajat näkevät asian eri tavalla, ja heidän argumenteilleen on painoa.

Gary Marcus, kognitiivinen tutkija ja LLM-skeptikko, on osittain samaa mieltä LeCunin kanssa: nykyiset LLM:t eivät yksinään johda yleistekoälyyn. Mutta hän kritisoi JEPA:a siitä, että pelkkä representaatioiden ennustaminen ei riitä ymmärtämiseen. Marcusin mukaan tarvitaan symbolinen logiikkakerros, ei vain parempi havainto.

LessWrong-yhteisössä esitetty argumentti on toisenlainen. Test-time compute skaalautuu nopeammin kuin LeCun ennakoi. OpenAI:n o3:n julkaisu joulukuussa 2024 yllätti monet, ja sen jälkeen reasoning-mallit ovat parantaneet matematiikan ja tieteen tehtäviä jättiloikin. Jos tämä jatkuu, tarve uudelle arkkitehtuurille saattaa lykkääntyä vuosia.

JEPA:n oma skaalausongelma on todellinen. V-JEPA 2 on lupaava video- ja robotiikkamalli, mutta tekstikielimallia siitä ei vielä ole. LeCun puhuu visiosta, jonka skaalattu, kielitaitoinen toteutus on yhä avoinna. Kriitikot kysyvät: mitä jos JEPA toimii vain tietyissä tehtävissä ja jää sinne?

Sam Altman vastasi kysymykseen helmikuussa 2026 Stanfordin TreeHacks-tapahtumassa. Hän myönsi suoraan, että AGI saattaa vaatia yhtä vallankumouksellisen uuden arkkitehtuurin kuin transformer aikoinaan oli. Mutta lisäsi, että OpenAI jatkaa transformerien skaalausta toistaiseksi. Syy on yksinkertainen: se toimii tänään, asiakkaille, miljoonien dollarien edestä.

❝

Riskinottoa uudella arkkitehtuurilla ei ole syytä tehdä, ennen kuin vanhasta on kaikki mehu puristettu ulos.

Yhteenveto eri näkökulmista: LeCun on todennäköisesti oikeassa pitkällä aikavälillä, epävarma lyhyellä. Transformerit eivät kuole huomenna. Mutta vaihtoehtoisten arkkitehtuurien kehitysvauhti viittaa siihen, että vuosikymmenen lopulla maisema näyttää erilaiselta kuin nyt.

Mitä tavallinen käyttäjä huomaisi EBM-pohjaisessa ChatGPT:ssä?

Arkkitehtuurikeskustelu jää helposti abstraktiksi. Siirrytään siis konkretiaan. Mitä eroa olisi siinä, että ChatGPT:n moottori vaihdettaisiin transformerista energiapohjaiseen, oletuksella että kaikki muu pysyy samana?

Vähemmän hallusinaatioita. Kun malli arvioi vastauksen energiaa ennen kuin antaa sen, se osaa tunnistaa epävarmat vastaukset. Käyttäjälle voisi näkyä luottamuspisteet jokaiselle vastaukselle. "Olen 87 prosentin varmuudella oikeassa, mutta tämä yksityiskohta on epävarma." Tällä hetkellä LLM antaa kaiken samalla varmuudella, oli kyse sitten Suomen pääkaupungista tai vuoden 1843 ulkoministerin nimestä.

Parempi monivaiheinen päättely. Matematiikka, logiikka, suunnittelu, useaa vaihetta vaativat tehtävät. Tämä on nykyisten LLM:ien selvin heikkous, ja siihen reasoning-mallit pyrkivät vastaamaan. EBM tekisi saman luonnostaan, ilman erillistä thinking-vaihetta.

Hitaampi vasteaika. Energian minimointi vie aikaa. Vastaus, joka tulee nyt sekunneissa, voisi viedä kymmenen sekuntia tai pidempään. Tämä on arvojen vaihtokauppa: nopeus vastaan tarkkuus. Joissakin tehtävissä se on järkevää, joissakin ei.

Ei eroa tavallisissa tehtävissä. Sähköpostit, tiivistelmät, luova kirjoittaminen, kääntäminen. Transformer on niissä jo niin hyvä, ettei lukijan kannata odottaa suurta muutosta. EBM:n hyöty näkyisi siellä missä päättely tai luotettavuus on tärkeintä.

Hyödyllisempi roboteille ja agenteille. Kun tekoälyjärjestelmä tekee päätöksiä, jotka vaikuttavat fyysiseen maailmaan tai joiden epäonnistuminen maksaa rahaa, energiaperustainen arviointi on selvä parannus. Itseohjautuva auto tai kaupankäyntiagentti hyötyy siitä, että malli osaa sanoa "en ole varma".

Käytännön esimerkki: nykyinen ChatGPT pyydettäessä laskemaan verot kolmelle eri skenaariolle ja valitsemaan paras tuottaa kolme laskelmaa, joista yksi sisältää tyypillisesti laskuvirheen. EBM-pohjainen vastine arvioi laskelmien energiaa ja kykenisi sanomaan, että ensimmäisen skenaarion laskelmassa luottamus on alhainen. Sähköpostin kirjoituksessa kummatkin tuottaisivat saman tuloksen.

Aikajana: milloin EBM tulee tuotteisiin

Ennustaminen on vaikeaa, erityisesti tulevaisuuden, kuten Niels Bohrin nimiin laitettu sananparsi muistuttaa. Mutta jonkinlainen aikajana on tarpeen.

2025-2026: Tutkimusvaihe. EBT-paperi on skaalattu 800 miljoonaan parametriin. Proof of concept toimii. Tuotantotason malli ei vielä ole.

2027-2028: Hybridit alkavat. Transformerin ja EBM:n yhdistelmiä yksittäisissä tehtävissä, kuten päättelyssä ja faktantarkistuksessa. Samaan tapaan kuin Jamba yhdistää nyt Mamban ja transformerin. Tämä on todennäköisin polku, jolla EBM tulee käyttäjien lähelle.

2029-2031: Mahdollinen ensimmäinen tuotantotason EBM-pohjainen yleismalli, jos skaalausongelmat ratkaistaan. LeCunin "kolme viiteen vuotta" osuu tähän ikkunaan.

2031 jälkeen: Jos LeCunin visio toteutuu, EBM-pohjainen yleisarkkitehtuuri voi olla vakiintunut. Jos test-time compute ja transformerit pärjäävät paremmin, EBM voi jäädä erikoiskäyttöön.

Varoituksen sana. Teknologian ennustaminen on ollut huonoa myös alan parhaiden tutkijoiden suusta. o3 yllätti kaikki joulukuussa 2024. EBM voi edetä nopeammin tai hitaammin. Diffuusio-LLM:t voivat ottaa odottamattoman ison osuuden. World models voivat tehdä kielimalleista vanhanaikaisia toisesta suunnasta.

Yhteistä kaikille skenaarioille on yksi asia. Pelkkä transformer-skaalaus ei enää riitä, vaan ala etsii aktiivisesti seuraavaa askelta. (Tämä murros vaikuttaa myös työmarkkinoihin tavalla, jota olen käsitellyt artikkelissa tekoäly korvaa ensin ne joilla on tutkinto.)

Yhteenveto

Energy-Based Model on neuroverkkoarkkitehtuuri, joka opettelee arvioimaan vastausten hyvyyttä energiana. Matala energia tarkoittaa hyvää vastausta. Mallin "ajattelu" on energian minimointia, eli parhaan vastauksen etsimistä. Tämä eroaa transformerista perustavalla tavalla, sillä transformer ennustaa todennäköisimmän seuraavan sanan eikä koskaan vertaa kahta valmista vastausta keskenään.

Yann LeCunin julkiset puheet 2024-2026 ovat tehneet aiheesta ajankohtaisen, ja heinäkuun 2025 EBT-paperi antoi konkreettisen todisteen siitä, että energiapohjaiset transformerit voivat skaalautua paremmin kuin tavalliset transformerit. Hopfieldin ja Hintonin Nobel-palkinto 2024 alleviivasi sitä, että akateeminen kenttä ottaa nämä ideat vakavasti.

Mutta EBM ei ole ainut haastaja. Diffuusio-LLM:t kuten Mercury 2 ovat jo tuotannossa nopeudellaan. Mamba ja muut state space -mallit ratkovat transformerin skaalausongelmaa lineaarisuudella. Test-time compute -mallit, kuten o3 ja DeepSeek R1, parantavat päättelyä ohjelmistotasolla. Hybridit yhdistelevät arkkitehtuurien parhaat puolet.

Realistinen näkymä on, että 2025-2026 ovat tutkimuksen vuosia, 2027-2028 hybridien aikaa ja vuosikymmenen lopussa nähdään, kumpi voittaa: transformerin skaalaus vai uusi arkkitehtuuri. LeCunin "viisi vuotta" osuu juuri tähän ikkunaan.

Tavalliselle käyttäjälle muutos näkyisi vasta kun joku rakentaa EBM-pohjaisen tuotteen. Vähemmän hallusinaatioita. Parempi päättely. Hitaampi vasteaika. Luottamuspisteet vastauksille. Selvempi ero "tiedän tämän" ja "arvaan tämän" välillä. Sähköpostien kirjoittamisessa ei eroa, mutta ratkaisevissa päätöksissä paljonkin.

Mitä lukijan kannattaa tehdä? Seuraa nimiä Energy-Based Model, JEPA ja diffuusio-LLM uutisissa. Ne ovat merkkejä siitä, mihin suuntaan ala kallistuu. Ja muista, että tämän hetken tekoälytaidot, jotka on viritetty transformer-malleille, kannattaa hioa nyt. Ne tuottavat jo arvoa, ja seuraavan paradigman saapuminen vie vielä vuosia.

Lähteet: Energy-Based Transformers are Scalable Learners and Thinkers (arXiv 2507.02092), V-JEPA 2 World Model (Meta AI), LLaDA: Large Language Diffusion with Masking (arXiv 2502.09992), Inception Labs Mercury 2, Gemini Diffusion (Google DeepMind), Genie 3 (Google DeepMind), Jamba: Hybrid Transformer-Mamba (arXiv 2403.19887), LeCunin Davos-haastattelu (TechCrunch), Yann LeCun: LLMs useless in five years (Newsweek), Gary Marcusin avoin kirje LeCunille

Kaipaatko henkilökohtaista sparrausta AI:n käyttöön?

Tekoäly voi olla voimakas työkalu, ja näiden aloittelijaystävällisten vaihtoehtojen avulla voit hyödyntää sitä omissa projekteissasi – olipa kyseessä sisällöntuotanto, ohjelmointi, markkinointi tai oppiminen.

Jos kaipaat koulutusta tekoäly-työkalujen käyttöön, nappaa tästä 1h (190 €) sparrausaika. 👇 100 % Laatutakuu eli saat rahasi takaisin mikäli et ole tyytyväinen.

1-to-1 AI-sparraus (190 €)

Tunti henkilökohtaista AI-sparrausta, joka rakentuu kokonaan sinun tilanteesi ja tavoitteidesi ympärille.

zcal.co/janneikola/1-to-1-ai-sparraus

Energy-Based Model: korvaako se GPT:n viidessä vuodessa?

Miksi nykyiset LLM:t ovat ongelmissa

Energy-Based Models: mikä se on?

Nobel-palkinto teki EBM:stä taas ajankohtaisen

Energy-Based Transformer: konkreettinen läpimurto kesällä 2025

JEPA ja maailmamallit: LeCunin oma visio

Muut haastajat lyhyesti

Vertailutaulukko

Kritiikki ja vastaväitteet

Mitä tavallinen käyttäjä huomaisi EBM-pohjaisessa ChatGPT:ssä?

Aikajana: milloin EBM tulee tuotteisiin

Yhteenveto

Kaipaatko henkilökohtaista sparrausta AI:n käyttöön?

Reply

Keep Reading

AI-Sanomat

Home

Account

Bottiverstas

Premium-sisällöt

Työkalut