Anthropic julkaisi Claude Opus 4.6:n 5. helmikuuta 2026 kello 18:40. Tasan 20 minuuttia myöhemmin OpenAI vastasi julkaisemalla GPT-5.3 Codexin. Kyseessä oli harvinainen samanaikainen julkaisu, joka kertoo AI-koodausmarkkinan kovasta kilpailusta.

Opus 4.6 on saatavilla välittömästi:

  • claude.ai -verkkosovelluksessa

  • API:n kautta (malli-ID: claude-opus-4-6)

  • Amazon Bedrock, Google Vertex AI ja Microsoft Azure Foundry -alustoilla

  • GitHub Copilotissa

Hinnoittelu pysyy ennallaan: $5/$25 miljoonaa tokenia kohti (input/output).

Mikä tekee Opus 4.6:sta erityisen?

1. Paras koodausmalli, jonka olemme testanneet

Testasimme Opus 4.6:n käytännön koodaustehtävissä - ja tulokset olivat hämmästyttäviä.

Todellinen testitapaus: Monologue-sovelluksen iOS-kehittäjä Naveen Naidu oli kamppaillut kahden kuukauden ajan ratkaisemattoman ongelman kanssa. Kun käyttäjä aloittaa sanelun, hänen täytyy manuaalisesti vaihtaa takaisin alkuperäiseen sovellukseen (esim. Apple Notes). iOS:ssä ei ole virallista API:a tämän automatisointiin.

Malli

Tulos

GPT-5.3 Codex

Epäonnistui - Keskittyi liikaa turvallisuusnäkökulmiin

Opus 4.5

Epäonnistui - Ei löytänyt toimivaa ratkaisua

Opus 4.6

Ratkaisi - Tutki kilpailijoita, analysoi muutoslokeja, luki foorumeita ja avoimen lähdekoodin projekteja 15 minuutin ajan, sitten tuotti toimivan ratkaisun

"Tämä on valtava juttu. Codex ja Opus 4.5 kamppailivat tämän kanssa." - Naveen Naidu

2. Miljoonan tokenin konteksti-ikkuna

Opus 4.6 on ensimmäinen Opus-perheen malli, jossa on 1 miljoonan tokenin konteksti-ikkuna (beetaversiona). Tämä mahdollistaa:

  • Kokonaisten koodikantojen analysoinnin kerralla

  • Pitkien dokumenttien käsittelyn

  • Monimutkaisempien projektien hallinnan

Vertailun vuoksi: miljoonalla tokenilla voit syöttää mallille noin 750 000 sanaa tekstiä tai kymmeniä tuhansia rivejä koodia. Tätä olen itse odottanut jo pitkään, koska Googlen Gemini mallissa tämä on ollut saatavilla.

3. Adaptive Thinking - Älykäs ajattelu

"Extended Thinking" on korvattu uudella Adaptive Thinking -ominaisuudella. Malli päättää itse, milloin syvällisempää päättelyä tarvitaan:

  • Helpot tehtävät: Ohittaa syvällisen päättelyvaiheen kokonaan

  • Monimutkaiset tehtävät: Käyttää aikaa suunnitteluun ja analyysiin

Kehittäjät voivat säätää "effort"-tasoa neljällä asetuksella:

  • low - Nopein, vähiten ajattelua

  • medium - Tasapainoinen (20-30% nopeampi kuin high)

  • high - Oletusasetus, käyttää ajattelua tarvittaessa

  • max - Maksimaalinen päättely

"Mallin medium thinking -vaihtoehto on hyvä, nopeampi vaihtoehto." - Kieran Klaassen

4. Agent Teams - Rinnakkaiset agenttitiimit

Opus 4.6:n merkittävin uutuus on Agent Teams - mahdollisuus ajaa useita Claude-agentteja rinnakkain samassa projektissa.

Miten se toimii:

  • Pääagentti koordinoi työtä ja jakaa tehtäviä

  • Tiimin jäsenet ovat itsenäisiä sessioita omilla konteksti-ikkunoillaan

  • Agentit voivat kommunikoida keskenään ja jakaa tehtävälistan

  • Jokainen agentti voi työskennellä eri ongelman parissa samanaikaisesti

Käytännön esimerkki: Anthropic rakensi 16 agentin tiimillä Rust-pohjaisen C-kääntäjän, joka pystyy kääntämään Linux-kernelin. Projekti tuotti 100 000 riviä koodia lähes 2000 Claude Code -session aikana.

Huomio: Agent Teams laskutetaan erikseen jokaisesta instanssista, joten kustannukset voivat nousta nopeasti.

Benchmark-tulokset

Opus 4.6 dominoi useimmilla mittareilla:

SWE-Bench Verified (Todellinen bugien korjaus)

Malli

Tulos

Claude Opus 4.6

80.8%

GPT-5.3 Codex

56.8%

GDPval-AA (Taloudellisesti arvokkaat tehtävät)

Mittaa suorituskykyä rahoitus-, laki- ja muissa ammatillisissa tehtävissä:

Malli

Elo-pisteet

Claude Opus 4.6

1606

GPT-5.2

1462 (+144 eroa)

Claude Opus 4.5

1416 (+190 eroa)

Terminal-Bench 2.0 (Terminaalitaidot)

Tässä GPT-5.3 Codex voittaa:

Malli

Tulos

GPT-5.3 Codex

77.3%

Claude Opus 4.6

65.4%

LFG Benchmark (Toimivan ohjelmiston rakentaminen)

Every:n oma benchmark testaa, pystyykö malli rakentamaan toimivan ohjelmiston pelkän korkean tason kuvauksen perusteella.

Opus 4.6 saavutti:

  • 9.25/10 keskiarvo (korkein testatuista malleista)

  • 100% build success vaikeimmassa tehtävässä (e-commerce-sivusto)

  • 100% feature completion - ainoa malli, joka toteutti kaikki 11 ominaisuutta

Vertailun vuoksi: Opus 4.5 rakensi kauniin sivuston, mutta toimitti vain 4/11 ominaisuudesta. Codex tuotti upean visuaalisen designin, mutta koko checkout-flow puuttui.

Mitä pidämme hyvänä

Suunnittelee ennen toimintaa

Opus 4.6 pysähtyy sanomaan "anna minun ottaa askel taaksepäin ja suunnitella" ennen monimutkaisia tehtäviä - ilman erillistä kehotusta. Se lukee tehtävän laajuuden, hahmottelee lähestymistavan ja säätää syvyyttä tarpeen mukaan.

Oletusarvoinen rinnakkaistaminen

Malli tekee monia asioita samanaikaisesti automaattisesti. Tämä on selvästi tulevaisuuden suunta muillakin malleilla.

Mukautuu tarpeisiisi

Every:n Katie Parrott pyysi "hook skill" -taitoa, jota ei ollut olemassa hänen Claude-profiilissaan. Sen sijaan että malli olisi epäonnistunut, se löysi vastaavan taidon (angle finder) ja mukautti sen tuottamaan hook-vaihtoehtoja.

Mitä emme pidä

Hitaampi kuin Opus 4.5

Opus 4.6 keskiarvo oli 364 sekuntia per tehtävä - hitain testatuista malleista. Gemini Flash oli 2.5x nopeampi (146 sekuntia), mutta heikommalla laadulla.

Nopeaan iterointiin ja "vibe codingiin" tämä on selkeä askel taaksepäin.

Epätarkkuus tarkkuutta vaativissa tehtävissä

Testasimme iOS-käyttöliittymän uudelleensuunnittelua Opus 4.6:lla, ja malli ei pystynyt suorittamaan tehtävää liiallisten virheiden vuoksi. Codex sen sijaan suoritti saman tehtävän ilman virheitä.

Konfabulaatio ja odottamattomat toiminnot

Opus 4.6 raportoi joskus onnistumisesta, vaikka oli todellisuudessa epäonnistunut. Se teki vääriä väitteitä järjestelmän tilasta ja otti joskus riskialttiita toimenpiteitä ilman varoitusta.

"Se on perusteellinen kun toimii, mutta väitteet pitää varmistaa."

Tämä liittynee uuteen Adaptive Thinking -tilaan - erityisesti kun malli vastaa ilman ajatteluvaihetta, se voi tehdä virheitä.

AI-kirjoituksen tunnistettavuus

Sokkotestissä tiimi suosi Opus 4.5:n proosaa. Opus 4.6 näyttää olevan alttiimpi tunnistettaville AI-kuvioille, kuten "X ei Y" -rakenteille.

Opus 4.6 vs. GPT-5.3 Codex: Kumman valitset?

Ominaisuus

Opus 4.6

GPT-5.3 Codex

Vahvuus

Monimutkaiset, epämääräiset tehtävät

Tarkat, hyvin määritellyt tehtävät

Konteksti

1M tokenia

256K tokenia

Rinnakkaisuus

Agent Teams sisäänrakennettu

Ei vastaavaa

Nopeus

Hitaampi

25% nopeampi

SWE-Bench

80.8%

56.8%

Terminal-Bench

65.4%

77.3%

Tyyli

Tutkii, selvittää, konvergoi

Haluaa tarkan tiekartan

Käytännön sääntö:

  • Jos kuvailet ongelman, Opus 4.6 on parempi

  • Jos annat tarkan speksauksen, Codex on parempi

Muut uudet ominaisuudet

Context Compaction

API:ssa Claude voi nyt tiivistää omaa kontekstiaan pitkäkestoisissa tehtävissä. Tämä estää konteksti-ikkunan ylittymisen ja mahdollistaa pidempien tehtävien suorittamisen.

Claude in PowerPoint

Uusi tutkimuskäyttöön tarkoitettu ominaisuus, joka tuo Clauden PowerPoint-esitysten luomiseen.

Claude in Excel

Parannettu pitkäkestoisille tehtäville.

Kenelle Opus 4.6 sopii?

Vaihda nyt, jos:

  • Työskentelet suurten koodikantojen parissa

  • Tarvitset apua monimutkaiseen debuggaukseen

  • Haluat agenttien rinnakkaistamisen ilman erillistä konfigurointia

  • Teet tutkimuspainotteista koodausta, jossa ongelma on epämääräinen

Pysy Opus 4.5:ssä tai Codexissa, jos:

  • Tarvitset nopeutta ja iteroit paljon

  • Tehtäväsi ovat tarkasti määriteltyjä

  • Kirjoitat paljon ja haluat vähemmän AI-tunnistettavaa tekstiä

  • Budjetti on tiukka (Agent Teams nostaa kustannuksia)

Johtopäätökset

Opus 4.6 on Anthropicin kyvykkäin koodausmalli. Se on selkein merkki siitä, että kehittäjien käyttämä agenttinen työnkulku on tulossa kaikkien saataville.

Koodausvoitot puhuvat puolestaan. Malli ratkaisi ongelman, johon sekä Codex että Opus 4.5 epäonnistuivat. Se johtaa LFG-benchmarkia 100% build successilla vaikeimmassa tehtävässä ja toimittaa enemmän valmiita ominaisuuksia monimutkaisissa projekteissa kuin mikään muu testaamammme malli.

Mutta kompromisseja on. Se on hitaampi kuin Opus 4.5, konfabuloi toisinaan ja kamppailee monimutkaisissa toteutuksissa, joissa vaaditaan tarkkuutta.

Jos olet vibe coder, vaihda nyt. Jos olet kirjoittaja tai tietotyöläinen, joka on kiinnostunut agenttisesta tekoälystä, tämä on julkaisu, joka tuo delegoinnin ja joustavat työtavat kaikkien ulottuville.

Lähteet

Haluatko sparrailla AI:sta etäkahvitellen?

Tekoäly voi olla voimakas työkalu, ja näiden aloittelijaystävällisten vaihtoehtojen avulla voit hyödyntää sitä omissa projekteissasi – olipa kyseessä sisällöntuotanto, ohjelmointi, markkinointi tai oppiminen.

Jos kaipaat koulutusta tekoäly-työkalujen käyttöön, nappaa tästä sitoumukseton etäkahvitteluaika ja jutellaan tarpeistasi 👇

Reply

Avatar

or to participate

Keep Reading