Anthropic julkaisi eilen mallin, josta se ilmoitti suoraan, että se on heikompi kuin eräs toinen malli heidän laboratoriossaan. Tämä on poikkeuksellinen avoimuus alalla, jossa jokainen yritys markkinoi uusinta julkaisuaan historian parhaana.
Opus 4.7 on silti paras yleisesti saatavilla oleva koodausmalli SWE-bench-mittareilla. Sen varjossa kulkee Mythos Preview, malli, jota ei julkaista turvallisuussyistä. Käyn läpi mitä Opus 4.7 oikeasti tuo, mitä Mythos-paljastus kertoo Anthropicin strategiasta, ja yhden vähän käsitellyn yksityiskohdan, joka muuttaa todellisia kustannuksia: uuden tokenizerin.
Koodausluvut, jotka erottavat Opus 4.7:n kilpailijoista
Anthropic julkisti 16. huhtikuuta 2026 mallin nimeltä claude-opus-4-7. Saatavilla heti Claude.ai:ssa, API:ssa, AWS Bedrockissa, Google Vertex AI:ssa, Microsoft Foundryssa, Snowflake Cortexissa ja GitHub Copilotissa. Koulutusdata ulottuu tammikuuhun 2026. Vanhat Opus 4.6 ja 4.0 eläköityvät 15. kesäkuuta 2026.

Koodausbenchmarkeissa ero kilpailijoihin on selvä.
Benchmark | Opus 4.7 | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|---|
SWE-bench Pro | 64,3 % | 57,7 % | 54,2 % |
SWE-bench Verified | 87,6 % | ei tiedossa | 80,6 % |
CursorBench | 70 % | ei tiedossa | ei tiedossa |
Terminal-Bench 2.0 | 69,4 % | 75,1 % | ei tiedossa |
GPQA Diamond | 94,2 % | 94,4 % | 94,3 % |
SWE-bench Pro mittaa todellisten bugien korjaamista avoimen lähdekoodin projekteissa. 64,3 prosentin tulos on noin 7 prosenttiyksikköä edellä GPT-5.4:ää, ja 10 prosenttiyksikköä Gemini 3.1 Proa. Samalla SWE-bench Verifiedissä on hyppy edeltäjään: Opus 4.6 ratkoi 80,8 prosenttia, Opus 4.7 ratkoo 87,6 prosenttia.
Rakutenin oma SWE-Bench-variantti antaa konkreettisemman kuvan. Siinä Opus 4.7 ratkaisee noin kolme kertaa enemmän tuotantotehtäviä kuin edeltäjänsä. Anthropicin 93 tehtävän sisäisessä koodaustestissä parannus Opus 4.6:een on 13 prosenttia.

Päättelyssä tilanne tasaantuu. GPQA Diamond mittaa monitieteistä päättelyä tohtoritasolla. Opus 4.7 saa 94,2, Gemini 3.1 Pro 94,3, GPT-5.4 Pro 94,4. Kolme mallia on käytännössä tasapelissä. Ero syntyy siis koodauksessa, ei yleispäättelyssä.
Terminal-Bench 2.0:ssa GPT-5.4 vie voiton. Terminaalikomennoista ja shell-työkulusta Anthropicin malli siis jää jälkeen, vaikka varsinaisessa koodikirjoituksessa se johtaa. Kannattaa muistaa, jos rakennat agenttia, joka elää enimmäkseen komentorivillä.
Opus 4.7 on suora jatko edeltäjänsä linjalle. Aiemmasta julkaisusta voi lukea, miten Opus 4.6 ratkaisi koodausongelman, johon GPT-5.3 Codex epäonnistui. Ero näkyy nyt vielä selvempänä.
Mythos: parempi malli, jota ei julkaista
Julkaisu muuttuu tässä kohtaa epätavalliseksi. Anthropic kirjoittaa samassa blogissa, jossa se esittelee Opus 4.7:n, että heillä on Mythos Preview. Se on huomattavasti kyvykkäämpi kuin Opus 4.7. Sitä ei julkaista yleiseen käyttöön.
Syy on kyberturvallisuus. Mythos on löytänyt tuhansia kriittisiä haavoittuvuuksia kaikista suurista käyttöjärjestelmistä ja selaimista. Kyky löytää nollapäivähaavoittuvuuksia skaalautuvasti on turvallisuusasiantuntijoille hyödyllinen, mutta se on yhtä käyttökelpoinen väärissä käsissä.
Anthropic on perustanut Project Glasswing -koalition, johon kuuluvat Amazon, Apple, Google, Cisco, CrowdStrike, JPMorgan Chase, Microsoft ja Nvidia. Glasswing ajaa Mythosta kumppaniensa tuoteputkissa ennen laajempaa jakelua. Mythos on saatavilla vain kutsulla, hinnoittelu on 25 dollaria per miljoona input-tokenia ja 125 dollaria per miljoona output-tokenia. Viisinkertainen Opus 4.7:ään verrattuna.
Opus 4.7:n kybersec-kyvyt on tahallaan heikennetty koulutuksen aikana. Mallissa on automaattinen esto korkeariskisille kyberturvallisuuspyynnöille. Legitiimit tietoturvatutkijat voivat hakea poikkeusta Cyber Verification Program -ohjelman kautta.
Frontier-labissa on aina kyvykkäämpää teknologiaa kuin mitä se markkinoi. Se on alan normi. Poikkeus on, että Anthropic kirjoittaa sen julki samassa postauksessa, jossa se esittelee uutta lippulaivaansa. Useimmat kilpailijat pitäisivät suunsa kiinni.
Sama avoimuuskulttuuri näkyy muissakin Anthropicin julkaisuissa. Äskettäisessä tunteita käsittelevässä tutkimuksessa Anthropic myönsi, että malleilla on mitattavia sisäisiä tiloja, jotka ohjaavat käytöstä. Mythos-paljastus jatkaa samaa linjaa: se on signaali siitä, että alalla on käynnissä vakava keskustelu siitä, mitä on vastuullista päästää yleiseen käyttöön. Ei markkinointikikka.
Mitä käytännössä muuttuu
Koodausbenchmarkkien ulkopuolella Opus 4.7 tuo joukon teknisiä muutoksia, jotka kannattaa tietää ennen migraatiota.
Visuaalinen tarkkuus hyppäsi 55:stä 98,5:een
Kuvia käsitellessä muutos on iso. Suurin tuettu resoluutio nousi 1 568 pikselistä 2 576 pikseliin, mikä tarkoittaa yli 3,75-kertaista pikselimäärää. Visuaalisissa tarkkuustesteissä malli yltää 98,5 prosenttiin, kun Opus 4.6 ylsi 54,5:een. Käytännössä tämä tarkoittaa, että kuvakaappausten lukeminen, UI-virheiden tunnistus, kaavioiden ja tiheiden asiakirjojen analysointi ovat nyt luotettavia. Aiemmin toimivia puolet ajasta, nyt käytännössä aina.
Erikoistapaus: pikselikoordinaatit vastaavat nyt todellisia näyttöpaikkoja. Computer use -agentit, jotka klikkaavat elementtejä koordinaattien perusteella, saavat merkittävän parannuksen.
Max output kaksinkertaistuu
Opus 4.7 tuottaa yhdellä kutsulla enintään 128 000 tokenia. Sonnet 4.6 tuottaa 64 000, joten ero on kaksinkertainen. Pitkät refaktoroinnit tai kokonaisen tiedoston uudelleenkirjoitus mahtuvat nyt paremmin yhteen vastaukseen. Myös agenttitehtävissä, joissa malli palauttaa pitkän toimintasuunnitelman ennen työkalukutsuja, tämä näkyy.
Adaptive thinking korvaa manuaaliset säädöt
Extended thinking poistuu. Temperature, top_p ja top_k eivät enää toimi. Tilalle tulee adaptive thinking, joka säätää päättelyn syvyyden tehtävän vaativuuden mukaan. Kehittäjille tämä on iso muutos: jos sovellus tukeutuu temperature-arvoon hallitakseen luovuutta, koodi pitää päivittää.
Uusi tukitaso xhigh-effort asettuu high- ja max-tasojen väliin. Neljäs porras antaa hienomman kontrollin hitauden ja tarkkuuden välillä.
Task Budgets: kustannuksia agenteille
Beetavaiheeseen tullut ominaisuus, jolla kehittäjä voi asettaa token-budjetin tehtävälle. Malli optimoi toimintansa budjetin puitteissa. Pitkissä autonomisissa tehtävissä, joissa kustannukset muuten karkaavat hallinnasta, tämä on konkreettinen apu. Jos ajat agenttia, joka tutkii koodikantaa tuntikausia, budjettilinja vetää viivan yhteen paikkaan.
Claude Codeen Ultrareview ja parempi muisti
Claude Code saa uuden Ultrareview-tilan, joka tunnistaa bugeja ja suunnitteluvirheitä ennen committia. Muistin hallinta usean session yli on parantunut: konteksti säilyy paremmin, kun työskentely jatkuu päivien yli.
Vähemmän näkyvä mutta tärkeä muutos: tiukempi ohjeiden noudattaminen. Opus 4.7 kutsuu työkaluja vähemmän ilman pyyntöä. Aiemmassa mallissa agentti saattoi alkaa tutkia tiedostojärjestelmää oma-aloitteisesti, kun ei pyydetty. Uusi käytös on kiltimpi.
Tokenizer-muutos on piilokustannus
Muut artikkelit eivät ole juurikaan käsitelleet tätä osaa julkaisusta. Opus 4.7:ssä on uusi tokenizer. Se tuottaa samasta tekstistä 1,0-1,35 kertaa enemmän tokeneita kuin Opus 4.6:n tokenizer.
Listahinta ei muuttunut: 5 dollaria per miljoona input-tokenia, 25 dollaria per miljoona output-tokenia. Cachella saat 90 prosentin alennuksen, batch-käsittelyllä 50 prosentin. Paperilla hinta on sama kuin edeltäjässä.
Käytännössä sama teksti maksaa 0-35 prosenttia enemmän. Koska output on hinnoiteltu viisinkertaisena input-hintaan nähden, runsaasti tuottavat sovellukset näkevät suurimman vaikutuksen. Finout.io:n analyysi suositteli mittaamaan todellisen kustannusvaikutuksen rinnakkaisajolla ennen migraatiota.
Suomenkielisille käyttäjille tämä on erityisen kipeä kohta. Ei-englanninkieliset kielet tokenoituvat tyypillisesti tehottomammin kuin englanti, ja tokenizer-muutos voi korostaa eroa entisestään. Sama suomenkielinen artikkeli, joka maksoi Opus 4.6:lla tietyn summan, voi Opus 4.7:llä maksaa kolmanneksen enemmän, vaikka listahinta on pysynyt ennallaan.
Käytännön neuvo: aja muutama todellinen tuotantokutsu rinnakkain molemmilla malleilla ja vertaa token-lukuja ja kokonaiskustannusta, ennen kuin päätät siirtyä. Anthropicin token-laskuri antaa nopean arvion yksittäisille teksteille. Agenttiputkissa, joissa kustannukset laskutetaan tuhansista käyttäjistä, ero on mitattavissa euroissa, ei prosenteissa.
Vastaava kustannuslaskenta on tuttua jo niille, jotka rakentavat agentteja, jotka maksavat itse omat laskunsa: tokenikustannus kertautuu nopeasti, kun agentti pyörii 24/7.
Kenelle Opus 4.7, kenelle Sonnet, kenelle Haiku
Opus 4.7 on kallein Clauden julkinen malli. Se ei ole järkevä oletus kaikkeen.
Opus 4.7 | Sonnet 4.6 | Haiku 4.5 | |
|---|---|---|---|
Input / output (per Mtok) | 5 $ / 25 $ | 3 $ / 15 $ | 1 $ / 5 $ |
Max output | 128k tokenia | 64k tokenia | 8k tokenia |
Konteksti | 1M tokenia | 1M tokenia | 200k tokenia |
Paras käyttö | Pitkät agenttitehtävät, koodaus, enterprise | Useimmat kuluttajatarpeet, nopeus | Reaaliaikaiset, yksinkertaiset tehtävät |
Opus 4.7 kannattaa valita jos:
Rakennat autonomisia agentteja, jotka työskentelevät pitkiä jaksoja itsenäisesti
Teet vaativaa koodausta tai refaktorointeja, joissa tarkkuus on tärkeämpää kuin nopeus
Tarvitset luotettavaa kuvien analyysiä (UI-kuvakaappaukset, kaaviot, käsinkirjoitus)
Ajat yritystason sovelluksia, joissa vastauksen laatu on kriittistä
Sonnet 4.6 on edelleen oikea oletus useimpiin käyttötapauksiin. Halvempi, lähes yhtä kyvykäs useimmissa tehtävissä, nopeampi. Sonnet 4.6:n julkaisusta voi lukea tarkemman analyysin sen omasta julkistusartikkelista. Hinta-laatu-suhteessa se on harvoin hävinnyt Opukselle.
Haiku 4.5 on paikallaan reaaliaikaisissa ja yksinkertaisissa tehtävissä. Chatbotit, luokittelut, yhteenvedot. Jos latenssi on alle sekunti, Haiku on oikea valinta.
Erikoistapauksena: jos olet käyttämässä temperature-arvoa, top_p:tä tai top_k:ta sovelluksessasi, ja siirryt Opus 4.7:ään, valmistaudu siihen, että nämä parametrit eivät enää tee mitään. Adaptive thinking on ainoa tuettu tila. Sonnet 4.6 ja Haiku 4.5 tukevat vielä vanhoja asetuksia.
Yhteenveto
Opus 4.7 on paras koodausmalli markkinoilla SWE-bench-mittareilla. Se voittaa GPT-5.4:n ja Gemini 3.1 Pron ohjelmistokehityksessä, mutta jää Terminal-Benchissä GPT-5.4:lle ja on päättelyssä tasapelissä kilpailijoiden kanssa. Koodaus erottaa, päättely ei.
Mythos-paljastus on isompi tarina kuin itse malli. Anthropic myönsi pitävänsä kyvykkäämmän mallin pois julkisuudesta kyberturvallisuussyistä. Se on harvinainen avoimuuden ele alalla, jolla jokainen kilpailija markkinoi julkaisujaan läpimurtoina.
Ja sitten on se tokenizer. Listahinta ei muuttunut, todellinen kustannus voi nousta kolmanneksella. Suomenkielisille käyttäjille vaikutus voi olla keskimääräistä suurempi. Mittaa rinnakkaisajolla ennen migraatiota.
Käytännön suositus: jos et tarvitse pitkiä autonomisia koodaustehtäviä tai raskasta kuvien analyysiä, pysy Sonnet 4.6:ssa. Jos rakennat koodaavia agentteja tai enterprise-työkaluja, Opus 4.7 on paras saatavilla oleva vaihtoehto, ainakin siihen asti kun Mythos tulee ulos. Anthropic ei ole antanut aikataulua. Toistaiseksi se on piilossa.
Lähteet: Anthropic: Introducing Claude Opus 4.7, AWS Bedrock: Introducing Claude Opus 4.7, The Next Web: Claude Opus 4.7 leads on SWE-bench, Axios: Anthropic concedes new Opus trails unreleased Mythos, CNBC: Anthropic rolls out Claude Opus 4.7, finout.io: Claude Opus 4.7 Pricing: The Real Cost Story, Simon Willison: Qwen3.6 beat Opus 4.7 on pelican test, GitHub Changelog: Claude Opus 4.7 is generally available
Lisää tekoälyoppaita ja -uutisia: aisanomat.fi


