Claude Opus 4.7 julkaistu: paras koodausmalli, jonka Anthropic uskalsi päästää ulos

Anthropic julkaisi eilen mallin, josta se ilmoitti suoraan, että se on heikompi kuin eräs toinen malli heidän laboratoriossaan. Tämä on poikkeuksellinen avoimuus alalla, jossa jokainen yritys markkinoi uusinta julkaisuaan historian parhaana.

Opus 4.7 on silti paras yleisesti saatavilla oleva koodausmalli SWE-bench-mittareilla. Sen varjossa kulkee Mythos Preview, malli, jota ei julkaista turvallisuussyistä. Käyn läpi mitä Opus 4.7 oikeasti tuo, mitä Mythos-paljastus kertoo Anthropicin strategiasta, ja yhden vähän käsitellyn yksityiskohdan, joka muuttaa todellisia kustannuksia: uuden tokenizerin.

Koodausluvut, jotka erottavat Opus 4.7:n kilpailijoista

Anthropic julkisti 16. huhtikuuta 2026 mallin nimeltä claude-opus-4-7. Saatavilla heti Claude.ai:ssa, API:ssa, AWS Bedrockissa, Google Vertex AI:ssa, Microsoft Foundryssa, Snowflake Cortexissa ja GitHub Copilotissa. Koulutusdata ulottuu tammikuuhun 2026. Vanhat Opus 4.6 ja 4.0 eläköityvät 15. kesäkuuta 2026.

Koodausbenchmarkeissa ero kilpailijoihin on selvä.

Benchmark	Opus 4.7	GPT-5.4	Gemini 3.1 Pro
SWE-bench Pro	64,3 %	57,7 %	54,2 %
SWE-bench Verified	87,6 %	ei tiedossa	80,6 %
CursorBench	70 %	ei tiedossa	ei tiedossa
Terminal-Bench 2.0	69,4 %	75,1 %	ei tiedossa
GPQA Diamond	94,2 %	94,4 %	94,3 %

SWE-bench Pro mittaa todellisten bugien korjaamista avoimen lähdekoodin projekteissa. 64,3 prosentin tulos on noin 7 prosenttiyksikköä edellä GPT-5.4:ää, ja 10 prosenttiyksikköä Gemini 3.1 Proa. Samalla SWE-bench Verifiedissä on hyppy edeltäjään: Opus 4.6 ratkoi 80,8 prosenttia, Opus 4.7 ratkoo 87,6 prosenttia.

Rakutenin oma SWE-Bench-variantti antaa konkreettisemman kuvan. Siinä Opus 4.7 ratkaisee noin kolme kertaa enemmän tuotantotehtäviä kuin edeltäjänsä. Anthropicin 93 tehtävän sisäisessä koodaustestissä parannus Opus 4.6:een on 13 prosenttia.

Päättelyssä tilanne tasaantuu. GPQA Diamond mittaa monitieteistä päättelyä tohtoritasolla. Opus 4.7 saa 94,2, Gemini 3.1 Pro 94,3, GPT-5.4 Pro 94,4. Kolme mallia on käytännössä tasapelissä. Ero syntyy siis koodauksessa, ei yleispäättelyssä.

Terminal-Bench 2.0:ssa GPT-5.4 vie voiton. Terminaalikomennoista ja shell-työkulusta Anthropicin malli siis jää jälkeen, vaikka varsinaisessa koodikirjoituksessa se johtaa. Kannattaa muistaa, jos rakennat agenttia, joka elää enimmäkseen komentorivillä.

Opus 4.7 on suora jatko edeltäjänsä linjalle. Aiemmasta julkaisusta voi lukea, miten Opus 4.6 ratkaisi koodausongelman, johon GPT-5.3 Codex epäonnistui. Ero näkyy nyt vielä selvempänä.

Mythos: parempi malli, jota ei julkaista

Julkaisu muuttuu tässä kohtaa epätavalliseksi. Anthropic kirjoittaa samassa blogissa, jossa se esittelee Opus 4.7:n, että heillä on Mythos Preview. Se on huomattavasti kyvykkäämpi kuin Opus 4.7. Sitä ei julkaista yleiseen käyttöön.

Syy on kyberturvallisuus. Mythos on löytänyt tuhansia kriittisiä haavoittuvuuksia kaikista suurista käyttöjärjestelmistä ja selaimista. Kyky löytää nollapäivähaavoittuvuuksia skaalautuvasti on turvallisuusasiantuntijoille hyödyllinen, mutta se on yhtä käyttökelpoinen väärissä käsissä.

Anthropic on perustanut Project Glasswing -koalition, johon kuuluvat Amazon, Apple, Google, Cisco, CrowdStrike, JPMorgan Chase, Microsoft ja Nvidia. Glasswing ajaa Mythosta kumppaniensa tuoteputkissa ennen laajempaa jakelua. Mythos on saatavilla vain kutsulla, hinnoittelu on 25 dollaria per miljoona input-tokenia ja 125 dollaria per miljoona output-tokenia. Viisinkertainen Opus 4.7:ään verrattuna.

Opus 4.7:n kybersec-kyvyt on tahallaan heikennetty koulutuksen aikana. Mallissa on automaattinen esto korkeariskisille kyberturvallisuuspyynnöille. Legitiimit tietoturvatutkijat voivat hakea poikkeusta Cyber Verification Program -ohjelman kautta.

❝

Frontier-labissa on aina kyvykkäämpää teknologiaa kuin mitä se markkinoi. Se on alan normi. Poikkeus on, että Anthropic kirjoittaa sen julki samassa postauksessa, jossa se esittelee uutta lippulaivaansa. Useimmat kilpailijat pitäisivät suunsa kiinni.

Sama avoimuuskulttuuri näkyy muissakin Anthropicin julkaisuissa. Äskettäisessä tunteita käsittelevässä tutkimuksessa Anthropic myönsi, että malleilla on mitattavia sisäisiä tiloja, jotka ohjaavat käytöstä. Mythos-paljastus jatkaa samaa linjaa: se on signaali siitä, että alalla on käynnissä vakava keskustelu siitä, mitä on vastuullista päästää yleiseen käyttöön. Ei markkinointikikka.

1-to-1 AI-sparraus ja koulutus (300 €)

Kaksi tuntia henkilökohtaista AI-sparrausta, joka rakentuu kokonaan sinun tilanteesi ja tavoitteidesi ympärille. Ei valmiita kalvoja, ei geneeristä sisältöä - vaan konkreettista apua juuri niihin kysymyksiin, joita sinulla on tekoälyn hyödyntämisestä. Sessio räätälöidään ennakkokyselyn perusteella, joten jokainen tapaaminen on ainutlaatuinen

zcal.co/janneikola/ai-sparraus

Mitä käytännössä muuttuu

Koodausbenchmarkkien ulkopuolella Opus 4.7 tuo joukon teknisiä muutoksia, jotka kannattaa tietää ennen migraatiota.

Visuaalinen tarkkuus hyppäsi 55:stä 98,5:een

Kuvia käsitellessä muutos on iso. Suurin tuettu resoluutio nousi 1 568 pikselistä 2 576 pikseliin, mikä tarkoittaa yli 3,75-kertaista pikselimäärää. Visuaalisissa tarkkuustesteissä malli yltää 98,5 prosenttiin, kun Opus 4.6 ylsi 54,5:een. Käytännössä tämä tarkoittaa, että kuvakaappausten lukeminen, UI-virheiden tunnistus, kaavioiden ja tiheiden asiakirjojen analysointi ovat nyt luotettavia. Aiemmin toimivia puolet ajasta, nyt käytännössä aina.

❝

Erikoistapaus: pikselikoordinaatit vastaavat nyt todellisia näyttöpaikkoja. Computer use -agentit, jotka klikkaavat elementtejä koordinaattien perusteella, saavat merkittävän parannuksen.

Max output kaksinkertaistuu

Opus 4.7 tuottaa yhdellä kutsulla enintään 128 000 tokenia. Sonnet 4.6 tuottaa 64 000, joten ero on kaksinkertainen. Pitkät refaktoroinnit tai kokonaisen tiedoston uudelleenkirjoitus mahtuvat nyt paremmin yhteen vastaukseen. Myös agenttitehtävissä, joissa malli palauttaa pitkän toimintasuunnitelman ennen työkalukutsuja, tämä näkyy.

Adaptive thinking korvaa manuaaliset säädöt

Extended thinking poistuu. Temperature, top_p ja top_k eivät enää toimi. Tilalle tulee adaptive thinking, joka säätää päättelyn syvyyden tehtävän vaativuuden mukaan. Kehittäjille tämä on iso muutos: jos sovellus tukeutuu temperature-arvoon hallitakseen luovuutta, koodi pitää päivittää.

Uusi tukitaso xhigh-effort asettuu high- ja max-tasojen väliin. Neljäs porras antaa hienomman kontrollin hitauden ja tarkkuuden välillä.

Task Budgets: kustannuksia agenteille

Beetavaiheeseen tullut ominaisuus, jolla kehittäjä voi asettaa token-budjetin tehtävälle. Malli optimoi toimintansa budjetin puitteissa. Pitkissä autonomisissa tehtävissä, joissa kustannukset muuten karkaavat hallinnasta, tämä on konkreettinen apu. Jos ajat agenttia, joka tutkii koodikantaa tuntikausia, budjettilinja vetää viivan yhteen paikkaan.

Claude Codeen Ultrareview ja parempi muisti

Claude Code saa uuden Ultrareview-tilan, joka tunnistaa bugeja ja suunnitteluvirheitä ennen committia. Muistin hallinta usean session yli on parantunut: konteksti säilyy paremmin, kun työskentely jatkuu päivien yli.

Vähemmän näkyvä mutta tärkeä muutos: tiukempi ohjeiden noudattaminen. Opus 4.7 kutsuu työkaluja vähemmän ilman pyyntöä. Aiemmassa mallissa agentti saattoi alkaa tutkia tiedostojärjestelmää oma-aloitteisesti, kun ei pyydetty. Uusi käytös on kiltimpi.

Tokenizer-muutos on piilokustannus

Muut artikkelit eivät ole juurikaan käsitelleet tätä osaa julkaisusta. Opus 4.7:ssä on uusi tokenizer. Se tuottaa samasta tekstistä 1,0-1,35 kertaa enemmän tokeneita kuin Opus 4.6:n tokenizer.

Listahinta ei muuttunut: 5 dollaria per miljoona input-tokenia, 25 dollaria per miljoona output-tokenia. Cachella saat 90 prosentin alennuksen, batch-käsittelyllä 50 prosentin. Paperilla hinta on sama kuin edeltäjässä.

Käytännössä sama teksti maksaa 0-35 prosenttia enemmän. Koska output on hinnoiteltu viisinkertaisena input-hintaan nähden, runsaasti tuottavat sovellukset näkevät suurimman vaikutuksen. Finout.io:n analyysi suositteli mittaamaan todellisen kustannusvaikutuksen rinnakkaisajolla ennen migraatiota.

❝

Suomenkielisille käyttäjille tämä on erityisen kipeä kohta. Ei-englanninkieliset kielet tokenoituvat tyypillisesti tehottomammin kuin englanti, ja tokenizer-muutos voi korostaa eroa entisestään. Sama suomenkielinen artikkeli, joka maksoi Opus 4.6:lla tietyn summan, voi Opus 4.7:llä maksaa kolmanneksen enemmän, vaikka listahinta on pysynyt ennallaan.

Käytännön neuvo: aja muutama todellinen tuotantokutsu rinnakkain molemmilla malleilla ja vertaa token-lukuja ja kokonaiskustannusta, ennen kuin päätät siirtyä. Anthropicin token-laskuri antaa nopean arvion yksittäisille teksteille. Agenttiputkissa, joissa kustannukset laskutetaan tuhansista käyttäjistä, ero on mitattavissa euroissa, ei prosenteissa.

Vastaava kustannuslaskenta on tuttua jo niille, jotka rakentavat agentteja, jotka maksavat itse omat laskunsa: tokenikustannus kertautuu nopeasti, kun agentti pyörii 24/7.

Kenelle Opus 4.7, kenelle Sonnet, kenelle Haiku

Opus 4.7 on kallein Clauden julkinen malli. Se ei ole järkevä oletus kaikkeen.

	Opus 4.7	Sonnet 4.6	Haiku 4.5
Input / output (per Mtok)	5 $ / 25 $	3 $ / 15 $	1 $ / 5 $
Max output	128k tokenia	64k tokenia	8k tokenia
Konteksti	1M tokenia	1M tokenia	200k tokenia
Paras käyttö	Pitkät agenttitehtävät, koodaus, enterprise	Useimmat kuluttajatarpeet, nopeus	Reaaliaikaiset, yksinkertaiset tehtävät

Opus 4.7 kannattaa valita jos:

Rakennat autonomisia agentteja, jotka työskentelevät pitkiä jaksoja itsenäisesti
Teet vaativaa koodausta tai refaktorointeja, joissa tarkkuus on tärkeämpää kuin nopeus
Tarvitset luotettavaa kuvien analyysiä (UI-kuvakaappaukset, kaaviot, käsinkirjoitus)
Ajat yritystason sovelluksia, joissa vastauksen laatu on kriittistä

Sonnet 4.6 on edelleen oikea oletus useimpiin käyttötapauksiin. Halvempi, lähes yhtä kyvykäs useimmissa tehtävissä, nopeampi. Sonnet 4.6:n julkaisusta voi lukea tarkemman analyysin sen omasta julkistusartikkelista. Hinta-laatu-suhteessa se on harvoin hävinnyt Opukselle.

Haiku 4.5 on paikallaan reaaliaikaisissa ja yksinkertaisissa tehtävissä. Chatbotit, luokittelut, yhteenvedot. Jos latenssi on alle sekunti, Haiku on oikea valinta.

Erikoistapauksena: jos olet käyttämässä temperature-arvoa, top_p:tä tai top_k:ta sovelluksessasi, ja siirryt Opus 4.7:ään, valmistaudu siihen, että nämä parametrit eivät enää tee mitään. Adaptive thinking on ainoa tuettu tila. Sonnet 4.6 ja Haiku 4.5 tukevat vielä vanhoja asetuksia.

Yhteenveto

Opus 4.7 on paras koodausmalli markkinoilla SWE-bench-mittareilla. Se voittaa GPT-5.4:n ja Gemini 3.1 Pron ohjelmistokehityksessä, mutta jää Terminal-Benchissä GPT-5.4:lle ja on päättelyssä tasapelissä kilpailijoiden kanssa. Koodaus erottaa, päättely ei.

Mythos-paljastus on isompi tarina kuin itse malli. Anthropic myönsi pitävänsä kyvykkäämmän mallin pois julkisuudesta kyberturvallisuussyistä. Se on harvinainen avoimuuden ele alalla, jolla jokainen kilpailija markkinoi julkaisujaan läpimurtoina.

Ja sitten on se tokenizer. Listahinta ei muuttunut, todellinen kustannus voi nousta kolmanneksella. Suomenkielisille käyttäjille vaikutus voi olla keskimääräistä suurempi. Mittaa rinnakkaisajolla ennen migraatiota.

Käytännön suositus: jos et tarvitse pitkiä autonomisia koodaustehtäviä tai raskasta kuvien analyysiä, pysy Sonnet 4.6:ssa. Jos rakennat koodaavia agentteja tai enterprise-työkaluja, Opus 4.7 on paras saatavilla oleva vaihtoehto, ainakin siihen asti kun Mythos tulee ulos. Anthropic ei ole antanut aikataulua. Toistaiseksi se on piilossa.

Lähteet: Anthropic: Introducing Claude Opus 4.7, AWS Bedrock: Introducing Claude Opus 4.7, The Next Web: Claude Opus 4.7 leads on SWE-bench, Axios: Anthropic concedes new Opus trails unreleased Mythos, CNBC: Anthropic rolls out Claude Opus 4.7, finout.io: Claude Opus 4.7 Pricing: The Real Cost Story, Simon Willison: Qwen3.6 beat Opus 4.7 on pelican test, GitHub Changelog: Claude Opus 4.7 is generally available

Lisää tekoälyoppaita ja -uutisia: aisanomat.fi

Claude Opus 4.7 julkaistu: paras koodausmalli, jonka Anthropic uskalsi päästää ulos

Koodausluvut, jotka erottavat Opus 4.7:n kilpailijoista

Mythos: parempi malli, jota ei julkaista

Mitä käytännössä muuttuu

Visuaalinen tarkkuus hyppäsi 55:stä 98,5:een

Max output kaksinkertaistuu

Adaptive thinking korvaa manuaaliset säädöt

Task Budgets: kustannuksia agenteille

Claude Codeen Ultrareview ja parempi muisti

Tokenizer-muutos on piilokustannus

Kenelle Opus 4.7, kenelle Sonnet, kenelle Haiku

Yhteenveto

Reply

Keep Reading

AI-Sanomat

Home

Account

Bottiverstas

Premium-sisällöt

Työkalut