- AI-Sanomat
- Posts
- OpenAI gpt-oss -mallien käyttöopas: Aja ChatGPT:tä omalla tietokoneellasi
OpenAI gpt-oss -mallien käyttöopas: Aja ChatGPT:tä omalla tietokoneellasi
Tämä opas kertoo mistä uusissa gpt-oss -malleissa on kyse ja miten saat asennettua ne omalle koneellesi

Mikä on gpt-oss?
OpenAI julkaisi 5. elokuuta 2025 kaksi mullistavaa avoimen lähdekoodin kielimallia: gpt-oss-120b ja gpt-oss-20b. Nämä ovat OpenAI:n ensimmäiset täysin avoimet mallit sitten GPT-2:n, ja ne on julkaistu Apache 2.0 -lisenssillä, mikä mahdollistaa niiden vapaan käytön myös kaupallisissa projekteissa.
Tämä AI-Sanomien opas käy läpi mistä nämä mallit ovat rakennettu, mitä uutta ja innovatiivista niissä on, ja miten saat asennettua ne paikallisesti.
Tämä artikkeli on hieman tekninen, joten se vaatii jonkin verran teknistä osaamista. Jos jaksat kahlata artikkelin läpi sen haastavuudesta huolimatta, opit varmasti jotain hyödyllistä ja uutta 🤓

Gpt-oss -mallit pähkinänkuoressa
gpt-oss-120b (isompi malli)
Kokonaisparametrit: 117 miljardia
Aktiiviset parametrit: 5,1 miljardia per token
Muistivaatimus: 80 GB (MXFP4-kvantisointi)
Suorituskyky: Lähes o4-mini-tason suorituskyky
Käyttökohteet: Vaativat päättelytehtävät, tuotantokäyttö, kompleksiset ongelmat
gpt-oss-20b (pienempi malli)
Kokonaisparametrit: 21 miljardia
Aktiiviset parametrit: 3,6 miljardia per token
Muistivaatimus: 16 GB (MXFP4-kvantisointi)
Suorituskyky: o3-mini-tason suorituskyky
Käyttökohteet: Kuluttajalaitteet, nopea päättely, paikallinen käyttö
Mikä tekee gpt-oss -malleista erityisiä?
1. Mixture-of-Experts (MoE) -arkkitehtuuri
MoE on vallankumouksellinen neuroverkkoarkkitehtuuri, joka jakaa mallin useisiin erikoistuneisiin "asiantuntijaverkkoihin". Perinteisessä tiheässä (dense) mallissa jokainen syöte aktivoi kaikki parametrit, mutta MoE-mallissa:
Miten se toimii:
gpt-oss-120b: 36 kerrosta, joissa kussakin on 128 asiantuntijaa. Jokaiselle tokenille valitaan TOP-4 asiantuntijaa.
gpt-oss-20b: 24 kerrosta, joissa kussakin on 32 asiantuntijaa. Jokaiselle tokenille valitaan TOP-4 asiantuntijaa.
Reititysmekanismi: Älykkäs "router" päättää, mitkä asiantuntijat aktivoidaan kullekin tokenille perustuen sisällön luonteeseen.
Konkreettinen hyöty:
Vaikka gpt-oss-120b sisältää 117 miljardia parametria, se käyttää vain 5,1 miljardia per token
Tämä tarkoittaa 95% vähemmän laskentaa per token verrattuna tiheään malliin
Käytännössä: Saat GPT-4-luokan älykkyyden murto-osalla laskentaresursseista
Esimerkki käytännössä: Kun kysyt matematiikkaongelmaa, malli aktivoi matematiikkaan erikoistuneita asiantuntijoita. Kun vaihdat runoiluun, aktivoituvat luovaan kirjoittamiseen erikoistuneet asiantuntijat - kaikki tämä tapahtuu automaattisesti ja saumattomasti.
2. MXFP4-kvantisointi
Kvantisointi on tekniikka, jossa mallin numeroarvot pakataan pienempään tilaan. MXFP4 (Mixed-precision FP4) on OpenAI:n kehittämä edistynyt kvantisointimenetelmä.
Perinteinen vs. MXFP4:
Perinteinen FP16: Jokainen luku vie 16 bittiä (2 tavua)
MXFP4: Jokainen luku vie vain 4 bittiä (0,5 tavua)
Muistinsäästö: 75% pienempi muistijalanjälki
Miksi tämä on mullistavaa:
120 miljardin parametrin malli normaalisti: ~240 GB muistia (FP16)
MXFP4-kvantisoinnilla: ~60-80 GB muistia
Mahdollistaa tehokkaan ajon yhdellä kalliilla GPU:lla usean sijaan
Laadun säilyminen: MXFP4 käyttää älykkäitä tekniikoita laadun säilyttämiseksi:
Skaalauskerroin: Jokaiselle lohkolle oma skaalauskerroin
Epälineaarinen kvantisointi: Tärkeät arvot säilyvät tarkempina
MoE-optimointi: Vain MoE-kerrokset kvantisoidaan aggressiivisesti
Käytännön testit osoittavat, että suorituskyky laskee vain 1-3% verrattuna täyteen tarkkuuteen!
3. Säädettävä päättelytaso (Chain-of-Thought)
Gpt-oss-mallit käyttävät OpenAI:n o3-sarjasta tuttua säädettävää päättelyä, joka perustuu vahvistettuun oppimiseen (RL).
Low - Nopea päättely:
Käyttö: Arkikeskustelut, yksinkertaiset kysymykset
Prosessi: Malli hyppää suoraan vastaukseen
Nopeus: 50-100 tokenia/sekunti
Esimerkki: "Mikä on Suomen pääkaupunki?" → Välitön vastaus
Medium - Tasapainoitettu:
Käyttö: Monimutkaisemmat kysymykset, lyhyet analyysit
Prosessi: Malli käy läpi 2-3 päättelyaskelta
Nopeus: 30-50 tokenia/sekunti
Esimerkki: "Vertaile sähköauton ja bensiiniauton etuja" → Jäsennelty vertailu
High - Syvällinen analyysi:
Käyttö: Vaativat ongelmat, tutkimus, ohjelmointi
Prosessi: Malli käy läpi 5-10+ päättelyaskelta, tarkistaa työnsä
Nopeus: 10-30 tokenia/sekunti
Esimerkki: "Suunnittele tietokannan arkkitehtuuri verkkokaupalle" → Yksityiskohtainen suunnitelma perusteluineen
Säätäminen käytännössä:
# System promptissa
messages = [
{"role": "system", "content": "Reasoning: high"},
{"role": "user", "content": "Ratkaise tämä algoritmi..."}
]
# Tai suoraan viestissä
"<reasoning>high</reasoning>Selitä kvanttitietokoneen toiminta"
4. Kehittynyt työkalukäyttö
Gpt-oss-mallit on koulutettu käyttämään ulkoisia työkaluja osana päättelyprosessiaan, mikä laajentaa niiden kyvykkyyksiä merkittävästi.
Tuetut työkalutyypit:
a) Funktioiden kutsuminen:
Malli voi kutsua määrittelemiäsi funktioita tai ulkopuolisia järjestelmiä
Automaattinen parametrien validointi, jotta työkalu toimii luotettavasti
JSON-skeeman mukainen kommunikaatio
# Esimerkki: Sääpalvelu-integraatio
def hae_saa(kaupunki: str, maa: str = "FI"):
# Todellinen API-kutsu
return {"lämpötila": 15, "kuvaus": "Pilvistä"}
# Malli osaa käyttää tätä automaattisesti
b) Verkkoselain (Browser Tool):
Hakukoneiden käyttö reaaliaikaiseen tiedonhakuun
Web-sivujen lukeminen ja analysointi
Tiedon yhdistäminen useista lähteistä
c) Python-tulkki:
Matemaattisten laskujen suorittaminen
Datan analysointi ja visualisointi
Algoritmien testaaminen reaaliajassa
# Malli voi generoida ja suorittaa koodia
"Laske 15% vero 5847€ summasta ja näytä kuukausierät 12kk ajalle"
# → Malli kirjoittaa ja suorittaa Python-koodin
d) Tiedostokäsittely:
CSV, JSON, Excel-tiedostojen lukeminen
Datan prosessointi ja analyysi
Raporttien generointi
Monityökaluketjutus: Malli voi käyttää useita työkaluja peräkkäin:
Hae verkosta tietoa →
Analysoi Python-koodilla →
Tallenna tulokset tiedostoon →
Generoi visualisointi
Käytännön esimerkki monityökalukäytöstä:
# Käyttäjä: "Vertaile Helsingin ja Turun säätä viimeisen viikon ajalta"
# Malli automaattisesti:
# 1. Kutsuu sää-APIa molemmille kaupungeille
# 2. Käyttää Python-tulkkia datan analysointiin
# 3. Luo vertailevan kuvaajan
# 4. Palauttaa analyysin tekstinä + kuvaajan
5. Muita erityisominaisuuksia
Harmony Response Format:
OpenAI:n kehittämä strukturoitu vastausformaatti
Mahdollistaa tarkan kontrollin vastauksen muodosta
Tukee JSON, XML ja muita strukturoituja muotoja
Pitkä konteksti:
Jopa 128,000 tokenin kontekstiikkuna
Vastaa noin 300 sivua tekstiä
Mahdollistaa kokonaisten kirjojen analysoinnin
Monikielisyys:
Koulutettu 81+ kielellä
Erinomainen suomen kielen ymmärrys
Saumaton kielten välinen kääntäminen
Turvallisuusominaisuudet:
Sisäänrakennettu harmittomuuskoulutus
Vastustuskyky haitallisille prompteille
Mahdollisuus hienosäätöön omiin turvallisuustarpeisiin
Järjestelmävaatimukset
Minimivaatimukset gpt-oss-20b:lle
Käyttöjärjestelmä: Linux (Ubuntu 18.04+), macOS (Big Sur+) tai Windows (WSL2)
RAM: Vähintään 16 GB (suositus: 32 GB)
Prosessori: Moderni CPU vähintään 4 ytimellä
Suositus: AVX512-tuella varustettu prosessori (Intel 11. sukupolvi tai AMD Zen4)
Tallennustila: 50 GB vapaata tilaa
GPU (valinnainen mutta suositeltava):
NVIDIA GPU vähintään 16 GB VRAM:ia
Compute Capability 5.0 tai uudempi
Esim. RTX 3090, RTX 4070 Ti, RTX 4080
Vaatimukset gpt-oss-120b:lle
RAM: Vähintään 32 GB (suositus: 64 GB). Itse en ole saanut tätä pyörimään järkevällä nopeudella huipputehokkaassakaan läppärissä.
GPU: NVIDIA GPU vähintään 80 GB VRAM:ia
Esim. NVIDIA H100, A100 (80GB versio)
Tai usean GPU:n konfiguraatio
Vaihe 1: Ollaman asennus
Ollama on helppokäyttöinen työkalu, joka mahdollistaa suurten kielimallien ajamisen paikallisesti. Se pakkaa mallin painot, konfiguraation ja datan yhteen pakettiin.

Tilaa AI-Sanomien Plus-jäsenyys niin näet loput sisällöstä
Tilaamalla AI-Sanomien maksullisen jäsenyyden saat pääsyn kaikkiin uutiskirjeen sisältöihin sekä tuet Suomen parasta AI-mediaa.
Already a paying subscriber? Sign In.
Miksi tilaus kannattaa?:
- • Pääsy kaikkiin maksullisiin oppaisiin
- • Webinaari-tallenteet
- • Näet kaikki uutiskirjeen sisällöt, uudet AI-työkalut sekä vinkit tekoälyn käyttöön.
- • GPT4o-botti: Tämä on tietoturvallinen versio ChatGPT:stä, jossa syöttämääsi dataa ei käytetä kielimallin kouluttamiseen.
- • Tuet Suomen parasta AI-mediaa 😊
Reply