AI-Sanomat
Posts
OpenAI gpt-oss -mallien käyttöopas: Aja ChatGPT:tä omalla tietokoneellasi

OpenAI gpt-oss -mallien käyttöopas: Aja ChatGPT:tä omalla tietokoneellasi

Tämä opas kertoo mistä uusissa gpt-oss -malleissa on kyse ja miten saat asennettua ne omalle koneellesi

Janne Ikola
August 07, 2025

Mikä on gpt-oss?

OpenAI julkaisi 5. elokuuta 2025 kaksi mullistavaa avoimen lähdekoodin kielimallia: gpt-oss-120b ja gpt-oss-20b. Nämä ovat OpenAI:n ensimmäiset täysin avoimet mallit sitten GPT-2:n, ja ne on julkaistu Apache 2.0 -lisenssillä, mikä mahdollistaa niiden vapaan käytön myös kaupallisissa projekteissa.

Tämä AI-Sanomien opas käy läpi mistä nämä mallit ovat rakennettu, mitä uutta ja innovatiivista niissä on, ja miten saat asennettua ne paikallisesti.

Tämä artikkeli on hieman tekninen, joten se vaatii jonkin verran teknistä osaamista. Jos jaksat kahlata artikkelin läpi sen haastavuudesta huolimatta, opit varmasti jotain hyödyllistä ja uutta 🤓

Gpt-oss -mallit pähkinänkuoressa

gpt-oss-120b (isompi malli)

Kokonaisparametrit: 117 miljardia
Aktiiviset parametrit: 5,1 miljardia per token
Muistivaatimus: 80 GB (MXFP4-kvantisointi)
Suorituskyky: Lähes o4-mini-tason suorituskyky
Käyttökohteet: Vaativat päättelytehtävät, tuotantokäyttö, kompleksiset ongelmat

gpt-oss-20b (pienempi malli)

Kokonaisparametrit: 21 miljardia
Aktiiviset parametrit: 3,6 miljardia per token
Muistivaatimus: 16 GB (MXFP4-kvantisointi)
Suorituskyky: o3-mini-tason suorituskyky
Käyttökohteet: Kuluttajalaitteet, nopea päättely, paikallinen käyttö

Mikä tekee gpt-oss -malleista erityisiä?

1. Mixture-of-Experts (MoE) -arkkitehtuuri

MoE on vallankumouksellinen neuroverkkoarkkitehtuuri, joka jakaa mallin useisiin erikoistuneisiin "asiantuntijaverkkoihin". Perinteisessä tiheässä (dense) mallissa jokainen syöte aktivoi kaikki parametrit, mutta MoE-mallissa:

Miten se toimii:

gpt-oss-120b: 36 kerrosta, joissa kussakin on 128 asiantuntijaa. Jokaiselle tokenille valitaan TOP-4 asiantuntijaa.
gpt-oss-20b: 24 kerrosta, joissa kussakin on 32 asiantuntijaa. Jokaiselle tokenille valitaan TOP-4 asiantuntijaa.
Reititysmekanismi: Älykkäs "router" päättää, mitkä asiantuntijat aktivoidaan kullekin tokenille perustuen sisällön luonteeseen.

Konkreettinen hyöty:

Vaikka gpt-oss-120b sisältää 117 miljardia parametria, se käyttää vain 5,1 miljardia per token
Tämä tarkoittaa 95% vähemmän laskentaa per token verrattuna tiheään malliin
Käytännössä: Saat GPT-4-luokan älykkyyden murto-osalla laskentaresursseista

Esimerkki käytännössä: Kun kysyt matematiikkaongelmaa, malli aktivoi matematiikkaan erikoistuneita asiantuntijoita. Kun vaihdat runoiluun, aktivoituvat luovaan kirjoittamiseen erikoistuneet asiantuntijat - kaikki tämä tapahtuu automaattisesti ja saumattomasti.

2. MXFP4-kvantisointi

Kvantisointi on tekniikka, jossa mallin numeroarvot pakataan pienempään tilaan. MXFP4 (Mixed-precision FP4) on OpenAI:n kehittämä edistynyt kvantisointimenetelmä.

Perinteinen vs. MXFP4:

Perinteinen FP16: Jokainen luku vie 16 bittiä (2 tavua)
MXFP4: Jokainen luku vie vain 4 bittiä (0,5 tavua)
Muistinsäästö: 75% pienempi muistijalanjälki

Miksi tämä on mullistavaa:

120 miljardin parametrin malli normaalisti: ~240 GB muistia (FP16)
MXFP4-kvantisoinnilla: ~60-80 GB muistia
Mahdollistaa tehokkaan ajon yhdellä kalliilla GPU:lla usean sijaan

Laadun säilyminen: MXFP4 käyttää älykkäitä tekniikoita laadun säilyttämiseksi:

Skaalauskerroin: Jokaiselle lohkolle oma skaalauskerroin
Epälineaarinen kvantisointi: Tärkeät arvot säilyvät tarkempina
MoE-optimointi: Vain MoE-kerrokset kvantisoidaan aggressiivisesti

Käytännön testit osoittavat, että suorituskyky laskee vain 1-3% verrattuna täyteen tarkkuuteen!

3. Säädettävä päättelytaso (Chain-of-Thought)

Gpt-oss-mallit käyttävät OpenAI:n o3-sarjasta tuttua säädettävää päättelyä, joka perustuu vahvistettuun oppimiseen (RL).

Low - Nopea päättely:

Käyttö: Arkikeskustelut, yksinkertaiset kysymykset
Prosessi: Malli hyppää suoraan vastaukseen
Nopeus: 50-100 tokenia/sekunti
Esimerkki: "Mikä on Suomen pääkaupunki?" → Välitön vastaus

Medium - Tasapainoitettu:

Käyttö: Monimutkaisemmat kysymykset, lyhyet analyysit
Prosessi: Malli käy läpi 2-3 päättelyaskelta
Nopeus: 30-50 tokenia/sekunti
Esimerkki: "Vertaile sähköauton ja bensiiniauton etuja" → Jäsennelty vertailu

High - Syvällinen analyysi:

Käyttö: Vaativat ongelmat, tutkimus, ohjelmointi
Prosessi: Malli käy läpi 5-10+ päättelyaskelta, tarkistaa työnsä
Nopeus: 10-30 tokenia/sekunti
Esimerkki: "Suunnittele tietokannan arkkitehtuuri verkkokaupalle" → Yksityiskohtainen suunnitelma perusteluineen

Säätäminen käytännössä:

# System promptissa
messages = [
    {"role": "system", "content": "Reasoning: high"},
    {"role": "user", "content": "Ratkaise tämä algoritmi..."}
]

# Tai suoraan viestissä
"<reasoning>high</reasoning>Selitä kvanttitietokoneen toiminta"

4. Kehittynyt työkalukäyttö

Gpt-oss-mallit on koulutettu käyttämään ulkoisia työkaluja osana päättelyprosessiaan, mikä laajentaa niiden kyvykkyyksiä merkittävästi.

Tuetut työkalutyypit:

a) Funktioiden kutsuminen:

Malli voi kutsua määrittelemiäsi funktioita tai ulkopuolisia järjestelmiä
Automaattinen parametrien validointi, jotta työkalu toimii luotettavasti
JSON-skeeman mukainen kommunikaatio

# Esimerkki: Sääpalvelu-integraatio
def hae_saa(kaupunki: str, maa: str = "FI"):
    # Todellinen API-kutsu
    return {"lämpötila": 15, "kuvaus": "Pilvistä"}

# Malli osaa käyttää tätä automaattisesti

b) Verkkoselain (Browser Tool):

Hakukoneiden käyttö reaaliaikaiseen tiedonhakuun
Web-sivujen lukeminen ja analysointi
Tiedon yhdistäminen useista lähteistä

c) Python-tulkki:

Matemaattisten laskujen suorittaminen
Datan analysointi ja visualisointi
Algoritmien testaaminen reaaliajassa

# Malli voi generoida ja suorittaa koodia
"Laske 15% vero 5847€ summasta ja näytä kuukausierät 12kk ajalle"
# → Malli kirjoittaa ja suorittaa Python-koodin

d) Tiedostokäsittely:

CSV, JSON, Excel-tiedostojen lukeminen
Datan prosessointi ja analyysi
Raporttien generointi

Monityökaluketjutus: Malli voi käyttää useita työkaluja peräkkäin:

Hae verkosta tietoa →
Analysoi Python-koodilla →
Tallenna tulokset tiedostoon →
Generoi visualisointi

Käytännön esimerkki monityökalukäytöstä:

# Käyttäjä: "Vertaile Helsingin ja Turun säätä viimeisen viikon ajalta"
# Malli automaattisesti:
# 1. Kutsuu sää-APIa molemmille kaupungeille
# 2. Käyttää Python-tulkkia datan analysointiin
# 3. Luo vertailevan kuvaajan
# 4. Palauttaa analyysin tekstinä + kuvaajan

5. Muita erityisominaisuuksia

Harmony Response Format:

OpenAI:n kehittämä strukturoitu vastausformaatti
Mahdollistaa tarkan kontrollin vastauksen muodosta
Tukee JSON, XML ja muita strukturoituja muotoja

Pitkä konteksti:

Jopa 128,000 tokenin kontekstiikkuna
Vastaa noin 300 sivua tekstiä
Mahdollistaa kokonaisten kirjojen analysoinnin

Monikielisyys:

Koulutettu 81+ kielellä
Erinomainen suomen kielen ymmärrys
Saumaton kielten välinen kääntäminen

Turvallisuusominaisuudet:

Sisäänrakennettu harmittomuuskoulutus
Vastustuskyky haitallisille prompteille
Mahdollisuus hienosäätöön omiin turvallisuustarpeisiin

Järjestelmävaatimukset

Minimivaatimukset gpt-oss-20b:lle

Käyttöjärjestelmä: Linux (Ubuntu 18.04+), macOS (Big Sur+) tai Windows (WSL2)
RAM: Vähintään 16 GB (suositus: 32 GB)
Prosessori: Moderni CPU vähintään 4 ytimellä
- Suositus: AVX512-tuella varustettu prosessori (Intel 11. sukupolvi tai AMD Zen4)
Tallennustila: 50 GB vapaata tilaa
GPU (valinnainen mutta suositeltava):
- NVIDIA GPU vähintään 16 GB VRAM:ia
- Compute Capability 5.0 tai uudempi
- Esim. RTX 3090, RTX 4070 Ti, RTX 4080

Vaatimukset gpt-oss-120b:lle

RAM: Vähintään 32 GB (suositus: 64 GB). Itse en ole saanut tätä pyörimään järkevällä nopeudella huipputehokkaassakaan läppärissä.
GPU: NVIDIA GPU vähintään 80 GB VRAM:ia
- Esim. NVIDIA H100, A100 (80GB versio)
- Tai usean GPU:n konfiguraatio

Vaihe 1: Ollaman asennus

Ollama on helppokäyttöinen työkalu, joka mahdollistaa suurten kielimallien ajamisen paikallisesti. Se pakkaa mallin painot, konfiguraation ja datan yhteen pakettiin.

Tilaa AI-Sanomien Plus-jäsenyys niin näet loput sisällöstä

Tilaamalla AI-Sanomien maksullisen jäsenyyden saat pääsyn kaikkiin uutiskirjeen sisältöihin sekä tuet Suomen parasta AI-mediaa.

Tilaa jäsenyys tästä! Voit lopettaa koska tahansa.

Already a paying subscriber? Sign In.

Miksi tilaus kannattaa?:

• Pääsy kaikkiin maksullisiin oppaisiin
• Webinaari-tallenteet
• Näet kaikki uutiskirjeen sisällöt, uudet AI-työkalut sekä vinkit tekoälyn käyttöön.
• GPT4o-botti: Tämä on tietoturvallinen versio ChatGPT:stä, jossa syöttämääsi dataa ei käytetä kielimallin kouluttamiseen.
• Tuet Suomen parasta AI-mediaa 😊

Reply

or to participate.