• AI-Sanomat
  • Posts
  • OpenAI gpt-oss -mallien käyttöopas: Aja ChatGPT:tä omalla tietokoneellasi

OpenAI gpt-oss -mallien käyttöopas: Aja ChatGPT:tä omalla tietokoneellasi

Tämä opas kertoo mistä uusissa gpt-oss -malleissa on kyse ja miten saat asennettua ne omalle koneellesi

Mikä on gpt-oss?

OpenAI julkaisi 5. elokuuta 2025 kaksi mullistavaa avoimen lähdekoodin kielimallia: gpt-oss-120b ja gpt-oss-20b. Nämä ovat OpenAI:n ensimmäiset täysin avoimet mallit sitten GPT-2:n, ja ne on julkaistu Apache 2.0 -lisenssillä, mikä mahdollistaa niiden vapaan käytön myös kaupallisissa projekteissa.

Tämä AI-Sanomien opas käy läpi mistä nämä mallit ovat rakennettu, mitä uutta ja innovatiivista niissä on, ja miten saat asennettua ne paikallisesti.

Tämä artikkeli on hieman tekninen, joten se vaatii jonkin verran teknistä osaamista. Jos jaksat kahlata artikkelin läpi sen haastavuudesta huolimatta, opit varmasti jotain hyödyllistä ja uutta 🤓

Gpt-oss -mallit pähkinänkuoressa

gpt-oss-120b (isompi malli)

  • Kokonaisparametrit: 117 miljardia

  • Aktiiviset parametrit: 5,1 miljardia per token

  • Muistivaatimus: 80 GB (MXFP4-kvantisointi)

  • Suorituskyky: Lähes o4-mini-tason suorituskyky

  • Käyttökohteet: Vaativat päättelytehtävät, tuotantokäyttö, kompleksiset ongelmat

gpt-oss-20b (pienempi malli)

  • Kokonaisparametrit: 21 miljardia

  • Aktiiviset parametrit: 3,6 miljardia per token

  • Muistivaatimus: 16 GB (MXFP4-kvantisointi)

  • Suorituskyky: o3-mini-tason suorituskyky

  • Käyttökohteet: Kuluttajalaitteet, nopea päättely, paikallinen käyttö

Mikä tekee gpt-oss -malleista erityisiä?

1. Mixture-of-Experts (MoE) -arkkitehtuuri

MoE on vallankumouksellinen neuroverkkoarkkitehtuuri, joka jakaa mallin useisiin erikoistuneisiin "asiantuntijaverkkoihin". Perinteisessä tiheässä (dense) mallissa jokainen syöte aktivoi kaikki parametrit, mutta MoE-mallissa:

Miten se toimii:

  • gpt-oss-120b: 36 kerrosta, joissa kussakin on 128 asiantuntijaa. Jokaiselle tokenille valitaan TOP-4 asiantuntijaa.

  • gpt-oss-20b: 24 kerrosta, joissa kussakin on 32 asiantuntijaa. Jokaiselle tokenille valitaan TOP-4 asiantuntijaa.

  • Reititysmekanismi: Älykkäs "router" päättää, mitkä asiantuntijat aktivoidaan kullekin tokenille perustuen sisällön luonteeseen.

Konkreettinen hyöty:

  • Vaikka gpt-oss-120b sisältää 117 miljardia parametria, se käyttää vain 5,1 miljardia per token

  • Tämä tarkoittaa 95% vähemmän laskentaa per token verrattuna tiheään malliin

  • Käytännössä: Saat GPT-4-luokan älykkyyden murto-osalla laskentaresursseista

Esimerkki käytännössä: Kun kysyt matematiikkaongelmaa, malli aktivoi matematiikkaan erikoistuneita asiantuntijoita. Kun vaihdat runoiluun, aktivoituvat luovaan kirjoittamiseen erikoistuneet asiantuntijat - kaikki tämä tapahtuu automaattisesti ja saumattomasti.

2. MXFP4-kvantisointi

Kvantisointi on tekniikka, jossa mallin numeroarvot pakataan pienempään tilaan. MXFP4 (Mixed-precision FP4) on OpenAI:n kehittämä edistynyt kvantisointimenetelmä.

Perinteinen vs. MXFP4:

  • Perinteinen FP16: Jokainen luku vie 16 bittiä (2 tavua)

  • MXFP4: Jokainen luku vie vain 4 bittiä (0,5 tavua)

  • Muistinsäästö: 75% pienempi muistijalanjälki

Miksi tämä on mullistavaa:

  • 120 miljardin parametrin malli normaalisti: ~240 GB muistia (FP16)

  • MXFP4-kvantisoinnilla: ~60-80 GB muistia

  • Mahdollistaa tehokkaan ajon yhdellä kalliilla GPU:lla usean sijaan

Laadun säilyminen: MXFP4 käyttää älykkäitä tekniikoita laadun säilyttämiseksi:

  • Skaalauskerroin: Jokaiselle lohkolle oma skaalauskerroin

  • Epälineaarinen kvantisointi: Tärkeät arvot säilyvät tarkempina

  • MoE-optimointi: Vain MoE-kerrokset kvantisoidaan aggressiivisesti

Käytännön testit osoittavat, että suorituskyky laskee vain 1-3% verrattuna täyteen tarkkuuteen!

3. Säädettävä päättelytaso (Chain-of-Thought)

Gpt-oss-mallit käyttävät OpenAI:n o3-sarjasta tuttua säädettävää päättelyä, joka perustuu vahvistettuun oppimiseen (RL).

Low - Nopea päättely:

  • Käyttö: Arkikeskustelut, yksinkertaiset kysymykset

  • Prosessi: Malli hyppää suoraan vastaukseen

  • Nopeus: 50-100 tokenia/sekunti

  • Esimerkki: "Mikä on Suomen pääkaupunki?" → Välitön vastaus

Medium - Tasapainoitettu:

  • Käyttö: Monimutkaisemmat kysymykset, lyhyet analyysit

  • Prosessi: Malli käy läpi 2-3 päättelyaskelta

  • Nopeus: 30-50 tokenia/sekunti

  • Esimerkki: "Vertaile sähköauton ja bensiiniauton etuja" → Jäsennelty vertailu

High - Syvällinen analyysi:

  • Käyttö: Vaativat ongelmat, tutkimus, ohjelmointi

  • Prosessi: Malli käy läpi 5-10+ päättelyaskelta, tarkistaa työnsä

  • Nopeus: 10-30 tokenia/sekunti

  • Esimerkki: "Suunnittele tietokannan arkkitehtuuri verkkokaupalle" → Yksityiskohtainen suunnitelma perusteluineen

Säätäminen käytännössä:

# System promptissa
messages = [
    {"role": "system", "content": "Reasoning: high"},
    {"role": "user", "content": "Ratkaise tämä algoritmi..."}
]

# Tai suoraan viestissä
"<reasoning>high</reasoning>Selitä kvanttitietokoneen toiminta"

4. Kehittynyt työkalukäyttö

Gpt-oss-mallit on koulutettu käyttämään ulkoisia työkaluja osana päättelyprosessiaan, mikä laajentaa niiden kyvykkyyksiä merkittävästi.

Tuetut työkalutyypit:

a) Funktioiden kutsuminen:

  • Malli voi kutsua määrittelemiäsi funktioita tai ulkopuolisia järjestelmiä

  • Automaattinen parametrien validointi, jotta työkalu toimii luotettavasti

  • JSON-skeeman mukainen kommunikaatio

# Esimerkki: Sääpalvelu-integraatio
def hae_saa(kaupunki: str, maa: str = "FI"):
    # Todellinen API-kutsu
    return {"lämpötila": 15, "kuvaus": "Pilvistä"}

# Malli osaa käyttää tätä automaattisesti

b) Verkkoselain (Browser Tool):

  • Hakukoneiden käyttö reaaliaikaiseen tiedonhakuun

  • Web-sivujen lukeminen ja analysointi

  • Tiedon yhdistäminen useista lähteistä

c) Python-tulkki:

  • Matemaattisten laskujen suorittaminen

  • Datan analysointi ja visualisointi

  • Algoritmien testaaminen reaaliajassa

# Malli voi generoida ja suorittaa koodia
"Laske 15% vero 5847€ summasta ja näytä kuukausierät 12kk ajalle"
# → Malli kirjoittaa ja suorittaa Python-koodin

d) Tiedostokäsittely:

  • CSV, JSON, Excel-tiedostojen lukeminen

  • Datan prosessointi ja analyysi

  • Raporttien generointi

Monityökaluketjutus: Malli voi käyttää useita työkaluja peräkkäin:

  1. Hae verkosta tietoa →

  2. Analysoi Python-koodilla →

  3. Tallenna tulokset tiedostoon →

  4. Generoi visualisointi

Käytännön esimerkki monityökalukäytöstä:

# Käyttäjä: "Vertaile Helsingin ja Turun säätä viimeisen viikon ajalta"
# Malli automaattisesti:
# 1. Kutsuu sää-APIa molemmille kaupungeille
# 2. Käyttää Python-tulkkia datan analysointiin
# 3. Luo vertailevan kuvaajan
# 4. Palauttaa analyysin tekstinä + kuvaajan

5. Muita erityisominaisuuksia

Harmony Response Format:

  • OpenAI:n kehittämä strukturoitu vastausformaatti

  • Mahdollistaa tarkan kontrollin vastauksen muodosta

  • Tukee JSON, XML ja muita strukturoituja muotoja

Pitkä konteksti:

  • Jopa 128,000 tokenin kontekstiikkuna

  • Vastaa noin 300 sivua tekstiä

  • Mahdollistaa kokonaisten kirjojen analysoinnin

Monikielisyys:

  • Koulutettu 81+ kielellä

  • Erinomainen suomen kielen ymmärrys

  • Saumaton kielten välinen kääntäminen

Turvallisuusominaisuudet:

  • Sisäänrakennettu harmittomuuskoulutus

  • Vastustuskyky haitallisille prompteille

  • Mahdollisuus hienosäätöön omiin turvallisuustarpeisiin

Järjestelmävaatimukset

Minimivaatimukset gpt-oss-20b:lle

  • Käyttöjärjestelmä: Linux (Ubuntu 18.04+), macOS (Big Sur+) tai Windows (WSL2)

  • RAM: Vähintään 16 GB (suositus: 32 GB)

  • Prosessori: Moderni CPU vähintään 4 ytimellä

    • Suositus: AVX512-tuella varustettu prosessori (Intel 11. sukupolvi tai AMD Zen4)

  • Tallennustila: 50 GB vapaata tilaa

  • GPU (valinnainen mutta suositeltava):

    • NVIDIA GPU vähintään 16 GB VRAM:ia

    • Compute Capability 5.0 tai uudempi

    • Esim. RTX 3090, RTX 4070 Ti, RTX 4080

Vaatimukset gpt-oss-120b:lle

  • RAM: Vähintään 32 GB (suositus: 64 GB). Itse en ole saanut tätä pyörimään järkevällä nopeudella huipputehokkaassakaan läppärissä.

  • GPU: NVIDIA GPU vähintään 80 GB VRAM:ia

    • Esim. NVIDIA H100, A100 (80GB versio)

    • Tai usean GPU:n konfiguraatio

Vaihe 1: Ollaman asennus

Ollama on helppokäyttöinen työkalu, joka mahdollistaa suurten kielimallien ajamisen paikallisesti. Se pakkaa mallin painot, konfiguraation ja datan yhteen pakettiin.

Tilaa AI-Sanomien Plus-jäsenyys niin näet loput sisällöstä

Tilaamalla AI-Sanomien maksullisen jäsenyyden saat pääsyn kaikkiin uutiskirjeen sisältöihin sekä tuet Suomen parasta AI-mediaa.

Already a paying subscriber? Sign In.

Miksi tilaus kannattaa?:

  • • Pääsy kaikkiin maksullisiin oppaisiin
  • • Webinaari-tallenteet
  • • Näet kaikki uutiskirjeen sisällöt, uudet AI-työkalut sekä vinkit tekoälyn käyttöön.
  • • GPT4o-botti: Tämä on tietoturvallinen versio ChatGPT:stä, jossa syöttämääsi dataa ei käytetä kielimallin kouluttamiseen.
  • • Tuet Suomen parasta AI-mediaa 😊

Reply

or to participate.