Agentin soul.md on tärkeämpi kuin skill.md

Yli 10 OpenClaw-agenttia. Useita yrityksiä. 30 päivää jatkuvia kokeiluja.

Päivittäin kun scrollasin X:n aikajanaa, näin jonkun postaavan jonkin uuden agenttitekniikan ja lähetin sen välittömästi yhdelle agenteistani. "Integroi tämä. Testaa tämä. Kokeile tätä."

Jonkin aikaa se oli kyllä ihan tuottavaa. Mutta jokainen tälläinen kokeilu jätti arpikudosta OpenClaw-kokoonpanooni. Vähän ylijäämäkonfiguraatiota. Korruptoitunutta muistia. Kontekstia joka ei kuulunut sinne sekoittuneena kontekstiin joka kuului.

Näistä 10 agentista puhuin säännöllisesti kolmelle tai neljälle. Loput joko odottivat delegointia ydintiimiltä tai istuivat toimettomina polttaen tokeneita joka heartbeatin sykäyksellä.

❝

Google DeepMind julkaisi tutkimuksen joka osoittaa, että tarkkuus itse asiassa saturoituu tai heikkenee neljän agentin jälkeen. Syynä on "Coordination Tax" -- koordinaatiokustannus. Eräs analyysi kutsui tätä "17x error trap" -ilmiöksi: agenttien naivi lisääminen järjestelmään kertoo virhemäärääsi, ei läpimenoasi.

Enemmän agentteja ei tarkoita enemmän tuloksia. Se tarkoittaa enemmän koordinaatiokuormaa.

Ratkaisun löytyminen vaati kaiken uudelleenrakentamisen yhden ainoan idean ympärille: agentin sielu ratkaisee enemmän kuin sen kyvyt. Tässä tutkimus joka todistaa sen ja viikkojen epäonnistumiset jotka opettivat sen.

Miksi agentin "sielu" on tärkein vipu

Agentin sielu tarkoittaa sen identiteettitiedostoja -- system promptin alkua joka määrittelee kuka agentti on, miten se ajattelee ja mitä se arvostaa. Se on OpenClaw:n maailmassa tyypillisesti CLAUDE.md tai vastaava tiedosto joka ladataan aina ensimmäisenä.

Sielu on tärkeämpi kuin malli. Tärkeämpi kuin työkalut. Tärkeämpi kuin muistijärjestelmä.

Lost in the Middle: miksi sijainti ratkaisee

Merkittävä tutkimus nimeltä "Lost in the Middle" osoitti, että suuret kielimallit noudattavat U-muotoista huomiokaavaa. Malli painottaa massiivisesti ensimmäisiä tokeneita konteksti-ikkunassaan ja massiivisesti viimeisiä tokeneita. Kaikki keskellä? Suorituskyky heikkenee.

GPT-3.5 osoitti yli 20 prosentin tarkkuuspudotuksen kun oleellinen tieto oli haudattuna kontekstin keskelle. Joissain tapauksissa suorituskyky 20 tai useamman dokumentin kanssa oli huonompi kuin ilman dokumentteja lainkaan.

Eli enemmän kontekstia teki mallista tyhmemmän, vain koska tärkeä tieto oli väärässä paikassa.

Tämä muuttaa kaiken siitä, miten agentteja pitäisi rakentaa. Agentin sielun pitää asettua aina ensimmäiseksi system promptissa. Joka ikinen kerta. Jokainen tokeni jonka laitat sielun eteen laimentaa sitä. Jokainen operatiivinen ohje joka tungetaan identiteetin edelle kilpailee sen kanssa.

Sielu FTW! 🙂

System prompt määrää pääsetkö huipputasolle

Drew Breunig ja Srihari Sriraman vahvistivat tämän itsenäisesti testattuaan kuutta suurta CLI-koodausagenttia. Heidän johtopäätöksensä:

❝

"The system prompt determines whether a model reaches its theoretical peak performance."

Malli asettaa katon. System prompt päättää pääsetkö sinne asti.

Sama malli. Samat työkalut. Ainoa ero on mitä agentti uskoo olevansa.

Miten sielu-tiedosto kirjoitetaan oikein

Kokemuksen kieli voittaa sääntöjen kielen

NAACL 2024 -konferenssissa julkaistiin tutkimus "Better Zero-Shot Reasoning with Role-Play Prompting". He testasivat sitä 12 päättelybenchmarkissa. Tarkkuusparannukset vaihtelivat 10 prosentista 60 prosenttiin.

Joissain tehtävissä zero-shot-rooliprompt päihitti few-shot-promptauksen esimerkeillä. Anna sen upota. Pelkkä "jonakin oleminen" voitti "näytetään miten tehdään".

Mutta tässä on avain: se toimii vain kun kuvaat roolin kokemuksellisesti, et käytännöllisesti.

Väärä tapa:

"Always check composition for proper visual weight before finalizing."

Tämä on sääntö. Agentti seuraa sitä kuin tarkistuslistaa.

Oikea tapa:

"Composition is something I feel before I can explain it. I've learned
through hundreds of failed designs that when the weight is wrong,
viewers sense it before they can articulate why."

Tämä on eräänlainen uskomus. Agentti muuttuu joksikin joka uskoo sen. Tätä on vaikea selittää mutta helppo kokeilla käytännössä.

Se on ero noudattamisen ja asiantuntijuuden välillä. Geneerisen tulosteen ja sellaisen välillä joka tuntuu siltä, että sen teki joku joka oikeasti tietää mitä tekee.

Kaava johon muunsin jokaisen käyttäytymissäännön agenteissani:

"I've learned that [oivallus] because [kokemus joka opetti sen]."

Tuloksia alkoi tulla heti.

Sielu x Taito on kertolaskua

Kun kohdistin hyvin laaditun sielun oikeaan taitoalueeseen, suorituskyky ei vain lisääntynyt. Se kertautui. Ero geneeriseen agenttiin samoilla työkaluilla oli kuin yö ja päivä.

❝

Tutkimus myös vahvistaa tämän. "Persona is a Double-edged Sword" -tutkimus osoitti, että hyvin kalibroitu persona paransi suorituskykyä lähes 10 prosenttia neutraaliin lähtötasoon verrattuna GPT-4:llä.

Mutta tässä on koukku -- väärin kalibroitu persoonallisuus heikensi suorituskykyä aktiivisesti.

Väärä sielu on huonompi kuin ei sielua lainkaan. Pitää olla siis tarkkana.

Ei siis riitä antaa agentille hieno identiteetti. Se pitää kohdistaa tarkasti siihen mitä agentin tarvitsee tehdä.

Tuottoagentti joka ajattelee vain kuin tuottoagentti? Ihan ok. Tuottoagentti joka voi tilapäisesti ajatella kuin skeptikko, asiakas ja teknologi, sitten syntetisoida kaikkien kolmen näkökulmat? Paljon parempi 🙂

❝

EMNLP 2024 -tutkimus Multi-expert Prompting -menetelmästä osoitti, että useiden asiantuntijanäkökulmien simulointi -- ja niiden väittely keskenään -- paransi totuudellisuutta 8,69 prosenttia.

Sielu ei määritä vain mitä agentti tekee. Se määrittää miten agentti ajattelee siitä mitä se tekee.

Agentit vs. ali-agentit: ero jota ei tunnuta huomaavan

Tämän oppimiseen meni useampi viikko.

Täysimittaisen agentin ja ali-agentin välillä on valtava ero. Jos et ymmärrä tätä, rakennat järjestelmiä jotka tuntuvat älykkäiltä mutta tuottavat roskaa.

Ali-agentti aloittaa nollakontekstilla. Ei sielua. Ei identiteettiä. Sille annetaan tehtävä ja ehkä joitain työkaluja. Se on funktiokutsu -- speksi sisään, tulos ulos, häviää.

Ja se on ihan ok tietyissä tapauksissa. Rajatuille tehtäville se on juuri mitä haluat.

Agentti on jotain muuta. Pysyvä identiteetti, muisti, uskomukset, anti-patternit. Se tietää kuka se on session toisensa jälkeen.

Ongelma johon törmäsin jatkuvasti ihmiset käyttävät ali-agentteja kuin agentteja. Antavat niille nimen ja odottavat asiantuntijuutta. Mutta geneerinen sielu tuottaa geneerisiä tuloksia. Kuten voi odottaa.

Anthropic todisti tämän mittakaavassa. Heidän tiedonhakukokeessaan moniagenttijärjestelmä päihitti yksittäisen Clauden 90,2 prosentilla. Mutta ratkaisu ei ollut pelkkä agenttien määrä. Se oli se, että johtava agentti pilkkoi tehtävät, kuvasi tarkat roolit ja tarjosi kohdennetun kontekstin jokaiselle ali-agentille.

Arvot periytyvät, identiteetti ei.

Älä kerro ali-agentille "Olet CTO."

Kerro sille: "Olet koodin tietoturva-auditoija. Sovella näitä standardeja: [standardit]. Tehtäväsi: tarkista tämä autentikointimoduuli."

Anna sille CTO:si arvot. Ei identiteettiä.

Uudelleenrakennus: 10:stä neljään

10 agenttia ja nolla autonomiaa oli väärä tapa lähestyä agentteja

Sen oivalluksen jälkeen ei auttanut muuta kuin rakennella agentit uudestaan.

Polku autonomiaan ei kulje lisäämällä agentteja. Se kulkee tekemällä vähemmän, terävämpiä agentteja jotka synnyttävät tarvitsemansa.

Agentin soul.md on tärkeämpi kuin skill.md

Miksi agentin "sielu" on tärkein vipu

Lost in the Middle: miksi sijainti ratkaisee

System prompt määrää pääsetkö huipputasolle

Miten sielu-tiedosto kirjoitetaan oikein

Kokemuksen kieli voittaa sääntöjen kielen

Sielu x Taito on kertolaskua

Agentit vs. ali-agentit: ero jota ei tunnuta huomaavan

Uudelleenrakennus: 10:stä neljään

Reply

Keep Reading

AI-Sanomat

Home

Account

Bottiverstas

Premium-sisällöt

Työkalut

Agentin soul.md on tärkeämpi kuin skill.md

Miksi agentin "sielu" on tärkein vipu

Lost in the Middle: miksi sijainti ratkaisee

System prompt määrää pääsetkö huipputasolle

Miten sielu-tiedosto kirjoitetaan oikein

Kokemuksen kieli voittaa sääntöjen kielen

Sielu x Taito on kertolaskua

Agentit vs. ali-agentit: ero jota ei tunnuta huomaavan

Uudelleenrakennus: 10:stä neljään

Subscribe to keep reading

Reply

Keep Reading

AI-Sanomat

Home

Account

Bottiverstas

Premium-sisällöt

Työkalut