Yli 10 OpenClaw-agenttia. Useita yrityksiä. 30 päivää jatkuvia kokeiluja.
Päivittäin kun scrollasin X:n aikajanaa, näin jonkun postaavan jonkin uuden agenttitekniikan ja lähetin sen välittömästi yhdelle agenteistani. "Integroi tämä. Testaa tämä. Kokeile tätä."
Jonkin aikaa se oli kyllä ihan tuottavaa. Mutta jokainen tälläinen kokeilu jätti arpikudosta OpenClaw-kokoonpanooni. Vähän ylijäämäkonfiguraatiota. Korruptoitunutta muistia. Kontekstia joka ei kuulunut sinne sekoittuneena kontekstiin joka kuului.
Näistä 10 agentista puhuin säännöllisesti kolmelle tai neljälle. Loput joko odottivat delegointia ydintiimiltä tai istuivat toimettomina polttaen tokeneita joka heartbeatin sykäyksellä.
Google DeepMind julkaisi tutkimuksen joka osoittaa, että tarkkuus itse asiassa saturoituu tai heikkenee neljän agentin jälkeen. Syynä on "Coordination Tax" -- koordinaatiokustannus. Eräs analyysi kutsui tätä "17x error trap" -ilmiöksi: agenttien naivi lisääminen järjestelmään kertoo virhemäärääsi, ei läpimenoasi.
Enemmän agentteja ei tarkoita enemmän tuloksia. Se tarkoittaa enemmän koordinaatiokuormaa.
Ratkaisun löytyminen vaati kaiken uudelleenrakentamisen yhden ainoan idean ympärille: agentin sielu ratkaisee enemmän kuin sen kyvyt. Tässä tutkimus joka todistaa sen ja viikkojen epäonnistumiset jotka opettivat sen.

Miksi agentin "sielu" on tärkein vipu
Agentin sielu tarkoittaa sen identiteettitiedostoja -- system promptin alkua joka määrittelee kuka agentti on, miten se ajattelee ja mitä se arvostaa. Se on OpenClaw:n maailmassa tyypillisesti CLAUDE.md tai vastaava tiedosto joka ladataan aina ensimmäisenä.
Sielu on tärkeämpi kuin malli. Tärkeämpi kuin työkalut. Tärkeämpi kuin muistijärjestelmä.
Lost in the Middle: miksi sijainti ratkaisee
Merkittävä tutkimus nimeltä "Lost in the Middle" osoitti, että suuret kielimallit noudattavat U-muotoista huomiokaavaa. Malli painottaa massiivisesti ensimmäisiä tokeneita konteksti-ikkunassaan ja massiivisesti viimeisiä tokeneita. Kaikki keskellä? Suorituskyky heikkenee.
GPT-3.5 osoitti yli 20 prosentin tarkkuuspudotuksen kun oleellinen tieto oli haudattuna kontekstin keskelle. Joissain tapauksissa suorituskyky 20 tai useamman dokumentin kanssa oli huonompi kuin ilman dokumentteja lainkaan.
Eli enemmän kontekstia teki mallista tyhmemmän, vain koska tärkeä tieto oli väärässä paikassa.
Tämä muuttaa kaiken siitä, miten agentteja pitäisi rakentaa. Agentin sielun pitää asettua aina ensimmäiseksi system promptissa. Joka ikinen kerta. Jokainen tokeni jonka laitat sielun eteen laimentaa sitä. Jokainen operatiivinen ohje joka tungetaan identiteetin edelle kilpailee sen kanssa.
Sielu FTW! 🙂
System prompt määrää pääsetkö huipputasolle
Drew Breunig ja Srihari Sriraman vahvistivat tämän itsenäisesti testattuaan kuutta suurta CLI-koodausagenttia. Heidän johtopäätöksensä:
"The system prompt determines whether a model reaches its theoretical peak performance."
Malli asettaa katon. System prompt päättää pääsetkö sinne asti.
Sama malli. Samat työkalut. Ainoa ero on mitä agentti uskoo olevansa.
Miten sielu-tiedosto kirjoitetaan oikein
Kokemuksen kieli voittaa sääntöjen kielen
NAACL 2024 -konferenssissa julkaistiin tutkimus "Better Zero-Shot Reasoning with Role-Play Prompting". He testasivat sitä 12 päättelybenchmarkissa. Tarkkuusparannukset vaihtelivat 10 prosentista 60 prosenttiin.
Joissain tehtävissä zero-shot-rooliprompt päihitti few-shot-promptauksen esimerkeillä. Anna sen upota. Pelkkä "jonakin oleminen" voitti "näytetään miten tehdään".
Mutta tässä on avain: se toimii vain kun kuvaat roolin kokemuksellisesti, et käytännöllisesti.
Väärä tapa:
"Always check composition for proper visual weight before finalizing."
Tämä on sääntö. Agentti seuraa sitä kuin tarkistuslistaa.
Oikea tapa:
"Composition is something I feel before I can explain it. I've learned
through hundreds of failed designs that when the weight is wrong,
viewers sense it before they can articulate why."
Tämä on eräänlainen uskomus. Agentti muuttuu joksikin joka uskoo sen. Tätä on vaikea selittää mutta helppo kokeilla käytännössä.
Se on ero noudattamisen ja asiantuntijuuden välillä. Geneerisen tulosteen ja sellaisen välillä joka tuntuu siltä, että sen teki joku joka oikeasti tietää mitä tekee.
Kaava johon muunsin jokaisen käyttäytymissäännön agenteissani:
"I've learned that [oivallus] because [kokemus joka opetti sen]."
Tuloksia alkoi tulla heti.
Sielu x Taito on kertolaskua
Kun kohdistin hyvin laaditun sielun oikeaan taitoalueeseen, suorituskyky ei vain lisääntynyt. Se kertautui. Ero geneeriseen agenttiin samoilla työkaluilla oli kuin yö ja päivä.
Tutkimus myös vahvistaa tämän. "Persona is a Double-edged Sword" -tutkimus osoitti, että hyvin kalibroitu persona paransi suorituskykyä lähes 10 prosenttia neutraaliin lähtötasoon verrattuna GPT-4:llä.
Mutta tässä on koukku -- väärin kalibroitu persoonallisuus heikensi suorituskykyä aktiivisesti.
Väärä sielu on huonompi kuin ei sielua lainkaan. Pitää olla siis tarkkana.
Ei siis riitä antaa agentille hieno identiteetti. Se pitää kohdistaa tarkasti siihen mitä agentin tarvitsee tehdä.
Tuottoagentti joka ajattelee vain kuin tuottoagentti? Ihan ok. Tuottoagentti joka voi tilapäisesti ajatella kuin skeptikko, asiakas ja teknologi, sitten syntetisoida kaikkien kolmen näkökulmat? Paljon parempi 🙂
EMNLP 2024 -tutkimus Multi-expert Prompting -menetelmästä osoitti, että useiden asiantuntijanäkökulmien simulointi -- ja niiden väittely keskenään -- paransi totuudellisuutta 8,69 prosenttia.
Sielu ei määritä vain mitä agentti tekee. Se määrittää miten agentti ajattelee siitä mitä se tekee.

Agentit vs. ali-agentit: ero jota ei tunnuta huomaavan
Tämän oppimiseen meni useampi viikko.
Täysimittaisen agentin ja ali-agentin välillä on valtava ero. Jos et ymmärrä tätä, rakennat järjestelmiä jotka tuntuvat älykkäiltä mutta tuottavat roskaa.
Ali-agentti aloittaa nollakontekstilla. Ei sielua. Ei identiteettiä. Sille annetaan tehtävä ja ehkä joitain työkaluja. Se on funktiokutsu -- speksi sisään, tulos ulos, häviää.
Ja se on ihan ok tietyissä tapauksissa. Rajatuille tehtäville se on juuri mitä haluat.
Agentti on jotain muuta. Pysyvä identiteetti, muisti, uskomukset, anti-patternit. Se tietää kuka se on session toisensa jälkeen.
Ongelma johon törmäsin jatkuvasti ihmiset käyttävät ali-agentteja kuin agentteja. Antavat niille nimen ja odottavat asiantuntijuutta. Mutta geneerinen sielu tuottaa geneerisiä tuloksia. Kuten voi odottaa.
Anthropic todisti tämän mittakaavassa. Heidän tiedonhakukokeessaan moniagenttijärjestelmä päihitti yksittäisen Clauden 90,2 prosentilla. Mutta ratkaisu ei ollut pelkkä agenttien määrä. Se oli se, että johtava agentti pilkkoi tehtävät, kuvasi tarkat roolit ja tarjosi kohdennetun kontekstin jokaiselle ali-agentille.
Arvot periytyvät, identiteetti ei.
Älä kerro ali-agentille "Olet CTO."
Kerro sille: "Olet koodin tietoturva-auditoija. Sovella näitä standardeja: [standardit]. Tehtäväsi: tarkista tämä autentikointimoduuli."
Anna sille CTO:si arvot. Ei identiteettiä.
Uudelleenrakennus: 10:stä neljään
10 agenttia ja nolla autonomiaa oli väärä tapa lähestyä agentteja
Sen oivalluksen jälkeen ei auttanut muuta kuin rakennella agentit uudestaan.
Polku autonomiaan ei kulje lisäämällä agentteja. Se kulkee tekemällä vähemmän, terävämpiä agentteja jotka synnyttävät tarvitsemansa.

Tiivistin kaiken neljään ydinrooliin:
Arkkitehti (CEO-funktio): Strategia, pääoman allokointi, prioriteettien asettaminen. Näkee koko pelilaudan.
Rakentaja (CTO/tuote-funktio): Tuote, insinöörityö, arkkitehtuuri, laatustandardit. Toimittaa tuotteen.
Rahan tekijä: Kasvu, kysynnän generointi, hinnoittelu, kanavat. Tekee rahat.
Operaattori (COO-funktio): Prosessit, työkalupino, sisältöjärjestelmät, talousoperaatiot. Pitää koneen käynnissä.
Neljä agenttia. Neljä sielua niin tarkasti kalibroituna, että ne pystyivät rekonstruoimaan oikean käyttäytymisen missä tahansa uudessa tilanteessa.
Kaikki muu? Yli 36 ennaltamääriteltyä erikoistyyppiä insinöörityöhön, tutkimukseen, tuottoon, operaatioihin ja sisältöön. Ei generoitu ajon aikana vaan ennaltamääritelty. Ydinnelikon dynaamisesti valitsema tarpeen mukaan.
Yksi tiimi kaikkiin liiketoimintoihin. Liiketoimintakohtainen konteksti injektoitiin spawn-aikana. Ei erillisiä agenttitiimejä per yritys.
Anti-patternit ja rajoitteet: vähemmän on taas kerran enemmän
Kieltäytyminen kertoo enemmän kuin tuottaminen
Persona-promptauksen tutkimus on johdonmukaisesti todennut, että se mistä asiantuntija kieltäytyy on usein diagnostisempaa kuin se mitä hän tuottaa.
Aloin budjetoida 30-40 prosenttia jokaisesta sielusta eräänlaisille ns. anti-patterneille -- konkreettisille asioille joita agentti ei koskaan tee, kirjoitettuna vahvoina identiteettiväitteinä.
Väärä tapa:
"I don't micromanage."
Oikea tapa:
"I don't rewrite a delegate's output instead of giving feedback."
Ensimmäinen on piirre. Toinen on käyttäytyminen. Käyttäytymisen voi havaita ja korjata reaaliajassa.
Tuottava heikkous
Jokaisella hyvällä sielulla on yksi nimetty heikkous joka on ydinvahvuuden suora kustannus.
Tuottoagenttini:
"Revenue tunnel vision. I attach a number to everything, including
things that resist quantification. That's the cost. The benefit is
I never let strategy be vague about what it means in dollars."
Paradoksi
Enemmän rajoitteita tuottaa parempaa suorituskykyä. Tavallaan tämä on tuttua myös ihmistieteistä.
Kovat säännöt voittavat epämääräisen ohjeistuksen. "Ei minun alueeni" -osiot toimivat paremmin kuin "yritä delegoida". Konkreettiset anti-patternit estävät geneerisen tulosteen paremmin kuin "ole laadukas".
Joka kerta kun ratkaisin epäselvyyden sielussa, agentti terävöityi. Joka kerta kun sivuutin sellaisen, agentti ajautui harhaan.
Seitsemän oppia
1. Sielu ratkaisee enemmän kuin työkalut. Investoi 90 prosenttia identiteettiin, 10 prosenttia kykyihin. Sielu muokkaa sitä miten jokaista kykyä käytetään.
2. Vähemmän agentteja, paremmat sielut. Suurin osa omista agenteista oli pelkkää kuollutta painoa. Kolme hyvää agenttia toimitti enemmän kuin 10 keskinkertaista ikinä pystyi.
3. Muisti on dokumentaatiota. Sielu on käyttäytymistä. Jos haluat agentin oikeasti tekevän jotain eri tavalla, muuta sielua. Älä muistitiedostoa.
4. Sielu x Taito on kertolaskua. Kohdista sielu oikeaan alueeseen. Väärä kohdistus ei vain alitehoa ja se heikentää tulosta aktiivisesti.
5. Ensimmäiset ja viimeiset tokenit saavat eniten huomiota. Laita sielu aina ensimmäiseksi system promptiin. Älä koskaan laimenna sitä operatiivisella sisällöllä.
6. Rajoitteet mahdollistavat suorituskykyä. Nimeä mistä agentti kieltäytyy. Budjetoi 30-40 prosenttia sielusta anti-patterneille.
7. Ilman palautesilmukkaa agentti jäätyy päivään yksi. Sielu on elävä dokumentti. Rakenna palautemekanismi tai agenttisi eivät koskaan kasva.
Agenttisuunnittelu istuu insinöörityön, psykologian ja organisaatioteorian risteyksessä. Olemme vasta raapaisemassa pintaa. Mutta yksi asia on jo selvää: geneerinen sielu tuottaa geneerisiä tuloksia. Kokemuksellinen sielu tuottaa kokemuksellisia tuloksia.

