Claude Code Agent Teams: Bouw je AI-Workforce

Vorige maand gaf ik een enkele AI de opdracht om een week aan social-mediacontent te maken voor een merk. Volledige strategie, platform-specifieke teksten, visuele concepten, hashtagonderzoek, plaatsingssschema — het hele pakket.

Twee uur later had ik iets dat technisch gezien af was, maar in de praktijk onbruikbaar. De teksten klonken alsof ze door een commissie waren geschreven. De strategie sprak de toon tegen. De Instagram-content klonk als LinkedIn, en de LinkedIn-content leek alsof hij voor Twitter in 2018 was geschreven. Elk onderdeel beantwoordde technisch gezien de briefing, maar niets voelde samenhangend aan.

Ik gaf de AI geen schuld. Ik gaf de opdracht de schuld. Eén generalist vragen om tegelijkertijd merkstrateeg, platform-copywriter, visueel directeur en kwaliteitsreviewer te zijn, is als één persoon vragen om een gebouw te ontwerpen, beton te storten, de elektriciteit aan te leggen en zijn eigen werk te inspecteren. De resultaten versterken elkaars zwaktes.

Dat was het probleem waarmee ik zat toen Claude Opus 4.6 Agent Teams in productie bracht — eerder dan iemand had verwacht.

Ik was eerder sceptisch over multi-agentsystemen. De meeste implementaties die ik had gezien, waren uitgebreide demo's die prachtig werkten in gecontroleerde omstandigheden en in stukken vielen bij echte projecten. Dus toen Anthropic dit onderdeel live zette, was mijn eerste reactie om het te testen met iets waar ik eerder echt mee gefaald had.

Wat de volgende vijftien minuten gebeurde, veranderde hoe ik denk over AI-ondersteund werk. Niet omdat het perfect was — dat was het niet. Maar omdat het precies het probleem oploste waar ik tegenaan liep, op een manier die minder voelde als een tool-upgrade en meer als een herontwerp van de workflow.

Wat me het meest verraste was niet de snelheid. Het was het gesprek tussen de agents dat ik kon volgen maar niet had georkestreerd. Meer daarover zo.

Het probleem met één AI voor alles

Single-agent AI is voor gerichte taken werkelijk indrukwekkend. Vraag hem één e-mail te schrijven, één functie te debuggen, één document te analyseren — de kwaliteit is hoog en de snelheid is reëel. De beperking komt aan de oppervlakte zodra een taak meerdere uitgesproken soorten denken vereist die tegelijkertijd op hoog niveau moeten plaatsvinden.

Een onderzoekstaak vereist systematische dekking, scepsis over bronnen en breedte. Een creatieve taak vereist stem, specificiteit en gecontroleerde regelovertreding. Een reviewtaak vereist afstand van het originele werk, oog voor inconsistentie en de bereidheid om te zeggen: "dit is niet goed genoeg." Dit zijn niet alleen verschillende vaardigheden — het zijn bijna tegengestelde cognitieve oriëntaties.

Als je één model vraagt om daartussen te schakelen in één context-window, wordt er iets samengedrukt. Het onderzoek is oké. Het schrijven is oké. De review is in feite het model dat zijn eigen werk nakijkt — de minst betrouwbare vorm van kwaliteitscontrole die bestaat.

Claude Opus 4.6's Agent Teams pakt dit direct aan. In plaats van dat één AI een complexe taak van begin tot eind afhandelt, spint het systeem meerdere gespecialiseerde agents op — elk gericht op wat het het beste doet — en laat een supervisoragent de hele operatie orkestreren.

Het belangrijkste verschil met sub-agents (waarmee ik eerder had geëxperimenteerd): individuele teamagents communiceren met elkaar, niet alleen terug naar een lead. De onderzoeksagent kan halverwege een taak een lacune signaleren aan de strategieagent. De reviewer kan iets terugsturen naar de copywriter met specifieke opmerkingen in plaats van alleen een klacht bij de supervisor te registreren. De workflow is lateraal, niet alleen hiërarchisch.

Dat verandert alles aan de outputkwaliteit voor complexe projecten. Maar voordat ik inga op hoe de output er daadwerkelijk uitzag — er is eerst één technisch detail dat de moeite waard is te begrijpen.

Wat er werkelijk gebeurt als agents met elkaar praten

Het mentale model dat de meeste mensen hebben van multi-agent AI lijkt op een stroomdiagram. Taak komt binnen. Agent 1 doet onderzoek. Geeft door aan Agent 2 voor het schrijven. Agent 3 reviewt. Output geleverd.

Dat zijn sub-agents. Sequentiële overdrachten met één reisrichting.

Wat Claude Opus 4.6 implementeert, lijkt meer op een werkgroep. Agents delen context. Ze kunnen aanvullende informatie bij elkaar opvragen. De supervisor geeft niet alleen taken door — hij monitort de outputs en stuurt het werk om als iets niet goed uitpakt. Als de copywriter iets produceert dat de reviewer als off-brand markeert, kan de briefing teruggestuurd worden voor herziening zonder dat je het hele proces opnieuw moet starten.

Het systeem bepaalt welke agents worden opgestart op basis van de taak zelf. Je configureert geen team handmatig — je beschrijft het project, en de orkestratielogica bepaalt welke expertise er nodig is. Voor het social-contentproject startte het een merkstrateeg, een platform-specifieke copywriter, een visuele conceptagent en een reviewer op — en voegde halverwege een onderzoeker en copy-editor toe toen de reviewagent lacunes identificeerde die aanvullende input vereisten.

Dat laatste deel — het dynamisch opstarten van extra agents op basis van opkomende behoeften tijdens de taak — was het moment waarop ik stopte en naar de terminal keek.

T-Max (de terminalmonitoringstool die aanbevolen wordt naast deze functie) toont de status en communicatie van elke agent in real time. Kijken hoe de reviewer een lacune markeert, hoe de supervisor besluit een onderzoeksagent op te starten in plaats van de taak incompleet terug te sturen, hoe de onderzoeker met aanvullende context terugkomt die de copywriter verwerkt — dit alles speelde zich parallel af, in een live systeem, zonder dat ik ingreep.

Ik heb zelf custom multi-agentpipelines gebouwd met Claude's API. Ik weet hoe de infrastructuur erachter eruitziet. Kijken hoe het soepel werkt op een echt project, automatisch, zonder aangepaste orkestratecode — dát was wat mijn aandacht echt trok.

Het testproject: zeven dagen social-mediacontent voor een persoonlijk merk in de AI- en techruimte, met LinkedIn, Twitter/X en Instagram. Elk platform heeft een andere contentarchitectuur, andere stemregisters, andere contentformaten — precies waarom deze test zinvol was.

De briefing die ik het agentteam gaf was specifiek: merkstem gericht op geloofwaardigheid van de beoefenaar boven hype, doelgroep van ontwikkelaars en founders, mix van educatieve content en persoonlijk inzicht, geen engagement-bait-vragen, platformgeëigende opmaak.

Wat er in ongeveer vijftien minuten terugkwam:

LinkedIn: Vijf posts met volledige tekst. Elke post opende met een specifieke bewering of observatie in plaats van een vraag — precies de merkstem die ik had opgegeven. Twee hadden bijbehorende data-breakdowns opgemaakt als carousels. Eén was gestructureerd als een korte case study met daadwerkelijke voor/na-statistieken in plaats van vage claims. De reviewagent had één van de originele vijf concepten gemarkeerd als "te breed voor de huidige algoritmevoorkeur van LinkedIn voor diepgang" en de copywriter had het herschreven tot iets met meer specificiteit.

Twitter/X: Een mix van thread-openers, single-observation-posts en één reply-bait-thread (die ik toch had ingekort, maar de agent merkte op dat deze was opgenomen als "optie met hoog bereik" — een bruikbaar label voor mij om de redactionele keuze te maken). De visuele conceptagent stelde een datavisualisatie voor bij één thread die precies vijf minuten in Canva zou kosten om te produceren.

Instagram: Carouselconcepten met tekst, Reel-ideeën met scène-voor-scène-breakdowns en beeldspecificaties inclusief aspectratio's en aanbevolen kleurbehandeling. De visuele concepten waren niet generiek — ze waren gekoppeld aan de specifieke contentthema's van de posts.

De finale review van de reviewer signaleerde twee gevallen waarbij teksten over platforms heen bijna identieke formuleringen gebruikten, markeerde één post die een geïmpliceerde merkpositie uit eerder in de week tegensprak, en stelde voor een contentgat toe te voegen voor een onderwerp dat de onderzoeksagent als goed presterend in de doelniche had geïdentificeerd en dat de briefing niet had behandeld.

Totale tijd: ongeveer vijftien minuten runtime, plus misschien twintig minuten voor mijn review en bewerking achteraf.

Het equivalente handmatige proces — strategiesessie, per-platform opstellen, cross-platform coherentiecheck, visuele conceptvorming, review — had mij een geconcentreerde halve dag minimum gekost. Realistisch een volle dag als je rekening houdt met context-switching en het feit dat platform-specifieke teksten goed schrijven daadwerkelijk andere mentale modi vereist.

De kwaliteit was niet perfect en productierijp uit de doos. Maar het was in de eerste doorgang 80% op weg — wat een fundamenteel ander startpunt is dan wat ik van single-agent benaderingen had gekregen.

Instellen: de ene regel die alles verandert

De toegangsvereisten zijn eenvoudig. Je hebt Claude Opus 4.6 nodig via een Pro- of Max-planabonnement. Agent Teams is momenteel gemarkeerd als experimenteel, wat betekent dat het niet standaard is ingeschakeld — je voegt één configuratieregel toe om het te activeren.

Ik raad ook aan T-Max te installeren. Agent Teams uitvoeren zonder terminalmonitoring is als een multi-threaded deployment uitvoeren zonder logs. Technisch gezien werkt het, maar je verliest zicht op wat er werkelijk gebeurt, en als er iets niet goed uitkomt, heb je geen manier om te begrijpen waarom.

Eenmaal ingeschakeld is de workflow eenvoudig:

Beschrijf je project in detail. De kwaliteit van de briefing bepaalt direct de kwaliteit van de output — dit geldt meer voor agentteams dan voor single-agent taken, omdat een vage briefing door elke gespecialiseerde agent anders wordt geïnterpreteerd en die interpretaties van elkaar kunnen afwijken. Wees specifiek over stem, beperkingen, doelen en hoe "gedaan" eruitziet.

Bekijk hoe de supervisor het team opstart. Je ziet welke agenttypen worden geïnstantieerd voor jouw specifieke taak. Voor complexe projecten is deze initiële teamselectie zelf de moeite waard om te bestuderen — de orkestratielogica maakt aannames over wat jouw taak nodig heeft, en het begrijpen van die aannames helpt je in de loop van de tijd betere briefings te schrijven.

Bewaak via T-Max. Je hoeft niet in te grijpen tenzij er duidelijk iets misgaat, maar het volgen van de inter-agent-communicatie in real time onthult context over hoe het systeem jouw briefing heeft geïnterpreteerd en waar het oordelen heeft geveld.

Review de output kritisch. Agentteams verbeteren de kwaliteit aanzienlijk ten opzichte van single-agent benaderingen, maar ze zijn niet onfeilbaar. De reviewagent vangt veel op, maar jouw oordeel is nog steeds het laatste filter.

Eén praktische opmerking: voor een soepelere workflow voorkomt het instellen van preventieve bestandssysteemtoegang (als je project bestaande merkassets of documenten omvat) dat agents halverwege een taak moeten pauzeren om toegang te vragen. Als privacy een punt van zorg is, verleen je toestemming selectief. Als dat niet zo is, houdt open toegang de flow ononderbroken.

Het briefingformaat dat consequent de beste resultaten oplevert, volgt een specifieke structuur. Open met een éénzin-projectdoel dat succes duidelijk definieert. Volg dit met stemrichtlijnen — niet met bijvoeglijke naamwoorden als "professioneel" en "conversationeel" (elke briefing zegt dat), maar met daadwerkelijke voorbeeldzinnen of verwijzingen naar specifieke content die je goed vond. Lijst dan harde beperkingen op: te vermijden onderwerpen, formaten die niet bij het merk passen, platforms met verschillende vereisten. Sluit af met een definitie van hoe "gedaan" eruitziet — wat zou jou ertoe brengen deze output zonder bewerkingen goed te keuren?

Die structuur kost vijf extra minuten om te schrijven en verkort de revisietijd betrouwbaar met de helft. De agents behandelen de briefing als een gedeeld referentiepunt — dus hoe specifieker het gedeelde referentiepunt, hoe coherenter de output van het team.

Als je agentteams inzet voor klantenwerk in plaats van je eigen projecten, wordt de kwaliteit van de briefing nog kritischer. Je moet de impliciete voorkeuren van de klant vertalen naar expliciete beperkingen waarop de agents kunnen handelen. Eén techniek die ik ben gaan gebruiken: vraag de klant om drie voorbeelden van content die ze geweldig vinden en drie die ze haten. Voer die voorbeelden als concrete stemankers toe aan de briefing. De agents gebruiken ze als kalibratiepunten op een manier die "schrijf in een vriendelijke, gezaghebbende toon" gewoon niet kan evenaren.

De kostenrealiteit die niemand vooraf noemt

Agentteams zijn duur. Dit moet duidelijk gezegd worden, omdat de meeste reviews van dit onderdeel direct naar de productiviteitswinst springen zonder de economie te bespreken.

Op het Pro-plan kost een complexe multi-agenttaak ongeveer $7 à $8 per uitvoering. Tegen dat tarief kijk je naar twee of drie complexe runs per dag voordat je een aanzienlijk deel van de waarde van het plan hebt verbruikt. Het Max-plan kost meer van tevoren, maar ondersteunt acht tot tien substantiële taken in een werkdag van vijf uur.

De eerlijke berekening: als agentteams je vier uur besparen op een complex project, en jouw tijd is meer dan $50 per uur waard, dan is de berekening duidelijk in het voordeel van het gebruik ervan. Bij $7-8 per run verdient de tool zichzelf terug in tijdsbesparing bij het eerste of tweede gebruik.

Maar — en dit is een echte maar — niet elke taak rechtvaardigt de kosten. Een snelle e-mailconcept, een enkele functiedebug, een korte contentbewerking: deze hebben geen volledig agentteam nodig. Agentteams uitvoeren voor eenvoudige taken is duur en langzamer dan gewoon een enkel model direct aanspreken. De overhead van orkestratie voegt latentie toe die single-agent taken niet dragen.

De discipline om agentteams selectief te gebruiken — voor complex, meerdelig werk waarbij specialisatie en parallelle verwerking het resultaat daadwerkelijk veranderen — is wat mensen die deze tool echt nuttig vinden onderscheidt van mensen die credits verbranden en zich afvragen waarvoor ze hebben betaald.

Stel API-gebruikswaarschuwingen in voordat je begint met experimenteren. Bouw intuïtie op voor welke taaktypen echt baat hebben bij de teamaanpak versus welke een enkel capabel model prima afhandelt. Die kalibratie duurt een paar sessies om te ontwikkelen, maar bespaart op de lange termijn aanzienlijke kosten.

Een ruwe beslissingsheuristiek waar ik op ben uitgekomen: als een taak drie of meer zinvol verschillende soorten denken vereist — onderzoek, creatieve productie, technische uitvoering, kritische review — is dat een agentteamkandidaat. Als het één soort denken vereist dat goed uitgevoerd wordt, gebruik dan één model. De kosten-waardeverhouding kantelt scherp aan weerszijden van die grens.

Er is ook een projecttype waar agentteams uitblinken dat te weinig besproken wordt: terugkerende complexe workflows. Een wekelijks concurrentieanalyserapport, een maandelijkse contentaudit, een kwartaalupdate voor investeerders — taken die complex genoeg zijn om agentteambehandeling nodig te hebben maar op een schema worden herhaald. Zodra je de briefing en workflow voor één cyclus hebt geconfigureerd, kosten volgende runs hetzelfde maar vereisen ze bijna geen installatietijd. De waarde compenseert anders dan bij eenmalige taken.

De beperkingen waar eerlijk over zijn

Agentteams verwerken orkestratie, parallellisme en inter-agent kwaliteitscontrole beter dan alles wat ik heb getest. Nuance en oordeel verwerken ze niet.

De reviewagent is goed in het opvangen van technische inconsistenties, het markeren van ontbrekende elementen en het identificeren van wanneer teksten op meetbare manieren off-brand zijn. Hij is niet goed in het opvangen van subtiele toonproblemen, content die technisch correct maar strategisch onjuist gericht is, of het soort redactioneel oordeel dat vereist dat je jouw specifieke publiek beter begrijpt dan de briefing beschrijft.

Verwacht echt redactioneel werk te doen aan de outputs van agentteams. Niet omdat de kwaliteit laag is — het is oprecht beter dan single-agent benaderingen voor complexe taken — maar omdat de laatste 20% aan afwerking een menselijk perspectief vereist dat de agents niet volledig kunnen evenaren.

Briefingkwaliteit is dragend. Een gedetailleerde briefing met specifieke stemexempelen, expliciete beperkingen en een duidelijke definitie van de doelgroep produceert outputs die lichte bewerking nodig hebben. Een vage briefing produceert outputs die intensieve revisie nodig hebben. Het garbage-in-garbage-out-principe verdwijnt niet met meer agents — het wordt versterkt, omdat elke agent dubbelzinnigheid iets anders interpreteert en die interpretaties binnen het team uiteenlopen.

Het dynamisch opstarten van agents — agents die halverwege een taak om extra agents vragen op basis van ontdekte lacunes — is indrukwekkend en oprecht nuttig. Het betekent ook dat de taakkosten je initiële schatting kunnen overschrijden als de supervisor bepaalt dat het project meer middelen nodig heeft dan oorspronkelijk in de scope was opgenomen. Bewaak je gebruik, vooral bij eerste runs met nieuwe projecttypen.

Wat er na twee weken hiermee echt veranderde

Concrete resultaten van het uitvoeren van agentteams voor een mix van content- en onderzoeksprojecten over twee weken:

Gemiddelde tijdsbesparing op complexe contentprojecten: ongeveer 70% reductie in actieve werktijd. Niet de totale tijd — ik review en bewerk de outputs nog steeds — maar de mentale en creatieve belasting van het genereren van het ruwe materiaal daalde aanzienlijk.

Kwaliteitsplafond: eerste-doorgang-outputs van agentteams lagen consequent boven het middelpuntkwaliteitsniveau dat ik had gekregen van zorgvuldig gepromptede single-agent runs. De reviewagent was specifiek verantwoordelijk voor een betekenisvol aandeel hiervan — het opvangen van cross-sectionele inconsistenties die ik uiteindelijk ook zou hebben opgepakt, maar bij een eerste lezing zou hebben gemist.

Contextbehoud over complexe projecten: agentteams bewaren context over de volledige omvang van een project beter dan een enkel model met een uitgebreide conversatie. De orkestratie van de supervisor behoudt van nature een overzicht van het hele project dat de drift en tegenstrijdigheid voorkomt die zich ophopen over lange single-model sessies.

Wat niet verbeterde: taken waarbij ik een echte creatieve stem nodig had die overeenkwam met mijn eigen schrijfstijl. Agentteams produceren goed schrijfwerk — schoon, gestructureerd, competent. Ze produceren nog geen schrijfwerk dat klinkt als de stem van een specifieke persoon. Voor content die duidelijk als ik moet lezen, schrijf ik nog steeds het eerste concept en gebruik ik single-agent assistentie voor bewerking en onderzoeksondersteuning.

Waar dit ons werkelijk naartoe brengt

Het frame waarop ik steeds terugkom, is dat agentteams een proof of concept zijn voor iets veel groters.

Een enkel Claude Opus 4.6-agentteam dat een social-contentproject afhandelt, is nuttig en bespaart me uren. Schaal dat model op — meer specialisatie, diepere integratie met externe tools, langerdurende autonome workflows, de mogelijkheid om teams op te starten voor afzonderlijke fasen van grote projecten en daartussen over te dragen — en je beschrijft iets dat meer lijkt op een beheerde AI-organisatie dan op een productiviteitstool.

Ik denk niet dat dat overdreven is. De infrastructuur is al functioneel. Automatische orkestratie werkt. Inter-agent communicatie werkt. Dynamische resourcetoewijzing op basis van taakbehoeften werkt. Wat ontbreekt, is de breedte van integratie en de vertrouwensarchitectuur die je in staat stelt deze workflows met minder toezicht uit te voeren.

Beide zijn engineeringproblemen, geen conceptuele. Ze worden opgelost.

De founders en bouwers die nu experimenteren met agentteams — begrijpen hoe ze te briefen, waar ze stuk lopen, hoe je projecten structureert voor multi-agent workflows, hoe je kalibreert wanneer teams de kosten waard zijn — bouwen intuïties op die direct toepasbaar zullen zijn naarmate de mogelijkheden uitbreiden. Dat is een echt concurrentievoordeel, geen hypothetisch.

Haal het laatste complexe project tevoorschijn dat je handmatig hebt gedaan. Breng de onderscheiden soorten denken in kaart die het vereiste. Tel de context-switches die je maakte tussen onderzoeksmodus, schrijfmodus en reviewmodus. Dat project is een agentteamkandidaat. De vraag is of je nu wilt uitzoeken hoe je het op die manier uitvoert, terwijl de leercurve laag is, of wachten tot iedereen anders die spier al heeft ontwikkeld.

Het social-contentpakket dat me een geconcentreerde halve dag kostte? Vijftien minuten. De andere vier uur en vijfenveertig minuten besteedde ik aan werk dat alleen ik kan doen.

Die ruil lijkt de moeite waard om serieus te nemen.

🤝 Laten we samenwerken

Wil je AI-systemen bouwen, workflows automatiseren of je techinfrastructuur opschalen? Ik help je graag.

🔗 Fiverr (custom builds & integraties): fiverr.com/s/EgxYmWD
🌐 Portfolio: mejba.me
🏢 Ramlit Limited (enterprise-oplossingen): ramlit.com
🎨 ColorPark (design & branding): colorpark.io
🛡 xCyberSecurity (beveiligingsdiensten): xcybersecurity.io

Claude Code Agent Teams: Bouw je AI-Workforce