2025-04-18 Pijler II · Architectuur boven tool 7 min leestijd

Pijler 2: Harness Sterkte — De orchestratielaag bepaalt of je AI-agent werk verricht of werk simuleert

Iedereen heeft een demo. Bijna niemand heeft een deployment. De kloof tussen indrukwekkende AI en productiewaardige AI is geen kwestie van betere prompts — het is een kwestie van architectuur.

Iedereen heeft een demo. Bijna niemand heeft een deployment.

Dat is de meest eerlijke samenvatting van de staat van agentic AI in 2026. De kloof tussen een AI-agent die indruk maakt in een screenrecording en een AI-agent die productieverkeer overleeft, is geen kwestie van betere prompts. Het is een kwestie van architectuur.

Die architectuur heet de harness.

Wat een harness is — en wat het niet is

De term “harness” wordt op dit moment op twee manieren gebruikt, en de verwarring is duur. In de platformwereld wordt harness soms gebruikt als merknaam. In architectuurterminologie — en in deze serie — betekent het iets fundamentelers: de gestructureerde laag die een taalmodel koppelt aan tools, data, processen en beslissingslogica.

Een harness is niet het model. Het model redeneert. De harness beslist wat er met die redenering gebeurt.

Een harness is ook niet het framework. LangChain, AutoGen, CrewAI, LlamaIndex — dit zijn componenten die je inzet binnen een harness-architectuur. Ze bieden bouwstenen: orchestratie van meerdere agents, geheugenkoppelingen, tool-use abstracties. Maar de harness zelf is de bovenliggende laag die bepaalt hoe die bouwstenen samenwerken — en wat er gebeurt als het misgaat.

De harness is de control plane van je AI-systeem. Zonder sterke harness heb je een geïsoleerde tekstgenerator. Met een sterke harness heb je een agent die autonoom werk verricht, fouten opvangt, escaleert waar nodig, en verantwoord handelt binnen de grenzen die jij stelt.

Waarom de harness bepalend is voor productiewaarde

In een demo werkt alles. De input is schoon, de taak is duidelijk, de tools reageren correct, en er is geen tijdsdruk. In productie is dat allemaal anders.

In productie:

zijn inputs ambigu, onvolledig of kwaadaardig geformuleerd
reageren tools soms traag, fout of helemaal niet
hebben beslissingen consequenties: een e-mail die daadwerkelijk wordt verstuurd, een record dat wordt gewijzigd, een proces dat in gang wordt gezet
moet elk model-besluit traceerbaar zijn voor audit, compliance of escalatie

Een model dat in productie zonder harness wordt ingezet, is een agent zonder vangnet. En agents maken fouten — niet zelden met volledig zelfvertrouwen. De gevaarlijkste mislukking in een agentic systeem is niet een crash. Het is een zelfverzekerd fout antwoord dat als correct wordt doorgegeven aan het volgende systeem.

Gartner verwacht dat 40% van de enterprise-applicaties vóór eind 2026 taakspecifieke AI-agents zal hebben geïntegreerd. De organisaties die dat zonder robuuste harness-architectuur doen, bouwen een tijdbom. Niet in de vorm van AI-rampen, maar in de vorm van stille fouten die vertrouwen ondermijnen en hogere herstelkosten creëren dan ze proberen te besparen.

De vijf lagen van een sterke harness

Een productie-grade harness heeft vijf herkenbare lagen, elk met een specifieke functie.

1. Input guardrails. Voordat het model een verzoek ziet, wordt het gecheckt. Malformed inputs worden afgewezen. Out-of-scope verzoeken worden gracieus geweigerd. PII die niet nodig is voor de taak, wordt verwijderd voordat het de modellaag bereikt. Directe en indirecte prompt injection — waarbij kwaadaardige instructies via documenten of externe bronnen worden ingevoerd — wordt geblokkeerd.

2. Tool allowlisting en parametervalidatie. Een agent in productie mag alleen tools aanroepen die expliciet zijn geregistreerd. Geen dynamische tool discovery. Elke tool-call wordt gevalideerd tegen het schema van de tool. Een model dat een parameternaam hallucineert, krijgt een gestructureerde foutmelding — geen runtime crash. Rate limiting op tool-calls voorkomt dat een agent in een retry-loop tienduizenden requests genereert.

3. Human-in-the-loop gates. Niet elke beslissing mag autonoom worden uitgevoerd. Voor hoog-risico acties — data verwijderen, transacties initiëren, externe communicatie sturen — vereist een robuuste harness expliciete menselijke goedkeuring vóór executie. De progressieve vertrouwenslogica is hier leidend: begin met strakke grenzen en verruim die naarmate je vertrouwen in het systeem is opgebouwd op basis van gemeten gedrag.

4. Output validatie. Na het redeneren, vóór het handelen. Output guardrails checken of de output van het model consistent is met verwachte formats, business rules en inhoudsgrenzen. Een tweede validator — dat kan een lichtgewicht model, een rule-based checker, of een menselijke reviewer zijn — beoordeelt high-stakes output voordat het wordt doorgevoerd.

5. Observability en audit trail. Een complete harness logt elke tool-call, elke model-beslissing, elke escalatie — met tijdstempel, taak-ID en gebruikerscontext. Je kunt elke taak precies reconstrueren. Dashboards tonen tool-call rates, foutpercentages, escalatierates, kosten per taak en latency-distributies. Alerts triggeren bij anomalieën.

Frameworks zijn bouwstenen, geen architectuur

Een veelgemaakte fout: een framework adopteren als vervanging voor een harness-architectuur.

LangChain is het meest volwassen framework voor productie-grade agent orchestratie — modulair, breed ecosysteem, API-first design met bewezen schaalbaarheid. AutoGen excelleert in multi-agent samenwerking waarbij agents onderling coördineren op complexe taken. CrewAI is snel inzetbaar voor prototyping maar vertoont in gecontroleerde tests meer breuken in productieomstandigheden.

Maar geen van deze frameworks is een harness. Ze zijn componenten. De beslissing welk framework je gebruikt voor welk deel van de orchestratie, is een technische keuze. De beslissing hoe input guardrails, output validatie, human-in-the-loop gates en audit trails worden gebouwd en beheerd, is de harness-architectuurkeuze — en die is van een hogere orde.

Deloitte voorspelt dat 2026 het jaar wordt waarop de meest geavanceerde organisaties verschuiven van human-in-the-loop naar human-on-the-loop orchestratie: mensen monitoren het systeem via dashboards en telemetrie in plaats van elke stap goed te keuren. Die verschuiving is alleen verantwoord als de harness het vertrouwen heeft verdiend door meetbaar gedrag — niet door aanname.

Harness sterkte als concurrentievoordeel

Een sterke harness is niet alleen risicobeheersing. Het is ook het fundament van schaalbaarheid.

Organisaties die nu investeren in een robuuste harness-architectuur, bouwen een systeem dat nieuwe modellen kan adopteren zonder hun veiligheidsgaranties te herontwerpen. Ze kunnen nieuwe tools integreren zonder hun audit-logica te herschrijven. Ze kunnen het vertrouwen in autonomie progressief opbouwen op basis van gemeten data — en daarmee de grenzen van wat autonoom mag worden uitgevoerd op verantwoorde wijze verruimen.

Zonder harness is elke nieuwe capability een nieuw risico. Met een sterke harness is elke nieuwe capability een uitbreiding van een bewezen fundament.

Het model denkt. De harness maakt dat denken betrouwbaar in productie.

De derde pijler — persistent memory — maakt het cumulatief.

Wat volgt

In de volgende post: Pijler 3 — Persistent Memory. AI zonder geheugen is een collega die elke ochtend vergeten is wat er gisteren is besloten.

Read in English →