De meeste organisaties beginnen met de verkeerde vraag: welk AI-model is het beste?
De juiste vraag is: het beste waarvoor?
Dat klinkt als een semantisch onderscheid. Het is een fundamenteel verschil in aanpak. Wie begint met “welk model is het beste” eindigt met een frontier model dat voor alle taken wordt ingezet — en een rekening die snel oploopt voor werk dat een veel goedkoper en sneller model moeiteloos had kunnen doen. Wie begint met “het beste voor welke taak” bouwt een modelstrategie die schaalt.
Modelkwaliteit is de eerste pijler van AI als versneller. Niet omdat het model alles bepaalt — dat doen de andere twee pijlers ook — maar omdat een slecht passend model de waarde van elke investering daarboven ondergraaft.
Het misverstand over frontier modellen
Er bestaat op dit moment een stilzwijgende aanname in enterprise AI: als je twijfelt, kies het grootste model. GPT-5, Claude Opus, Gemini Ultra. Maximum capability, minimale discussie achteraf. Het voelt veilig.
Maar die aanname is economisch aantoonbaar onjuist — en architecturaal ook.
Frontier modellen zijn ontworpen voor het moeilijkste werk: complexe redenering, creatieve synthese, meerstaps-planning over lange contexten, genuanceerde beslissingen waarbij meerdere perspectieven moeten worden afgewogen. Ze zijn traag, duur per token en variabel in gedrag op eenvoudige, deterministische taken. Die variabiliteit — een frontier model dat een beetje creatief is op een taak die om exacte extractie vraagt — leidt in productiesystemen tot meer retries, hogere kosten en langere ketens.
De realiteit: 80% van de typische enterprise-workloads vereist geen frontier-schaal redenering. Samenvatten, classificeren, extraheren, rerouten, formatteren — dit zijn taken die kleinere, gespecialiseerde modellen met gelijke of betere nauwkeurigheid uitvoeren, tegen een fractie van de kosten en met lagere latency.
Een concreet voorbeeld: een klein model dat specifiek is getraind op klantenservice-classificatie verslaat GPT-5 op het categoriseren van supporttickets — terwijl het honderd keer sneller draait. Niet omdat het slimmer is. Omdat het goed past op die specifieke taak.
Benchmark ≠ businessprestatie
Hier zit een tweede misverstand dat duur uitpakt.
Organisaties kiezen modellen op basis van benchmark scores: MMLU, HumanEval, LMSYS Chatbot Arena. Die benchmarks zijn ontworpen voor wetenschappelijke vergelijking onder gecontroleerde omstandigheden — engineered prompts, geoptimaliseerde context, zorgvuldig gecureerde testvragen. Ze meten wat mogelijk is bij maximale inspanning. Ze meten niet wat betrouwbaar is in productie onder realistische omstandigheden.
In productie werkt het anders. Prompts zijn in natuurlijke taal, zonder handcrafted voorbeelden. Queries zijn ambigu. Latency telt. Foutpercentages tellen. En het model dat op een benchmark uitblinkt, kan zich in productie significant anders gedragen als de promptstructuur afwijkt van het benchmarkformaat.
Wat je wél meet in productie: latency, kosten per request, hallucination rate, tool-call success rate, task completion rate en escalatierate. Dat zijn de metrics die businesswaarde bepalen. Geen van die metrics staat op een leaderboard.
De conclusie is direct: evalueer modellen op jóuw use cases, met jóuw data, onder jóuw productieomstandigheden. Een hoge Chatbot Arena-score is een startpunt voor verkenning, niet een selectiecriterium.
Model routing: de professionele aanpak
Als “één model voor alles” de verkeerde aanpak is, wat dan wel?
De aanpak die in 2026 de standaard is geworden bij organisaties die AI serieus inzetten, heet model routing: het dynamisch toewijzen van elke query of taak aan het model dat daarvoor het meest geschikt is — op basis van complexiteit, vereiste nauwkeurigheid, latency-vereisten en kosten.
Het principe is simpel: niet elk verzoek verdient dezelfde denkzwaarte. Een e-mail samenvatten vraagt om een ander model dan een contractrisico-analyse. Een intent classificeren vraagt om een ander model dan een strategisch voorstel genereren. Door routing in je architectuur in te bouwen, krijg je het beste van alle werelden: snelheid en lage kosten voor eenvoudige taken, capaciteit en diepte voor complexe taken.
Praktisch ziet dat er zo uit: je ontwerpt een beslisboom — of, geavanceerder, een lightweight classifier — die inkomende taken beoordeelt op complexiteit en type, en vervolgens naar het juiste model doorstuurt. Eenvoudige classificatie en extractie gaan naar een snel, goedkoop model. Redeneertaken met meerdere stappen gaan naar een frontier model. Domeinspecifiek werk gaat naar een fijn-getuned model dat getraind is op jóuw data.
Het resultaat: kostenreductie zonder kwaliteitsverlies, lagere latency in de keten, en een systeem dat schaalbaar is zonder dat de kosten proportioneel meestijgen.
De vier dimensies van modelkwaliteit
Kwaliteit is niet één ding. Bij het evalueren van een model voor een specifieke taak zijn vier dimensies relevant:
Nauwkeurigheid op taaktype. Hoe goed presteert het model op de specifieke combinatie van input en output die jouw use case vereist? Redenering, extractie, generatie en classificatie hebben elk hun eigen prestatiekarakteristieken.
Kosten en latency. Niet als bijzaak, maar als architecturale constraint. In agentic systemen waar meerdere LLM-calls elkaar opvolgen, accumuleert latency snel. Twee seconden per stap worden twintig seconden in een keten van tien stappen. Dat is niet acceptabel in productie.
Beheersbaarheid. Kun je het model fine-tunen op jouw domein? Draait het on-premises als dat vereist is voor privacy of compliance? Hoe stabiel is het gedrag over versie-updates heen?
Vendor-onafhankelijkheid. Is de keuze voor dit model omkeerbaar? Kun je wisselen als een beter alternatief beschikbaar komt? Propriëtaire fine-tuning pipelines en gesloten API’s maken switching moeilijker dan nodig.
Wat dit betekent voor jouw organisatie
Modelkwaliteit als strategische keuze begint niet bij een model, maar bij een taakanalyse. Welke AI-taken wil je uitvoeren? Welke vereisen diepe redenering? Welke vereisen snelheid en volume? Welke vereisen domeinspecifieke nauwkeurigheid die fine-tuning rechtvaardigt?
Vervolgens: welk model presteert het beste op elke taakklasse, gemeten onder jóuw productieomstandigheden? Niet op een benchmark. Niet in een demo. In een evaluatie die jouw realiteit weerspiegelt.
En dan: hoe bouw je routing in, zodat elke taak automatisch het juiste model bereikt zonder dat een mens tussenbeide hoeft te komen?
Dit is geen eenmalige beslissing. Het landschap verandert snel — nieuwe modellen, betere prijzen, hogere kwaliteit voor specifieke domeinen. De organisaties die een robuuste modelstrategie bouwen, zijn ook de organisaties die kunnen mee-evolueren zonder hun architectuur te hoeven herbouwen.
Het model is het begin. De harness — de laag die het model koppelt aan je processen — is wat bepaalt of dat begin ook resultaat oplevert.
Wat volgt
In de volgende post: Pijler 2 — Harness Sterkte. De orchestratielaag bepaalt of je AI-agent werk verricht of werk simuleert.