Je hebt vast gehoord dat AI-bedrijven miljarden uitgeven aan het “trainen” van modellen. Minder bekend — en stiekem belangrijker voor waar het geld landt — is het moment waarop je de AI gebruikt. Dat heet inferentie. Elke keer dat je ChatGPT een vraag stelt, je telefoon een tekst vertaalt of je bank een betaling controleert op fraude, draait er ergens een inferentie. En dáár zit de echte kostenpost van AI.
Voor wie is dit artikel?Voor ondernemers, ICT-verantwoordelijken en nieuwsgierige lezers die willen begrijpen waarom AI-diensten zo veel stroom en geld kosten. Ik leg het uit zonder technisch jargon, met dagelijkse voorbeelden. Zoek je eerst een bredere uitleg van wat AI is? Lees dankunstmatige intelligentie — wat is het nu echt?.
Wat is AI-inferentie?
Stel je een kok voor die na jarenlang koken de grootste receptenverzameling in haar hoofd heeft. Die jarenlange ervaring — dat is training. Als jij vervolgens bij haar binnenloopt en iets bestelt, pakt ze een schort, kijkt even naar je voorkeuren, en maakt het gerecht. Dat tweede deel — het daadwerkelijke koken op basis van alles wat ze eerder heeft geleerd — is inferentie.
Elke AI werkt zo. Eerst wordt hij getraind op enorme hoeveelheden voorbeelden (teksten, beelden, code). Dat duurt weken tot maanden en kost miljoenen aan rekenkracht. Daarna is hij “af”. Vanaf dat moment doet hij wat hij moet doen: nieuwe input krijgen, er antwoord op geven, en door naar de volgende.
Training versus inferentie — het verschil
Bij training krijgt een model miljarden voorbeelden voorgeschoteld en past het intern miljoenen knoppen aan totdat hij goed wordt in zijn taak. Dit is intensief, eenmalig (of ten hoogste een paar keer per jaar) en extreem duur. Schattingen voor GPT-4: meer dan 100 miljoen dollar aan rekenkracht.
Bij inferentie is het model af. Nu wordt hij de hele dag door aangeroepen door echte gebruikers: elke prompt in ChatGPT, elke Siri-vraag, elke automatische ondertiteling, elke fraude-check van je bank. Per keer kost dat weinig — een fractie van een cent. Maar miljarden keer per dag wereldwijd, en de rekening loopt op.
Beginner-tip:Training is als medicijnen ontwikkelen in een lab: jarenlang werk, enorm duur, eenmalig. Inferentie is als die medicijnen uitdelen aan iedereen die ze nodig heeft: per pil kost het weinig, maar er gaan enorm veel pillen de deur uit. Voor de kostenbalans telt uiteindelijk die tweede fase veel zwaarder.
Waar draait die inferentie? Drie plekken
Dat “berekenen van het antwoord” moet ergens gebeuren. Grofweg zijn er drie plekken.
1. In de cloud — de krachtcentrale
Bij cloud-inferentie staat het AI-model op een krachtige server in een datacenter (bijvoorbeeld van Amazon, Google of Microsoft). Jouw vraag reist via internet naar die server, wordt daar beantwoord, en het antwoord komt terug.
- Voordelen: onbeperkte rekenkracht, alle grote AI’s werken zo (ChatGPT, Claude, Gemini). Nieuwe versies van het model rollen centraal uit — je hoeft zelf niks te updaten.
- Zelf cloud-GPU’s huren? Wil je zelf modellen draaien zonder eigen hardware? Onze vergelijking van GPU-cloudproviders helpt je de goedkoopste optie kiezen per use case.
- Nadelen: elke vraag vereist internet. Er zit vertraging in (vaak een paar honderd milliseconden, soms meer). En je data gaat de deur uit naar een externe partij.
Voor de meeste dagelijkse toepassingen is dit prima — een halve seconde extra vertraging merk je nauwelijks in een chatgesprek.
2. Op je eigen apparaat (edge) — ter plekke
Bij edge-inferentie draait het AI-model op of dicht bij je apparaat zelf: je telefoon, laptop, auto, beveiligingscamera of slimme thermostaat. Geen server, geen internet nodig (soms).
- Voordelen: razendsnel (geen netwerk tussenin), werkt offline, en je data blijft op je apparaat.
- Nadelen: minder rekenkracht beschikbaar dan in de cloud, dus je hebt kleinere en slimmer-uitgeklede AI-modellen nodig.
Edge-inferentie is de reden waarom je iPhone je gezicht herkent zonder internet, waarom je Copilot+ laptop je microfoon-ruis kan filteren tijdens een Teams-call, en waarom moderne camera’s bewegingen kunnen detecteren. Voor meer achtergrond over de chips die dit mogelijk maken: lees ons stuk wat is een NPU en waarom zit het in elke AI-laptop?.
3. Real-time — elk moment telt
Sommige toepassingen moeten reageren in milliseconden, niet seconden. Een zelfrijdende auto die een kind op straat ziet. Een betaalsysteem dat een frauduleuze transactie moet onderscheppen voordat het geld weg is. Een videogame die op je spraak reageert.
Dat vraagt om een bijzonder slanke aanpak. De AI draait vaak op gespecialiseerde chips (GPU’s en NPU’s) — hardware waar ook Nederlandse AI-chipmakers als Axelera AI op inzetten — het model is geoptimaliseerd (“in een kleiner jasje gestoken” om het sneller te maken), en de hele pijplijn is getuned op snelheid. Milliseconden zijn de munt van real-time AI.
Gevorderden:De optimalisatie-technieken hetenbatching(meerdere vragen tegelijk verwerken),caching(eerder berekende resultaten hergebruiken) enquantization(de AI in minder precisie draaien, waardoor hij sneller is maar een fractie minder accuraat). De combinatie kan een model 5-10x sneller maken zonder merkbare kwaliteitsverlies.
Voorbeelden uit je dagelijkse leven
Je komt inferentie de hele dag tegen, vaak zonder het door te hebben:
- Chat en assistenten: elke vraag aan ChatGPT, Siri, Google Assistant. Pure cloud-inferentie.
- Automatische vertaling en ondertiteling: YouTube, Netflix, Zoom. Deels cloud, deels edge.
- Fraude-detectie bij betalen: je bank controleert elke transactie in real-time op afwijkende patronen. Milliseconden-inferentie.
- Gezichtsherkenning op je telefoon: volledig edge, je gezicht verlaat je iPhone niet.
- Zelfrijdende auto’s, drones, robots: snelle edge-inferentie op gespecialiseerde chips, want wachten op de cloud is geen optie.
Dit is waarom “AI is overal” geen marketingpraatje is: het wordt overal als inferentie in gebouwd — vaak onzichtbaar.
Voor MKB en ondernemers — wat betekent dit?
- Moet je iets? Nee. Dit is vooral achtergrondkennis die helpt om de AI-nieuwscyclus beter te begrijpen. Als je leest dat “AI-inferentie goedkoper wordt” of “nieuwe chips versnellen inferentie”, weet je nu waarom dat ertoe doet.
- Wat merk je er concreet van? De kosten van AI-diensten (ChatGPT Plus, Copilot, etc.) zakken de komende jaren — niet omdat de onderliggende modellen beter worden, maar omdat inferentie goedkoper wordt. Een marketingbureau dat 50 AI-prompts per dag gebruikt, zag zijn kosten afgelopen jaar al halveren. Een webshop die productbeschrijvingen automatisch laat genereren merkt hetzelfde.
- Wat is je eerste stap? Als je AI nu nog niet structureel gebruikt, is dit een goed moment om te beginnen. De “per-gebruik”-kosten dalen, dus experimenteren wordt steeds goedkoper. Check onze 5 AI-kansen voor MKB in 2026 voor concrete startpunten.
Waarom dit belangrijker is dan training
Ik moet eerlijk zijn: toen ik hier twee jaar geleden in dook, dacht ik ook dat training het grote verhaal was. De miljardeninvesteringen, de nieuwe modellen, de nieuwskoppen — allemaal over training. Maar inmiddels is duidelijk dat inferentie de doorslaggevende factor wordt.
Waarom? Omdat inferentie doorloopt. Training van GPT-5 kostte eenmalig honderden miljoenen. Maar elke dag dat GPT-5 draait voor honderden miljoenen gebruikers, worden er miljarden inferenties gedaan. Elke vraag is een klein beetje stroomverbruik, een klein beetje serverkracht, een klein beetje kosten. Bij elkaar opgeteld: de dominante factor in de AI-economie.
Daarom zie je dat álle grote AI-bedrijven nu hun prijzen agressief verlagen voor de technische koppelingen. Niet omdat ze ineens liefdadigheidsinstellingen zijn geworden — maar omdat hun marges in inferentie zitten en efficiëntie-gevechten worden waar ze zich echt op concurreren. Voor de bredere context: de economie achter deze modellen laat zien hoeveel subsidie er nog steeds onder de oppervlakte loopt.
En op het energie-vlak: elke inferentie kost wat stroom. Dat schaalt. Grote AI-datacenters botsen nu al met de grenzen van het Nederlandse stroomnet. Als jij vandaag 50 keer iets aan ChatGPT vraagt, verbruikt dat ergens een paar wattuur. Niet veel. Maar wereldwijd opgeteld zijn we over een paar jaar bij enkele procenten van de wereldelektriciteitsvraag die naar AI-inferentie gaat.
Bronnen
- NVIDIA — AI Inference platform overview — technische achtergrond
- Google Cloud — AI inference best practices
- Hugging Face — Inference endpoints documentatie
- Microsoft — ONNX Runtime documentatie — optimalisatie-technieken