AI Innovatie23 maart 2026Bijgewerkt 24 april 20267 minBeginner

Wat gebeurt er als je ChatGPT iets vraagt? AI-inferentie uitgelegd

Eenvoudige uitleg van AI-inferentie: de fase waarin AI écht voor je werkt. Verschil met training, en waarom dit de kosten van alle AI-diensten bepaalt.

doorCirsten Kot · Oprichter & hoofdredacteur, Het Laatste AI Nieuws23 maart 2026

Je hebt vast gehoord dat AI-bedrijven miljarden uitgeven aan het “trainen” van modellen. Minder bekend — en stiekem belangrijker voor waar het geld landt — is het moment waarop je de AI gebruikt. Dat heet inferentie. Elke keer dat je ChatGPT een vraag stelt, je telefoon een tekst vertaalt of je bank een betaling controleert op fraude, draait er ergens een inferentie. En dáár zit de echte kostenpost van AI.

Voor wie is dit artikel?Voor ondernemers, ICT-verantwoordelijken en nieuwsgierige lezers die willen begrijpen waarom AI-diensten zo veel stroom en geld kosten. Ik leg het uit zonder technisch jargon, met dagelijkse voorbeelden. Zoek je eerst een bredere uitleg van wat AI is? Lees dankunstmatige intelligentie — wat is het nu echt?.

Wat is AI-inferentie?

Stel je een kok voor die na jarenlang koken de grootste receptenverzameling in haar hoofd heeft. Die jarenlange ervaring — dat is training. Als jij vervolgens bij haar binnenloopt en iets bestelt, pakt ze een schort, kijkt even naar je voorkeuren, en maakt het gerecht. Dat tweede deel — het daadwerkelijke koken op basis van alles wat ze eerder heeft geleerd — is inferentie.

Elke AI werkt zo. Eerst wordt hij getraind op enorme hoeveelheden voorbeelden (teksten, beelden, code). Dat duurt weken tot maanden en kost miljoenen aan rekenkracht — en bij de grootste spelers loopt dat op tot 15 miljard dollar per jaar, zoals Anthropics deal met SpaceX laat zien. Daarna is hij “af”. Vanaf dat moment doet hij wat hij moet doen: nieuwe input krijgen, er antwoord op geven, en door naar de volgende.

Training versus inferentie — het verschil

Bij training krijgt een model miljarden voorbeelden voorgeschoteld en past het intern miljoenen knoppen aan totdat hij goed wordt in zijn taak. Dit is intensief, eenmalig (of ten hoogste een paar keer per jaar) en extreem duur. Schattingen voor GPT-4: meer dan 100 miljoen dollar aan rekenkracht.

Bij inferentie is het model af. Nu wordt hij de hele dag door aangeroepen door echte gebruikers: elke prompt in ChatGPT, elke Siri-vraag, elke automatische ondertiteling, elke fraude-check van je bank. Per keer kost dat weinig — een fractie van een cent. Maar miljarden keer per dag wereldwijd, en de rekening loopt op. Wat dat per model concreet betekent — de prijs per miljoen tokens van het vlaggenschip versus de Nano-variant — zie je in Alles over GPT-5.

Beginner-tip:Training is als medicijnen ontwikkelen in een lab: jarenlang werk, enorm duur, eenmalig. Inferentie is als die medicijnen uitdelen aan iedereen die ze nodig heeft: per pil kost het weinig, maar er gaan enorm veel pillen de deur uit. Voor de kostenbalans telt uiteindelijk die tweede fase veel zwaarder.

Waar draait die inferentie? Drie plekken

Dat “berekenen van het antwoord” moet ergens gebeuren. Grofweg zijn er drie plekken.

1. In de cloud — de krachtcentrale

Bij cloud-inferentie staat het AI-model op een krachtige server in een datacenter (bijvoorbeeld van Amazon, Google of Microsoft). Jouw vraag reist via internet naar die server, wordt daar beantwoord, en het antwoord komt terug.

Voordelen: onbeperkte rekenkracht, alle grote AI’s werken zo (ChatGPT, Claude, Gemini). Nieuwe versies van het model rollen centraal uit — je hoeft zelf niks te updaten.
Zelf cloud-GPU’s huren? Wil je zelf modellen draaien zonder eigen hardware? Onze vergelijking van GPU-cloudproviders helpt je de goedkoopste optie kiezen per use case.
Nadelen: elke vraag vereist internet. Er zit vertraging in (vaak een paar honderd milliseconden, soms meer). En je data gaat de deur uit naar een externe partij — al bestaat daar inmiddels een cryptografische uitweg voor, waarover meer in Homomorfe encryptie: AI rekent op data die versleuteld blijft.

Voor de meeste dagelijkse toepassingen is dit prima — een halve seconde extra vertraging merk je nauwelijks in een chatgesprek.

2. Op je eigen apparaat (edge) — ter plekke

Bij edge-inferentie draait het AI-model op of dicht bij je apparaat zelf: je telefoon, laptop, auto, beveiligingscamera of slimme thermostaat. Geen server, geen internet nodig (soms). Hoe ver dat inmiddels reikt, lees je in ons nieuwsbericht over Bonsai 27B, het eerste 27B-model dat op een telefoon draait.

Voordelen: razendsnel (geen netwerk tussenin), werkt offline, en je data blijft op je apparaat.
Nadelen: minder rekenkracht beschikbaar dan in de cloud, dus je hebt kleinere en slimmer-uitgeklede AI-modellen nodig.

Edge-inferentie is de reden waarom je iPhone je gezicht herkent zonder internet, waarom je Copilot+ laptop je microfoon-ruis kan filteren tijdens een Teams-call, en waarom moderne camera’s bewegingen kunnen detecteren. Een stap verder: met WebGPU en tools als Transformers.js kan edge-inferentie ook plaatsvinden in de browser zelf — zonder installatie, zonder native app — wat AI direct in de browsertab brengt voor taken als spraakherkenning, classificatie en vertaling. Voor meer achtergrond over de chips die dit mogelijk maken: lees ons stuk wat is een NPU en waarom zit het in elke AI-laptop?. Voor wie zelf wil zien wat edge-inferentie betekent op een laptop met 32 GB RAM: onze Wat is Ollama?-uitleg doorloopt wat lokaal vandaag mogelijk is, met en zonder NPU. Wil je verder dan een laptop en zelf een topmodel lokaal draaien, dan laat de hardwaregids van Bitcoin-ontwikkelaar James O’Beirne zien hoe ver je met 2.000 tot 40.000 dollar aan eigen GPU’s kunt komen.

3. Real-time — elk moment telt

Sommige toepassingen moeten reageren in milliseconden, niet seconden. Een zelfrijdende auto die een kind op straat ziet. Een betaalsysteem dat een frauduleuze transactie moet onderscheppen voordat het geld weg is. Een videogame die op je spraak reageert.

Dat vraagt om een bijzonder slanke aanpak. De AI draait vaak op gespecialiseerde chips (GPU’s en NPU’s) — hardware waar ook Nederlandse AI-chipmakers als Axelera AI op inzetten — het model is geoptimaliseerd (“in een kleiner jasje gestoken” om het sneller te maken), en de hele pijplijn is getuned op snelheid. Milliseconden zijn de munt van real-time AI.

Gevorderden:De optimalisatie-technieken hetenbatching(meerdere vragen tegelijk verwerken),caching(eerder berekende resultaten hergebruiken) enquantization(de AI in minder precisie draaien, waardoor hij sneller is maar een fractie minder accuraat). De combinatie kan een model 5-10x sneller maken zonder merkbare kwaliteitsverlies.

Voorbeelden uit je dagelijkse leven

Je komt inferentie de hele dag tegen, vaak zonder het door te hebben:

Chat en assistenten: elke vraag aan ChatGPT, Siri, Google Assistant. Pure cloud-inferentie.
Automatische vertaling en ondertiteling: YouTube, Netflix, Zoom. Deels cloud, deels edge.
Fraude-detectie bij betalen: je bank controleert elke transactie in real-time op afwijkende patronen. Milliseconden-inferentie.
Gezichtsherkenning op je telefoon: volledig edge, je gezicht verlaat je iPhone niet.
Zelfrijdende auto’s, drones, robots: snelle edge-inferentie op gespecialiseerde chips, want wachten op de cloud is geen optie.

Dit is waarom “AI is overal” geen marketingpraatje is: het wordt overal als inferentie in gebouwd — vaak onzichtbaar.

En soms gaat die onzichtbare inferentie mis met gevolgen: toen Googles AI-zoekoverzicht onwaarheden over twee bedrijven opschreef, oordeelde een Duitse rechter dat Google daarvoor aansprakelijk is.

Voor MKB en ondernemers — wat betekent dit?

Moet je iets? Nee. Dit is vooral achtergrondkennis die helpt om de AI-nieuwscyclus beter te begrijpen. Als je leest dat “AI-inferentie goedkoper wordt” of “nieuwe chips versnellen inferentie”, weet je nu waarom dat ertoe doet.
Wat merk je er concreet van? De kosten van AI-diensten (ChatGPT Plus, Copilot, etc.) zakken de komende jaren — niet omdat de onderliggende modellen beter worden, maar omdat inferentie goedkoper wordt. Een marketingbureau dat 50 AI-prompts per dag gebruikt, zag zijn kosten afgelopen jaar al halveren. Een webshop die productbeschrijvingen automatisch laat genereren merkt hetzelfde. Wacht je liever niet op die prijsdaling? Met de zes ingrepen in AI-kosten besparen: zo verbruik je minder tokens breng je je eigen verbruik vandaag al omlaag.
Wat is je eerste stap? Als je AI nu nog niet structureel gebruikt, is dit een goed moment om te beginnen. De “per-gebruik”-kosten dalen, dus experimenteren wordt steeds goedkoper. Check onze 5 AI-kansen voor MKB in 2026 voor concrete startpunten — en kijk hoe DeepSeek’s permanente 75%-prijsverlaging van mei 2026 die kosten-curve in één klap versteilt.

Waarom dit belangrijker is dan training

Ik moet eerlijk zijn: toen ik hier twee jaar geleden in dook, dacht ik ook dat training het grote verhaal was. De miljardeninvesteringen, de nieuwe modellen, de nieuwskoppen — allemaal over training. Maar inmiddels is duidelijk dat inferentie de doorslaggevende factor wordt.

Waarom? Omdat inferentie doorloopt. Training van GPT-5 kostte eenmalig honderden miljoenen. Maar elke dag dat GPT-5 draait voor honderden miljoenen gebruikers, worden er miljarden inferenties gedaan. Elke vraag is een klein beetje stroomverbruik, een klein beetje serverkracht, een klein beetje kosten. Bij elkaar opgeteld: de dominante factor in de AI-economie. Voor de zakelijke afdruk van dit feit zie ChatGPT duurder dan een stagiair? — een Nvidia-VP gaf in april 2026 publiek toe dat zijn team meer aan compute uitgeeft dan aan salarissen.

Daarom zie je dat álle grote AI-bedrijven nu hun prijzen agressief verlagen voor de technische koppelingen. Niet omdat ze ineens liefdadigheidsinstellingen zijn geworden — maar omdat hun marges in inferentie zitten en efficiëntie-gevechten worden waar ze zich echt op concurreren. Voor de bredere context: de economie achter deze modellen laat zien hoeveel subsidie er nog steeds onder de oppervlakte loopt.

En op het energie-vlak: elke inferentie kost wat stroom. Dat schaalt. Grote AI-datacenters botsen nu al met de grenzen van het Nederlandse stroomnet. Als jij vandaag 50 keer iets aan ChatGPT vraagt, verbruikt dat ergens een paar wattuur. Niet veel. Maar wereldwijd opgeteld zijn we over een paar jaar bij enkele procenten van de wereldelektriciteitsvraag die naar AI-inferentie gaat. Een VN-rapport zette die rekening in juni 2026 voor het eerst volledig op papier, in stroom, water én land — lees onze analyse De verborgen kosten van AI. Op de waterkant belooft Nvidia met warm-watervloeistofkoeling een uitweg: datacenters bijna zonder water.

Deel dit artikel

Volg ons in Google

Veelgestelde vragen

Wat is AI-inferentie in één zin?

AI-inferentie is het moment waarop een getrainde AI een nieuwe vraag of situatie krijgt en daar een antwoord op geeft. Elk gesprek met ChatGPT, elke vertaling, elke gezichtsherkenning: dat is inferentie in actie.

Wat is het verschil tussen AI-training en inferentie?

Training is de leerfase: een AI wordt voorgeschoteld aan miljarden voorbeelden en leert patronen herkennen. Dat kost weken en miljoenen euro's aan rekenkracht. Inferentie is de gebruiksfase: de geleerde AI past dat vervolgens toe op jouw specifieke vraag. Dat duurt milliseconden tot een paar seconden — maar gebeurt miljarden keren per dag, waardoor de totaalkosten uiteindelijk hoger liggen dan die van de training zelf.

Wat is cloud-inferentie versus edge-inferentie?

Cloud-inferentie: de AI draait op krachtige servers ergens in een datacenter. Jij stuurt je vraag via internet heen, het antwoord komt terug. Voordeel: onbeperkte kracht. Nadeel: vertraging door het netwerk, en je data gaat de deur uit. Edge-inferentie: de AI draait op het apparaat zelf — je telefoon, je laptop, je camera. Voordeel: directe reactie, data blijft lokaal. Nadeel: minder rekenkracht beschikbaar dan in de cloud.

Hoe werkt real-time AI-inferentie?

Bij real-time AI — denk aan een zelfrijdende auto of fraude-detectie bij een betaling — moet het antwoord er binnen milliseconden zijn. Dat vraagt gespecialiseerde chips (GPU's of NPU's), geoptimaliseerde AI-modellen (kleinere versies van grote modellen) en slimme trucs zoals meerdere vragen tegelijk afhandelen.

Waarom is inferentie belangrijker dan training voor de AI-markt?

Training doe je één keer (of een paar keer per jaar). Inferentie gebeurt elke seconde, miljarden keren per dag, voor elke gebruiker wereldwijd. De kosten van training zijn hoog maar eindig; de kosten van inferentie blijven doorlopen zolang je de AI gebruikt. Daarom zijn alle grote AI-aanbieders tegenwoordig vooral bezig met inferentie zo goedkoop en snel mogelijk te krijgen — niet met nog grotere trainingsruns.

NVIDIA — AI Inference platform overviewnvidia.com
Google Cloud — AI inference best practicescloud.google.com
Hugging Face — Inference endpoints documentatiehuggingface.co
Microsoft — ONNX Runtime documentatieonnxruntime.ai