AI Innovatie 7 min

Wat gebeurt er als je ChatGPT iets vraagt? AI-inferentie uitgelegd

Eenvoudige uitleg van AI-inferentie — de fase waarin een AI écht voor je werkt. Wat is het verschil met training, en waarom bepaalt dit stiekem de kosten van alle AI-diensten?

Miniatuur diorama-illustratie bij artikel 'Wat gebeurt er als je ChatGPT iets vraagt? AI-inferentie uitgelegd'

Je hebt vast gehoord dat AI-bedrijven miljarden uitgeven aan het “trainen” van modellen. Minder bekend — en stiekem belangrijker voor waar het geld landt — is het moment waarop je de AI gebruikt. Dat heet inferentie. Elke keer dat je ChatGPT een vraag stelt, je telefoon een tekst vertaalt of je bank een betaling controleert op fraude, draait er ergens een inferentie. En dáár zit de echte kostenpost van AI.

Voor wie is dit artikel?Voor ondernemers, ICT-verantwoordelijken en nieuwsgierige lezers die willen begrijpen waarom AI-diensten zo veel stroom en geld kosten. Ik leg het uit zonder technisch jargon, met dagelijkse voorbeelden. Zoek je eerst een bredere uitleg van wat AI is? Lees dankunstmatige intelligentie — wat is het nu echt?.

Wat is AI-inferentie?

Stel je een kok voor die na jarenlang koken de grootste receptenverzameling in haar hoofd heeft. Die jarenlange ervaring — dat is training. Als jij vervolgens bij haar binnenloopt en iets bestelt, pakt ze een schort, kijkt even naar je voorkeuren, en maakt het gerecht. Dat tweede deel — het daadwerkelijke koken op basis van alles wat ze eerder heeft geleerd — is inferentie.

Elke AI werkt zo. Eerst wordt hij getraind op enorme hoeveelheden voorbeelden (teksten, beelden, code). Dat duurt weken tot maanden en kost miljoenen aan rekenkracht. Daarna is hij “af”. Vanaf dat moment doet hij wat hij moet doen: nieuwe input krijgen, er antwoord op geven, en door naar de volgende.

Training versus inferentie — het verschil

Bij training krijgt een model miljarden voorbeelden voorgeschoteld en past het intern miljoenen knoppen aan totdat hij goed wordt in zijn taak. Dit is intensief, eenmalig (of ten hoogste een paar keer per jaar) en extreem duur. Schattingen voor GPT-4: meer dan 100 miljoen dollar aan rekenkracht.

Bij inferentie is het model af. Nu wordt hij de hele dag door aangeroepen door echte gebruikers: elke prompt in ChatGPT, elke Siri-vraag, elke automatische ondertiteling, elke fraude-check van je bank. Per keer kost dat weinig — een fractie van een cent. Maar miljarden keer per dag wereldwijd, en de rekening loopt op.

Beginner-tip:Training is als medicijnen ontwikkelen in een lab: jarenlang werk, enorm duur, eenmalig. Inferentie is als die medicijnen uitdelen aan iedereen die ze nodig heeft: per pil kost het weinig, maar er gaan enorm veel pillen de deur uit. Voor de kostenbalans telt uiteindelijk die tweede fase veel zwaarder.

Waar draait die inferentie? Drie plekken

Dat “berekenen van het antwoord” moet ergens gebeuren. Grofweg zijn er drie plekken.

1. In de cloud — de krachtcentrale

Bij cloud-inferentie staat het AI-model op een krachtige server in een datacenter (bijvoorbeeld van Amazon, Google of Microsoft). Jouw vraag reist via internet naar die server, wordt daar beantwoord, en het antwoord komt terug.

  • Voordelen: onbeperkte rekenkracht, alle grote AI’s werken zo (ChatGPT, Claude, Gemini). Nieuwe versies van het model rollen centraal uit — je hoeft zelf niks te updaten.
  • Zelf cloud-GPU’s huren? Wil je zelf modellen draaien zonder eigen hardware? Onze vergelijking van GPU-cloudproviders helpt je de goedkoopste optie kiezen per use case.
  • Nadelen: elke vraag vereist internet. Er zit vertraging in (vaak een paar honderd milliseconden, soms meer). En je data gaat de deur uit naar een externe partij.

Voor de meeste dagelijkse toepassingen is dit prima — een halve seconde extra vertraging merk je nauwelijks in een chatgesprek.

2. Op je eigen apparaat (edge) — ter plekke

Bij edge-inferentie draait het AI-model op of dicht bij je apparaat zelf: je telefoon, laptop, auto, beveiligingscamera of slimme thermostaat. Geen server, geen internet nodig (soms).

  • Voordelen: razendsnel (geen netwerk tussenin), werkt offline, en je data blijft op je apparaat.
  • Nadelen: minder rekenkracht beschikbaar dan in de cloud, dus je hebt kleinere en slimmer-uitgeklede AI-modellen nodig.

Edge-inferentie is de reden waarom je iPhone je gezicht herkent zonder internet, waarom je Copilot+ laptop je microfoon-ruis kan filteren tijdens een Teams-call, en waarom moderne camera’s bewegingen kunnen detecteren. Voor meer achtergrond over de chips die dit mogelijk maken: lees ons stuk wat is een NPU en waarom zit het in elke AI-laptop?.

3. Real-time — elk moment telt

Sommige toepassingen moeten reageren in milliseconden, niet seconden. Een zelfrijdende auto die een kind op straat ziet. Een betaalsysteem dat een frauduleuze transactie moet onderscheppen voordat het geld weg is. Een videogame die op je spraak reageert.

Dat vraagt om een bijzonder slanke aanpak. De AI draait vaak op gespecialiseerde chips (GPU’s en NPU’s) — hardware waar ook Nederlandse AI-chipmakers als Axelera AI op inzetten — het model is geoptimaliseerd (“in een kleiner jasje gestoken” om het sneller te maken), en de hele pijplijn is getuned op snelheid. Milliseconden zijn de munt van real-time AI.

Gevorderden:De optimalisatie-technieken hetenbatching(meerdere vragen tegelijk verwerken),caching(eerder berekende resultaten hergebruiken) enquantization(de AI in minder precisie draaien, waardoor hij sneller is maar een fractie minder accuraat). De combinatie kan een model 5-10x sneller maken zonder merkbare kwaliteitsverlies.

Voorbeelden uit je dagelijkse leven

Je komt inferentie de hele dag tegen, vaak zonder het door te hebben:

  • Chat en assistenten: elke vraag aan ChatGPT, Siri, Google Assistant. Pure cloud-inferentie.
  • Automatische vertaling en ondertiteling: YouTube, Netflix, Zoom. Deels cloud, deels edge.
  • Fraude-detectie bij betalen: je bank controleert elke transactie in real-time op afwijkende patronen. Milliseconden-inferentie.
  • Gezichtsherkenning op je telefoon: volledig edge, je gezicht verlaat je iPhone niet.
  • Zelfrijdende auto’s, drones, robots: snelle edge-inferentie op gespecialiseerde chips, want wachten op de cloud is geen optie.

Dit is waarom “AI is overal” geen marketingpraatje is: het wordt overal als inferentie in gebouwd — vaak onzichtbaar.

Voor MKB en ondernemers — wat betekent dit?

  • Moet je iets? Nee. Dit is vooral achtergrondkennis die helpt om de AI-nieuwscyclus beter te begrijpen. Als je leest dat “AI-inferentie goedkoper wordt” of “nieuwe chips versnellen inferentie”, weet je nu waarom dat ertoe doet.
  • Wat merk je er concreet van? De kosten van AI-diensten (ChatGPT Plus, Copilot, etc.) zakken de komende jaren — niet omdat de onderliggende modellen beter worden, maar omdat inferentie goedkoper wordt. Een marketingbureau dat 50 AI-prompts per dag gebruikt, zag zijn kosten afgelopen jaar al halveren. Een webshop die productbeschrijvingen automatisch laat genereren merkt hetzelfde.
  • Wat is je eerste stap? Als je AI nu nog niet structureel gebruikt, is dit een goed moment om te beginnen. De “per-gebruik”-kosten dalen, dus experimenteren wordt steeds goedkoper. Check onze 5 AI-kansen voor MKB in 2026 voor concrete startpunten.

Waarom dit belangrijker is dan training

Ik moet eerlijk zijn: toen ik hier twee jaar geleden in dook, dacht ik ook dat training het grote verhaal was. De miljardeninvesteringen, de nieuwe modellen, de nieuwskoppen — allemaal over training. Maar inmiddels is duidelijk dat inferentie de doorslaggevende factor wordt.

Waarom? Omdat inferentie doorloopt. Training van GPT-5 kostte eenmalig honderden miljoenen. Maar elke dag dat GPT-5 draait voor honderden miljoenen gebruikers, worden er miljarden inferenties gedaan. Elke vraag is een klein beetje stroomverbruik, een klein beetje serverkracht, een klein beetje kosten. Bij elkaar opgeteld: de dominante factor in de AI-economie.

Daarom zie je dat álle grote AI-bedrijven nu hun prijzen agressief verlagen voor de technische koppelingen. Niet omdat ze ineens liefdadigheidsinstellingen zijn geworden — maar omdat hun marges in inferentie zitten en efficiëntie-gevechten worden waar ze zich echt op concurreren. Voor de bredere context: de economie achter deze modellen laat zien hoeveel subsidie er nog steeds onder de oppervlakte loopt.

En op het energie-vlak: elke inferentie kost wat stroom. Dat schaalt. Grote AI-datacenters botsen nu al met de grenzen van het Nederlandse stroomnet. Als jij vandaag 50 keer iets aan ChatGPT vraagt, verbruikt dat ergens een paar wattuur. Niet veel. Maar wereldwijd opgeteld zijn we over een paar jaar bij enkele procenten van de wereldelektriciteitsvraag die naar AI-inferentie gaat.

Bronnen

Veelgestelde vragen

Wat is AI-inferentie in één zin?

AI-inferentie is het moment waarop een getrainde AI een nieuwe vraag of situatie krijgt en daar een antwoord op geeft. Elk gesprek met ChatGPT, elke vertaling, elke gezichtsherkenning: dat is inferentie in actie.

Wat is het verschil tussen AI-training en inferentie?

Training is de leerfase: een AI wordt voorgeschoteld aan miljarden voorbeelden en leert patronen herkennen. Dat kost weken en miljoenen euro's aan rekenkracht. Inferentie is de gebruiksfase: de geleerde AI past dat vervolgens toe op jouw specifieke vraag. Dat duurt milliseconden tot een paar seconden — maar gebeurt miljarden keren per dag, waardoor de totaalkosten uiteindelijk hoger liggen dan die van de training zelf.

Wat is cloud-inferentie versus edge-inferentie?

Cloud-inferentie: de AI draait op krachtige servers ergens in een datacenter. Jij stuurt je vraag via internet heen, het antwoord komt terug. Voordeel: onbeperkte kracht. Nadeel: vertraging door het netwerk, en je data gaat de deur uit. Edge-inferentie: de AI draait op het apparaat zelf — je telefoon, je laptop, je camera. Voordeel: directe reactie, data blijft lokaal. Nadeel: minder rekenkracht beschikbaar dan in de cloud.

Hoe werkt real-time AI-inferentie?

Bij real-time AI — denk aan een zelfrijdende auto of fraude-detectie bij een betaling — moet het antwoord er binnen milliseconden zijn. Dat vraagt gespecialiseerde chips (GPU's of NPU's), geoptimaliseerde AI-modellen (kleinere versies van grote modellen) en slimme trucs zoals meerdere vragen tegelijk afhandelen.

Waarom is inferentie belangrijker dan training voor de AI-markt?

Training doe je één keer (of een paar keer per jaar). Inferentie gebeurt elke seconde, miljarden keren per dag, voor elke gebruiker wereldwijd. De kosten van training zijn hoog maar eindig; de kosten van inferentie blijven doorlopen zolang je de AI gebruikt. Daarom zijn alle grote AI-aanbieders tegenwoordig vooral bezig met inferentie zo goedkoop en snel mogelijk te krijgen — niet met nog grotere trainingsruns.