Een AI-model draaien op je eigen Mac: complete gids met Ollama — Het Laatste AI Nieuws

Q: Kan ik een lokale LLM draaien op een Mac met 8 GB RAM?

Ja, met 8 GB RAM kun je modellen tot ~7B parameters draaien, zoals Llama 3 8B en Mistral 7B. De prestaties zijn goed voor algemeen gebruik, maar voor betere kwaliteit is 16 GB of meer aanbevolen.

Q: Is Ollama gratis?

Ja, Ollama is volledig gratis en open-source. Je betaalt geen abonnements- of API-kosten. De enige kosten zijn je eigen hardware en stroom.

Q: Welk lokaal AI-model is het beste in 2026?

Voor de beste balans tussen kwaliteit en snelheid: Llama 3.3 8B voor 8 GB RAM, Phi-4 14B voor 16 GB RAM, en Qwen 2.5 32B (Q4) voor 32 GB RAM. Voor code-taken is CodeLlama 13B een sterke keuze.

Waarom een lokale LLM?

Niet al je data hoeft naar de cloud. Met een lokale LLM (Large Language Model — het type AI achter ChatGPT) draai je AI volledig op je eigen hardware: geen API-kosten, geen dataverzending naar derden, en onbeperkt gebruik. Op Apple Silicon Macs (M1 tot en met M5) werkt dit verrassend goed dankzij de Unified Memory Architecture en de ingebouwde Neural Engine — Apples variant van de NPU die standaard in moderne laptops zit (wat een NPU is en waarom hij in elke AI-laptop zit) (Bron: JohnWLittle.com — Ollama on Mac Silicon).

Ik draai zelf sinds een paar maanden Llama 3.3 op een MacBook met 16 GB geheugen. Prima voor brainstorms, snelle reformuleringen en alles wat ik niet direct naar een Amerikaanse cloud wil sturen. Voor zware schrijfopdrachten grijp ik nog naar ChatGPT of Claude — maar voor alledaags werk blijft de lokale variant verrassend vaak genoeg.

📖 Voor wie is dit artikel? Voor Mac-gebruikers die zelf AI-modellen willen draaien op hun eigen laptop — handig als privacy belangrijk is, als je vaak gebruikt, of gewoon uit nieuwsgierigheid. Je hoeft geen ontwikkelaar te zijn, maar je moet je niet door een regel Terminal-commando’s laten afschrikken. Werk je nog helemaal niet met AI? Start dan eerst met ChatGPT voor beginners — lokaal draaien is de volgende stap, niet de eerste.

💡 Beginner-tip: Een “lokale LLM” is een AI-model dat op jouw eigen computer draait, in plaats van op servers van OpenAI of Google. Voordelen: je data verlaat je Mac niet, je hebt geen internetverbinding nodig, en er zijn geen maandelijkse kosten.

Wat heb je nodig?

Vereiste	Minimum	Aanbevolen
macOS	macOS 14 Sonoma	macOS 15 Sequoia
Chip	M1 (elke variant)	M3 Pro / M4 Pro of hoger
RAM	8 GB	16–32 GB
Schijfruimte	10 GB vrij	50+ GB voor meerdere modellen

(Bron: Ollama macOS Docs / GPTforWork Setup Guide)

Wil je eerst een vergelijking tussen de modellen zelf? Onze deep dive waarin Llama, Mistral en DeepSeek vergeleken worden gaat dieper in op kwaliteit, licentie en benchmarks — handig voordat je er eentje lokaal gaat draaien.

Vuistregel voor RAM vs. modelgrootte:

8 GB RAM: Modellen tot ~7B parameters (bijv. Llama 3 8B, Mistral 7B)
16 GB RAM: Modellen tot ~13B parameters comfortabel
32 GB RAM: Modellen tot ~34B parameters met 4-bit quantisatie
64+ GB RAM: 70B+ modellen, meerdere modellen tegelijk

⚡ Gevorderden: Apple Silicon’s Unified Memory Architecture deelt geheugen tussen CPU en GPU, waardoor er geen data-overhead is bij GPU-acceleratie. De M4 Pro met 24 GB RAM is in 2026 de sweet spot voor lokale LLM-experimenten — je kunt modellen tot 30B parameters effectief draaien (Bron: Dmitry Markov M4 Pro Benchmark).

Stap 1: Ollama installeren

Je hebt twee opties (Bron: Ollama Download):

Optie A: DMG Installer (aanbevolen voor beginners)

Ga naar ollama.com/download/mac
Download de .dmg
Sleep de Ollama app naar je Programma’s map
Start Ollama — het draait als achtergrondproces in je menubalk

Optie B: Terminal / Homebrew

# Via het installatiescript:
curl -fsSL https://ollama.com/install.sh | sh

# Of via Homebrew:
brew install ollama

# Controleer de installatie:
ollama --version

Na installatie draait Ollama automatisch als server op de achtergrond en start het bij elke reboot (Bron: Markus Schall — Local AI on Mac).

Stap 2: Je eerste model downloaden en draaien

Het commando ollama run downloadt een model automatisch als het nog niet lokaal staat:

# Download en start Llama 3 (8B) — het beste beginmodel
ollama run llama3

# Het model wordt gedownload (~4.7 GB) en start een chatinterface

Dat is het! Je praat nu met een lokale AI.

💡 Beginner-tip: Bij het eerste gebruik downloadt Ollama het model — dit kan enkele minuten duren afhankelijk van je internetsnelheid. Daarna start het model direct uit lokale opslag.

Stap 3: De beste modellen kiezen

De beste open-source modellen voor lokaal gebruik in 2026 (Bron: LocalAiMaster Free Models Guide / Dev.to Ollama Guide):

Model	Grootte	RAM nodig	Snelheid*	Beste voor	Commando
Llama 3.3 8B	4,7 GB	8 GB	~18 tok/s	Algemeen gebruik	`ollama run llama3.3:8b`
Mistral 7B	4,1 GB	8 GB	~24 tok/s	Snelle responses	`ollama run mistral`
Phi-4 14B	8,2 GB	16 GB	~16 tok/s	Beste kwaliteit	`ollama run phi4:14b`
Qwen 2.5 7B	4,4 GB	8 GB	~20 tok/s	Meertalig + code	`ollama run qwen2.5:7b`
CodeLlama 13B	7,3 GB	16 GB	~15 tok/s	Programmeren	`ollama run codellama:13b`
Gemma 2 9B	5,5 GB	8 GB	~14 tok/s	Creatief schrijven	`ollama run gemma2:9b`
Llama 3.1 70B	~40 GB	64 GB	~8 tok/s	Beste overall	`ollama run llama3.1:70b`

*Snelheid getest op 16 GB RAM laptop (Bron: LocalAiMaster Benchmarks)

⚡ Gevorderden: Voor de beste kwaliteit-snelheid balans op een M4 MacBook Pro met 32 GB: gebruik qwen2.5:32b in Q4 quantisatie. Op een M3/M4 Max met 64 GB+ draai je Llama 3.1 70B comfortabel.

Stap 4: Handige commando’s

# Beschikbare modellen tonen
ollama list

# Model downloaden zonder te starten
ollama pull llama3

# Model verwijderen (schijfruimte vrijmaken)
ollama rm llama3

# Model-informatie bekijken (grootte, parameters)
ollama show llama3

# Alle draaiende modellen zien
ollama ps

# Ollama server handmatig starten (normaal automatisch)
ollama serve

Stap 5: Ollama als API gebruiken

Ollama draait standaard een REST API op localhost:11434, waarmee je het kunt integreren in je eigen applicaties (Bron: Dev.to Complete Ollama Guide):

# Eenvoudig API-verzoek via curl
curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Leg uit wat machine learning is in 3 zinnen.",
  "stream": false
}'

# Python voorbeeld
import requests

response = requests.post('http://localhost:11434/api/generate', json={
    'model': 'llama3',
    'prompt': 'Schrijf een Python functie die priemgetallen vindt.',
    'stream': False
})

print(response.json()['response'])

💡 Beginner-tip: De API maakt het mogelijk om Ollama te gebruiken vanuit je eigen scripts en applicaties. Je kunt het ook koppelen aan tools als LangChain, Open WebUI of je eigen chatbot.

Stap 6: Grafische interface (optioneel)

Wil je liever een ChatGPT-achtige interface?

Open WebUI is de populairste optie:

# Installeer via Docker
docker run -d -p 3000:8080   --add-host=host.docker.internal:host-gateway   -v open-webui:/app/backend/data   --name open-webui   ghcr.io/open-webui/open-webui:main

Open daarna http://localhost:3000 in je browser — je hebt nu een volledige chat-interface voor al je lokale modellen.

LM Studio is een alternatief als je liever geen terminal gebruikt: een GUI-applicatie voor het downloaden en draaien van modellen met een klik (Bron: Markus Schall Guide).

Tips en beperkingen

✅ Tips:

Begin klein: start met Llama 3 8B of Mistral 7B en schaal op
Monitor je geheugengebruik met Activity Monitor
Gebruik 4-bit quantisatie (Q4_K_M) voor de beste balans tussen snelheid en kwaliteit
Ollama gebruikt Apple’s Metal GPU-acceleratie automatisch

⚠️ Beperkingen:

Lokale modellen zijn langzamer dan cloud-alternatieven
Geen internettoegang vanuit het model (geen web search)
Modelgrootte beperkt door je RAM
Docker GPU-acceleratie op macOS werkt beperkt (Metal API vs. CUDA)

(Bron: JohnWLittle.com Limitations)

Wanneer lokaal, wanneer cloud?

Scenario	Lokaal ✅	Cloud ✅
Privacy-gevoelige data	✅	❌
Geen internet beschikbaar	✅	❌
Onbeperkt gebruik zonder kosten	✅	❌
Beste mogelijke kwaliteit	❌	✅ (GPT-4, Claude)
Grote contextvensters (100K+)	❌	✅
Multi-modal (beeld, audio)	Beperkt	✅

Wil je juist méér rekenkracht dan je Mac biedt — voor grotere modellen of training? Dan zijn GPU-cloudproviders een betaalbaar alternatief. Onze vergelijking van de beste GPU-clouddiensten voor AI zet de kosten en opties naast elkaar.

Bronnen

Waarom een lokale LLM?

Wat heb je nodig?

Stap 1: Ollama installeren

Optie A: DMG Installer (aanbevolen voor beginners)

Optie B: Terminal / Homebrew

Stap 2: Je eerste model downloaden en draaien

Stap 3: De beste modellen kiezen

Stap 4: Handige commando’s

Stap 5: Ollama als API gebruiken

Stap 6: Grafische interface (optioneel)

Tips en beperkingen

Wanneer lokaal, wanneer cloud?

Bronnen

Veelgestelde vragen

Kan ik een lokale LLM draaien op een Mac met 8 GB RAM?

Is Ollama gratis?

Welk lokaal AI-model is het beste in 2026?

Gerelateerd

AI-agents in de praktijk: 5 taken die je deze week kunt automatiseren

Claude voor beginners: je eerste gesprek met Anthropic's AI in 10 minuten

AI-hallucinaties: wat zijn het en hoe herken je ze?