ChatGPT lokaal draaien: veilig en offline aan de slag

Tot voor kort was er maar één manier om ChatGPT te gebruiken: via de online omgeving van OpenAI. Dat kon via de website, de mobiele app of via een API-koppeling met andere software. In alle gevallen verliep het gebruik via de servers van OpenAI. Dat had voordelen: je hoefde niets te installeren en kreeg altijd toegang tot de nieuwste modellen. Maar het betekende ook dat je altijd internet nodig had, afhankelijk was van de beschikbaarheid van de servers, en dat je invoer – hoe goed beveiligd ook – buiten je eigen infrastructuur werd verwerkt.

Eind juli 2025 kwam daar verandering in. OpenAI kondigde aan dat het voor het eerst sinds GPT-2 (2019) weer open-weight modellen beschikbaar stelde: GPT-OSS-20B en GPT-OSS-120B. Dit is een mijlpaal, omdat het gebruikers voor het eerst sinds jaren de mogelijkheid geeft om een ChatGPT-model volledig lokaal te draaien, zonder tussenkomst van de OpenAI-cloud.

Voor veel organisaties – en zeker in de juridische sector – is dat een belangrijke ontwikkeling. ChatGPT lokaal draaien betekent dat gevoelige gegevens en vertrouwelijke documenten binnen de muren van je eigen organisatie blijven. Bovendien krijg je meer controle: je kiest zelf welk model je draait, wanneer je het update, en je hebt geen last van storingen of limieten die bij de online versies gelden.

Het idee van “AI in eigen huis” is niet nieuw – open-source modellen zoals LLaMA, Mistral en Falcon konden al lokaal draaien – maar tot nu toe gold dat niet voor de modellen van ChatGPT. Dat maakt deze stap van OpenAI bijzonder relevant voor organisaties die privacy en dataveiligheid hoog op de agenda hebben staan.

Wat betekent “open-weight” precies?

Met een open-weight model kun je het modelbestand zelf downloaden en op je eigen computer laten draaien. Alles gebeurt lokaal: je invoer wordt verwerkt op jouw hardware, en er wordt niets naar de servers van OpenAI gestuurd. Je hebt zelfs geen internetverbinding nodig om ermee te werken.

Voor juristen, compliance-afdelingen en andere professionals die werken met vertrouwelijke informatie is dat een groot voordeel. Het betekent dat je ook gegevens kunt verwerken die je in de cloud liever niet deelt, zoals persoonsgegevens of bedrijfsgevoelige contracten.

Bijkomende voordelen van lokaal draaien:

  • Volledige datacontrole – Jij bepaalt wat er met je gegevens gebeurt.

  • Geen afhankelijkheid van uptime – Storingen bij OpenAI hebben geen invloed op jouw werk.

  • Geen abonnementsbeperkingen – Geen maandelijkse limieten op het aantal vragen of tokens.

Een voorbeeld: in mei 2025 lag ChatGPT er enkele uren uit door een storing bij OpenAI. Niet alleen konden gebruikers toen geen vragen stellen, ook applicaties en tools die op ChatGPT draaiden vielen stil. Bij lokaal gebruik werkt alles gewoon door.

Wat is de keerzijde?

Natuurlijk is lokaal draaien niet zonder beperkingen. Allereerst: de open-weight modellen zijn géén ChatGPT-5 en ook geen exacte kopie van ChatGPT-4. Qua capaciteiten liggen ze het dichtst bij een basisinstructiemodel op ongeveer GPT-3.5-niveau.

Dat betekent dat ze goed zijn in taalbegrip en tekstgeneratie, maar minder verfijnd in redeneren en minder goed in het verwerken van zeer lange contexten. Bovendien ontbreken een aantal functies die je in de online versie wel hebt.

Concrete beperkingen:

  1. Bestanden uploaden – In ChatGPT-5 kun je direct bestanden uploaden. In LM Studio, een populaire interface voor lokaal draaien, kan dat alleen via extra plug-ins of door tekst handmatig te plakken.

  2. Custom instructies instellen – Je kunt wel een systeem-prompt zetten bij het starten van het model, maar er is geen uitgebreide interface om je voorkeuren op te slaan.

  3. Custom GPT’s maken – Het maken van eigen Custom GPT’s met geheugen en API-koppelingen is niet mogelijk.

  4. Automatisch geheugen – LM Studio onthoudt standaard niet wat je in eerdere sessies hebt gedaan.

  5. Snelheid en prestaties – Omdat het lokaal draait, is de snelheid afhankelijk van jouw hardware.

  6. Updates – Jij bent zelf verantwoordelijk voor het downloaden en installeren van nieuwe versies.

  7. Kostenplaatje – Je betaalt geen abonnement, maar je moet wel investeren in krachtige hardware.

Kortom: lokaal draaien geeft je maximale privacy en controle, maar je levert wel een aantal handige functies en gebruiksgemak van ChatGPT-5 in.

Hoe draai je ChatGPT lokaal?

Om een open-weight model te draaien, heb je speciale software nodig die het model kan laden en gebruiken. Een van de meest toegankelijke oplossingen is LM Studio:

  • Gratis te downloaden voor Windows, macOS en Linux

  • Geen programmeerkennis nodig

  • Ondersteuning voor tientallen modellen, waaronder GPT-OSS, LLaMA, Mistral en DeepSeek Coder

Alternatief: Ollama, vooral populair onder macOS-gebruikers.

Het lokaal draaien van AI-modellen is op zich niet nieuw – modellen als LLaMA 3 van Meta, Mistral en DeepSeek Coder konden dit al – maar het is voor ChatGPT de eerste keer sinds 2019 dat dit mogelijk is.

Welke hardware heb je nodig?

OpenAI heeft twee varianten uitgebracht:

  • GPT-OSS-20B – de lichtere versie, geschikt voor krachtige consumentenlaptops.

  • GPT-OSS-120B – de zwaardere versie, die alleen draait op professionele workstations of servers met zeer veel geheugen.

Wil je het zware model gebruiken, dan is het verstandig om eerst te controleren of je hardware sterk genoeg is. Tip: vraag aan ChatGPT zelf of je systeem aan de minimale eisen voldoet.

Wat kan het lichtere model?

GPT-OSS-20B kun je qua niveau vergelijken met het gratis ChatGPT-model van vóór de introductie van ChatGPT-5. Het is uitstekend geschikt voor:

  • Tekst schrijven en redigeren

  • Samenvattingen maken

  • Vertalingen uitvoeren

  • E-mails, brieven en rapporten opstellen

  • Tekst structureren en toon aanpassen (formeel, informeel, juridisch)

  • Contracten of voorwaarden samenvatten

  • Kernpunten uit juridische stukken halen

  • Relevante wetsartikelen benoemen op basis van tekstinhoud (mits in de trainingsdata)

Zoals bij alle AI-modellen geldt: de kwaliteit van de output hangt sterk af van je prompt. Formuleer je vraag dus zo duidelijk en specifiek mogelijk. Het bekende gezegde blijft van toepassing: garbage in, garbage out.

Advies voor organisaties

Benieuwd wat lokaal draaien van ChatGPT of andere taalmodellen kan betekenen voor jullie organisatie?

Wij helpen organisaties met:

  • Het kiezen van het juiste model

  • Het inrichten van een veilige, lokale AI-omgeving

  • Het trainen van medewerkers in effectief gebruik

Willen jullie maximale privacy en controle behouden, zonder in te leveren op productiviteit? Neem contact met ons op voor een adviesgesprek – dan kijken we samen hoe jullie organisatie lokaal AI kan inzetten, veilig en op maat.

Lokaal draaien - Stap voor stap

1) Vooraf: korte hardwarecheck

  • Kies je model:

    • GPT-OSS-20B → geschikt voor krachtige consumentenlaptops/desktops.

    • GPT-OSS-120B → alleen voor zware workstations/servers.

  • Vuistregel: hoe groter het model, hoe meer (video)geheugen je nodig hebt. Start met 20B als je twijfelt.

2) Installeren

  1. Download LM Studio voor jouw OS en installeer het.

  2. Start de app. Je ziet een Model Library en een Chat-interface.

3) Eerste keer instellen

  • Backend (automatisch):

    • macOS → Metal (Apple Silicon).

    • Windows met NVIDIA → CUDA.

    • Linux → automatisch/CPU/GPU afhankelijk van drivers.

  • Opslaglocatie modellen: kies een schijf met genoeg ruimte (modellen zijn groot).

4) Model kiezen en downloaden

  1. Ga naar Model Library.

  2. Zoek naar GPT-OSS-20B (of een alternatief zoals LLaMA 3 / Mistral / Gemma / DeepSeek Coder).

  3. Kies een variant/quantization die bij je hardware past (lichtere varianten gebruiken minder geheugen, zijn sneller te laden, iets minder nauwkeurig).

  4. Klik Download en wacht tot het model lokaal staat.

5) Chatten (offline)

  1. Ga naar ChatNew Chat.

  2. Selecteer jouw gedownloade model in de dropdown.

  3. Optioneel: stel een System Prompt in (bijv. “Je bent een juridisch assistent…”).

  4. Internet uit (optioneel) voor maximale zekerheid: het model blijft werken.

  5. Stel je vraag en test: korte prompt, daarna een langere prompt.

6) Documenten verwerken (privacy-proof)

  • Basis: kopieer relevante tekst uit een document (contract, memo) en plak in de chat.

  • Werkvorm:

    • Deel 1: context prompt (“Vat samen in 5 bullets voor CFO”).

    • Deel 2: documenttekst (plak).

  • Tip: werk met beknopte chunks (bijv. 2–5 pagina’s per prompt) en vraag daarna om een eind-samenvatting.

7) Instellingen fijnslijpen

  • Temperature: lager = formeler/consistenter; hoger = creatiever.

  • Max tokens: hoger bij lange antwoorden/samenvattingen.

  • System prompt: leg rol/stijl vast (juridisch, feitelijk, bronvermelding).

8) Beheer & updates

  • Modellen updaten: handmatig nieuwe versies downloaden.

  • Back-ups: bewaar je system prompts en prompt-templates.

  • Beveiliging: beperk netwerktoegang als je met zeer gevoelige data werkt.

9) Kwaliteit borgen

  • Prompt-patroon: Doel → Rol → Brondomein → Outputvorm → Criteria (bijv. “neutraal, feitelijk, zonder advies”).

  • Controle: laat het model twijfels markeren (“Als je ergens niet zeker van bent, geef dat aan en vraag om verduidelijking”).

  • Geen halucinaties-risico nemen: vraag altijd om onderbouwing binnen de gegeven tekst en geen externe aannames.

Volgende
Volgende

Evaluating Regulatory Structures for the Expansion of Artificial Intelligence: A Systematic Review of US State Legislation