OpenAI heeft vorige week tijdens deze livestream een grote update aangekondigd voor ChatGPT: gebruikers kunnen nu direct binnen de chat plaatjes maken met GPT-4o. Deze integratie is de eerste grote upgrade van de beeldgeneratie-capaciteiten in meer dan een jaar en vervangt effectief DALL-E 3. De functionaliteit is onmiddellijk beschikbaar voor gebruikers met een Pro- en Plus-abonnement en wordt binnenkort ook uitgerold naar gratis gebruikers.

Wat maakt het zo bijzonder? GPT-4o (de opvolger van DALL-E) levert niet alleen betere afbeeldingen, maar kan ook:

tot twintig verschillende attributen correct koppelen aan objecten (probeer dat maar eens met andere AI’s);
eindelijk tekst fatsoenlijk weergeven in afbeeldingen;
consistente personages creëren over meerdere beelden heen;
jouw foto’s transformeren naar compleet nieuwe stijlen.

Waar je eerder aparte tools nodig had om afbeeldingen te maken, is dit nu naadloos geïntegreerd in het GPT-4o model zelf. Volgens Gabriel Goh, hoofd van het onderzoeksteam, is GPT-4o "een duidelijke stap vooruit ten opzichte van eerdere versies". Het geheim zit in de 'omnimodale' opzet: één model dat tekst, beeld, audio én video kan verwerken en genereren.

Wat maakt dit zo bijzonder?

Volgens OpenAI zijn er vooral twee grote verbeteringen in de manier waarop GPT-4o beelden genereert – en die lossen precies de pijnpunten op waar AI tot nu toe moeite mee had.

1. Attributen blijven correct gekoppeld

Een veelvoorkomend probleem bij AI-afbeeldingen was het door elkaar halen van eigenschappen. Denk aan een blauwe ster die ineens rood wordt, of een driehoek die van kleur wisselt. GPT-4o slaagt er nu in om 15 tot 20 objecten correct weer te geven met hun bijbehorende eigenschappen, waar eerdere modellen al rond de 5 tot 8 objecten begonnen te struikelen.

2. Tekst in beeld is eindelijk leesbaar

We kennen allemaal die vreemde, kromme letters of onbegrijpelijke zinnen in AI-afbeeldingen. Dat maakt ze lastig inzetbaar voor posters, banners of menu's. Dankzij maandenlange verfijning is de tekstweergave in GPT-4o nu sterk verbeterd – al blijft het lastig om écht kleine tekst helemaal scherp te krijgen.

Een fundamenteel andere aanpak

Wat GPT-4o uniek maakt, is dat het niet werkt met een diffusiemodel zoals DALL·E, maar met een zogenoemde autoregressieve benadering. In plaats van het beeld in één keer te ‘vernevelen’, bouwt het de afbeelding stukje bij beetje op – van links naar rechts, van boven naar beneden. Deze techniek lijkt ook te zorgen voor betere resultaten bij zowel tekst als objectbinding.

Onze persoonlijke favoriet: consistentie in personages

Een grote frustratie bij oudere AI-tools was het gebrek aan herkenbaarheid van personages. Iemand kon er op elk beeld ineens totaal anders uitzien. GPT-4o houdt nu wél rekening met gezichten, kleding en andere visuele kenmerken – ideaal voor het maken van consistente content, of je nu een stripverhaal maakt, een marketingcampagne of een animatieserie.

En het mooiste? Je kunt een bestaande foto uploaden en vragen om een compleet nieuwe stijl – bijvoorbeeld “anime”, “olieverfschilderij” of “cyberpunk” – en het model behoudt dan nog steeds de gezichtsuitdrukking, houding en verhoudingen. Perfect voor wie een visuele stijl wil aanhouden over verschillende platformen of projecten heen.

Meer tijd, maar meer kwaliteit

De beelden laten iets langer op zich wachten dan bij eerdere modellen, maar volgens productmanager Jackie Shannon is dat het meer dan waard: “De kwaliteit, het detailniveau, de contextuele kennis – dat zijn seconden die je graag investeert.”

Een menselijke touch

OpenAI heeft bij de ontwikkeling van GPT-4o zwaar ingezet op menselijke feedback. Meer dan 100 mensen hielpen bij het labelen van fouten in AI-afbeeldingen – van rare handen tot typfouten. Dankzij deze techniek, bekend als Reinforcement Learning from Human Feedback (RLHF), leert het model sneller wat mensen écht willen zien.

De data-discussie

OpenAI geeft aan dat GPT-4o is getraind op openbaar beschikbare data en op materiaal van partners zoals Shutterstock. Toch blijft dit een gevoelig onderwerp. Veel kunstenaars zien hun stijl terug in AI-beelden en voelen zich daar niet prettig bij.

Volgens COO Brad Lightcap heeft OpenAI “beleid om te voorkomen dat we beelden genereren die de stijl van levende kunstenaars nabootsen.” Er is zelfs een opt-out mogelijkheid voor makers die hun werk willen laten uitsluiten van trainingsdata.

Toch voelt dat wat wrang. Want hoewel OpenAI zegt kunstenaars te respecteren, kan je nog steeds met gemak beelden genereren “in de stijl van Studio Ghibli” – terwijl oprichter Hayao Miyazaki AI eerder bestempelde als “een belediging van het leven zelf.”

Het roept de vraag op: waar ligt de grens tussen eerbetoon en toe-eigening? Dat is geen kwestie voor het model – dat blijft mensenwerk. Als gebruiker blijf jij verantwoordelijk voor hoe je AI inzet.

Niet alleen maar optimisme

Als het werkt, dan komen er mooie dingen uit. Maar we lopen er de laatste dagen ook regelmatig tegenaan dat ChatGPT een aantal minuten moet wachten om een afbeelding te maken. En andere keren switcht hij toch weer naar zijn oude model wat weer niet zulke goede afbeeldingen oplevert, zoals hiernaast een afbeelding van de Amsterdamse Zuidas.

Afbeeldingen maken nu direct in ChatGPT

Wat maakt dit zo bijzonder?

Een fundamenteel andere aanpak

Onze persoonlijke favoriet: consistentie in personages

Meer tijd, maar meer kwaliteit

Een menselijke touch

De data-discussie

Niet alleen maar optimisme

ADRESGEGEVENS

GA DIRECT NAAR

SOCIAL MEDIA

NIEUWSBRIEF

Afbeeldingen maken nu direct in ChatGPT

Wat maakt dit zo bijzonder?

Een fundamenteel andere aanpak

Onze persoonlijke favoriet: consistentie in personages

Meer tijd, maar meer kwaliteit

Een menselijke touch

De data-discussie

Niet alleen maar optimisme

Het gebruik van GenAI in de rechtspraak

Explosieve toename van AI-wetsvoorstellen in de VS

ADRESGEGEVENS

GA DIRECT NAAR

SOCIAL MEDIA

NIEUWSBRIEF