TildeOpen: Europa’s nieuwe open taalmodel en de opmars van publieke AI-infrastructuur

13 okt

De Europese Commissie kondigde deze week de release aan van TildeOpen LLM, een open-source taalmodel met ongeveer dertig miljard parameters, ontwikkeld door het Letse technologiebedrijf Tilde. Het model is gebouwd op de EuroHPC LUMI-supercomputer in Finland en werd ontwikkeld in het kader van de Large AI Grand Challenge, een programma van de Europese Commissie dat onderzoek naar grootschalige AI-toepassingen ondersteunt.

Waar veel aandacht de afgelopen tijd uitging naar commerciële spelers zoals Mistral AI, kiest de Europese Unie met TildeOpen bewust voor een publiek-gefinancierde route. Het model is ontwikkeld binnen Europese onderzoeksinfrastructuur en in overeenstemming met de waarden en beginselen die aan de AI Act ten grondslag liggen. Daarmee is TildeOpen een concreet voorbeeld van hoe de EU bouwt aan een zelfstandige en transparante AI-architectuur.

Europees van begin tot eind

TildeOpen is ontwikkeld door Tilde.ai en gefinancierd door de Europese Commissie via de EuroHPC Joint Undertaking. De training vond plaats op de LUMI-supercomputer met AMD Instinct MI250X-GPU’s. Het model is getraind met behulp van een aangepaste versie van het open-source GPT-NeoX-framework van EleutherAI.

Het ontwikkelproces verliep in drie fasen: een eerste fase met gelijke verdeling van alle talen, een tweede fase volgens de natuurlijke verdeling naar aantal sprekers, en een derde fase met opnieuw gelijke verdeling om balans te behouden. Deze aanpak is bedoeld om evenwichtige meertalige prestaties te bevorderen.

Alle technische details over architectuur, hyperparameters en trainingsmethode zijn openbaar gemaakt via Hugging Face. Daarmee onderscheidt TildeOpen zich van commerciële modellen die hun ontwikkelproces niet openbaar maken.

Een meertalig fundament

Een belangrijk doel van TildeOpen is het beter ondersteunen van minder vertegenwoordigde Europese talen. Het model is geoptimaliseerd voor de 24 officiële EU-talen, aangevuld met onder meer Albanees, Bosnisch, Kroatisch, IJslands, Noors, Servisch, Turks en Oekraïens.

De ontwikkelaars benadrukken dat TildeOpen is ontworpen om taalongelijkheid in AI te verkleinen. Hiervoor wordt gebruikgemaakt van een equitable tokeniser, die ervoor zorgt dat dezelfde tekst in verschillende talen ongeveer evenveel tokens vereist. Dat voorkomt dat kleinere talen onevenredig veel rekenkracht vergen. In combinatie met een curriculum-learning-aanpak zorgt dit voor een evenwichtige verdeling van de trainingsdata.

Voor juristen en beleidsmakers is dat relevant, omdat Europese wetgeving, rechtspraak en bestuursdocumenten bestaan in meerdere taalversies. Een model dat deze meertaligheid begrijpt, is essentieel voor betrouwbare juridische AI-toepassingen in een Europese context.

Volledig open en publiek toegankelijk

TildeOpen is uitgebracht onder de Creative Commons-licentie CC-BY-4.0 en vrij beschikbaar via Hugging Face. Onderzoekers, publieke instellingen en bedrijven kunnen het model downloaden, hertrainen en opnieuw publiceren met bronvermelding.

Waar Mistral AI opereert als commerciële onderneming, is TildeOpen het resultaat van publieke financiering en Europese samenwerking. Het model toont aan dat open-source-ontwikkeling en publieke verantwoording binnen Europa hand in hand kunnen gaan.

Transparantie en controleerbaarheid

TildeOpen is een dense decoder-only transformer-model met zestig lagen en een sequentielengte van 8.192 tokens. Het maakt gebruik van SwiGLU-activatiefuncties, RoPE-position encodings en RMS-normalisatie.

De volledige set hyperparameters en trainingsgegevens is openbaar, waardoor TildeOpen aansluit bij de Europese inzet op transparantie en uitlegbaarheid in AI. Deze openheid maakt toetsing, risicobeoordeling en auditing in overeenstemming met de AI Act praktisch uitvoerbaar.

Prestaties op benchmarktests

Volgens de resultaten die door Tilde.ai zijn gepubliceerd, presteert TildeOpen sterk op meerdere meertalige benchmarktests. Op de Belebele-benchmark (begrijpend lezen in 122 talen) behaalt het model een gemiddelde nauwkeurigheid van 84,7 procent. Op de MultiBLiMP-benchmark (grammaticale correctheid) behaalt het een gemiddelde score van 99 procent.

Deze resultaten laten zien dat TildeOpen qua prestaties kan concurreren met andere grote Europese modellen, terwijl het open-source en publiek gefinancierd is.

In lijn met de AI Act

Het volledige ontwikkeltraject van TildeOpen vond plaats binnen Europese jurisdictie en binnen publieke infrastructuur. Daarmee voldoet het model aan de principes van transparantie, herleidbaarheid en verantwoord datagebruik die de AI Act voorschrijft.

TildeOpen is momenteel een foundation model – een basismodel dat nog niet is afgestemd op specifieke taken of veiligheidsfilters. Het model vormt daarmee een geschikt vertrekpunt voor verdere fine-tuning, bijvoorbeeld voor juridische of bestuursrechtelijke toepassingen. De volgende versie zal worden ontwikkeld als gespecialiseerd vertaalmodel, gebaseerd op deze meertalige basis.

Relevantie voor juristen en beleidsmakers

Voor de juridische sector betekent TildeOpen dat er voor het eerst een grootschalig, open en Europees taalmodel beschikbaar is dat binnen de kaders van de Europese wetgeving kan worden ingezet. Het model maakt het mogelijk om meertalige juridische documentanalyse, vertaling van regelgeving en lokale AI-toepassingen te ontwikkelen zonder afhankelijkheid van niet-Europese cloudleveranciers.

Daarmee vormt TildeOpen een belangrijke stap in de richting van digitale soevereiniteit: een Europese AI-infrastructuur die transparant, controleerbaar en juridisch verantwoord is.

Afsluiting

Met TildeOpen laat Europa zien dat open-source en kwaliteit hand in hand kunnen gaan. Het model is ontwikkeld met publieke middelen, gebouwd binnen Europese infrastructuur en ontworpen voor alle talen van de Unie. Het is een concreet voorbeeld van hoe technologische innovatie en juridische waarden elkaar kunnen versterken.

TildeOpen markeert het begin van een nieuwe fase in de Europese AI-ontwikkeling: niet gedreven door commerciële geheimhouding, maar door publieke kennis, transparantie en verantwoordelijkheid.

BijzonderStrafrecht.nl https://www.bijzonderstrafrecht.nl

TildeOpen: Europa’s nieuwe open taalmodel en de opmars van publieke AI-infrastructuur

Europees van begin tot eind

Een meertalig fundament

Volledig open en publiek toegankelijk

Transparantie en controleerbaarheid

Prestaties op benchmarktests

In lijn met de AI Act

Relevantie voor juristen en beleidsmakers

Afsluiting

ADRESGEGEVENS

GA DIRECT NAAR

SOCIAL MEDIA

NIEUWSBRIEF

TildeOpen: Europa’s nieuwe open taalmodel en de opmars van publieke AI-infrastructuur

Europees van begin tot eind

Een meertalig fundament

Volledig open en publiek toegankelijk

Transparantie en controleerbaarheid

Prestaties op benchmarktests

In lijn met de AI Act

Relevantie voor juristen en beleidsmakers

Afsluiting

The Imperative for a UN Special Rapporteur on AI and Human Rights

Het recht op gegevenswissing in het AI-tijdperk: juridische en technische uitdagingen

ADRESGEGEVENS

GA DIRECT NAAR

SOCIAL MEDIA

NIEUWSBRIEF