TildeOpen: Europa’s nieuwe open taalmodel en de opmars van publieke AI-infrastructuur
De Europese Commissie kondigde deze week de release aan van TildeOpen LLM, een open-source taalmodel met ongeveer dertig miljard parameters, ontwikkeld door het Letse technologiebedrijf Tilde. Het model is gebouwd op de EuroHPC LUMI-supercomputer in Finland en werd ontwikkeld in het kader van de Large AI Grand Challenge, een programma van de Europese Commissie dat onderzoek naar grootschalige AI-toepassingen ondersteunt.
Waar veel aandacht de afgelopen tijd uitging naar commerciële spelers zoals Mistral AI, kiest de Europese Unie met TildeOpen bewust voor een publiek-gefinancierde route. Het model is ontwikkeld binnen Europese onderzoeksinfrastructuur en in overeenstemming met de waarden en beginselen die aan de AI Act ten grondslag liggen. Daarmee is TildeOpen een concreet voorbeeld van hoe de EU bouwt aan een zelfstandige en transparante AI-architectuur.
Europees van begin tot eind
TildeOpen is ontwikkeld door Tilde.ai en gefinancierd door de Europese Commissie via de EuroHPC Joint Undertaking. De training vond plaats op de LUMI-supercomputer met AMD Instinct MI250X-GPU’s. Het model is getraind met behulp van een aangepaste versie van het open-source GPT-NeoX-framework van EleutherAI.
Het ontwikkelproces verliep in drie fasen: een eerste fase met gelijke verdeling van alle talen, een tweede fase volgens de natuurlijke verdeling naar aantal sprekers, en een derde fase met opnieuw gelijke verdeling om balans te behouden. Deze aanpak is bedoeld om evenwichtige meertalige prestaties te bevorderen.
Alle technische details over architectuur, hyperparameters en trainingsmethode zijn openbaar gemaakt via Hugging Face. Daarmee onderscheidt TildeOpen zich van commerciële modellen die hun ontwikkelproces niet openbaar maken.
Een meertalig fundament
Een belangrijk doel van TildeOpen is het beter ondersteunen van minder vertegenwoordigde Europese talen. Het model is geoptimaliseerd voor de 24 officiële EU-talen, aangevuld met onder meer Albanees, Bosnisch, Kroatisch, IJslands, Noors, Servisch, Turks en Oekraïens.
De ontwikkelaars benadrukken dat TildeOpen is ontworpen om taalongelijkheid in AI te verkleinen. Hiervoor wordt gebruikgemaakt van een equitable tokeniser, die ervoor zorgt dat dezelfde tekst in verschillende talen ongeveer evenveel tokens vereist. Dat voorkomt dat kleinere talen onevenredig veel rekenkracht vergen. In combinatie met een curriculum-learning-aanpak zorgt dit voor een evenwichtige verdeling van de trainingsdata.
Voor juristen en beleidsmakers is dat relevant, omdat Europese wetgeving, rechtspraak en bestuursdocumenten bestaan in meerdere taalversies. Een model dat deze meertaligheid begrijpt, is essentieel voor betrouwbare juridische AI-toepassingen in een Europese context.
Volledig open en publiek toegankelijk
TildeOpen is uitgebracht onder de Creative Commons-licentie CC-BY-4.0 en vrij beschikbaar via Hugging Face. Onderzoekers, publieke instellingen en bedrijven kunnen het model downloaden, hertrainen en opnieuw publiceren met bronvermelding.
Waar Mistral AI opereert als commerciële onderneming, is TildeOpen het resultaat van publieke financiering en Europese samenwerking. Het model toont aan dat open-source-ontwikkeling en publieke verantwoording binnen Europa hand in hand kunnen gaan.
Transparantie en controleerbaarheid
TildeOpen is een dense decoder-only transformer-model met zestig lagen en een sequentielengte van 8.192 tokens. Het maakt gebruik van SwiGLU-activatiefuncties, RoPE-position encodings en RMS-normalisatie.
De volledige set hyperparameters en trainingsgegevens is openbaar, waardoor TildeOpen aansluit bij de Europese inzet op transparantie en uitlegbaarheid in AI. Deze openheid maakt toetsing, risicobeoordeling en auditing in overeenstemming met de AI Act praktisch uitvoerbaar.
Prestaties op benchmarktests
Volgens de resultaten die door Tilde.ai zijn gepubliceerd, presteert TildeOpen sterk op meerdere meertalige benchmarktests. Op de Belebele-benchmark (begrijpend lezen in 122 talen) behaalt het model een gemiddelde nauwkeurigheid van 84,7 procent. Op de MultiBLiMP-benchmark (grammaticale correctheid) behaalt het een gemiddelde score van 99 procent.
Deze resultaten laten zien dat TildeOpen qua prestaties kan concurreren met andere grote Europese modellen, terwijl het open-source en publiek gefinancierd is.
In lijn met de AI Act
Het volledige ontwikkeltraject van TildeOpen vond plaats binnen Europese jurisdictie en binnen publieke infrastructuur. Daarmee voldoet het model aan de principes van transparantie, herleidbaarheid en verantwoord datagebruik die de AI Act voorschrijft.
TildeOpen is momenteel een foundation model – een basismodel dat nog niet is afgestemd op specifieke taken of veiligheidsfilters. Het model vormt daarmee een geschikt vertrekpunt voor verdere fine-tuning, bijvoorbeeld voor juridische of bestuursrechtelijke toepassingen. De volgende versie zal worden ontwikkeld als gespecialiseerd vertaalmodel, gebaseerd op deze meertalige basis.
Relevantie voor juristen en beleidsmakers
Voor de juridische sector betekent TildeOpen dat er voor het eerst een grootschalig, open en Europees taalmodel beschikbaar is dat binnen de kaders van de Europese wetgeving kan worden ingezet. Het model maakt het mogelijk om meertalige juridische documentanalyse, vertaling van regelgeving en lokale AI-toepassingen te ontwikkelen zonder afhankelijkheid van niet-Europese cloudleveranciers.
Daarmee vormt TildeOpen een belangrijke stap in de richting van digitale soevereiniteit: een Europese AI-infrastructuur die transparant, controleerbaar en juridisch verantwoord is.
Afsluiting
Met TildeOpen laat Europa zien dat open-source en kwaliteit hand in hand kunnen gaan. Het model is ontwikkeld met publieke middelen, gebouwd binnen Europese infrastructuur en ontworpen voor alle talen van de Unie. Het is een concreet voorbeeld van hoe technologische innovatie en juridische waarden elkaar kunnen versterken.
TildeOpen markeert het begin van een nieuwe fase in de Europese AI-ontwikkeling: niet gedreven door commerciële geheimhouding, maar door publieke kennis, transparantie en verantwoordelijkheid.