Arcee aims to reboot U.S. open source AI with new Trinity models released under Apache 2.0

December 2, 2025

1 8 minutes read

Gedurende een groot deel van 2025 zijn de grenzen van taalmodellen met een open gewicht niet gedefinieerd in Silicon Valley of New York City, maar in Beijing en Hangzhou.

Chinese onderzoekslaboratoria, waaronder Qwen, DeepSeek, Moonshot en Baidu van Alibaba, hebben snel het tempo bepaald bij de ontwikkeling van grootschalige, open Mixture-of-Experts (MoE)-modellen – vaak met permissieve licenties en toonaangevende benchmarkprestaties. Terwijl OpenAI deze zomer ook zijn eigen open source LLM voor algemene doeleinden op de markt bracht – gpt-oss-20B en 120B – is de acceptatie vertraagd door zoveel gelijkwaardige of beter presterende alternatieven.

Nu duwt een klein Amerikaans bedrijf terug.

Vandaag, Arcee AI aangekondigd de release van Trinity Mini en Trinity Nano Preview, de eerste twee modellen in de nieuwe “Trinity”-familie: een MoE-modelsuite met open gewicht, volledig getraind in de Verenigde Staten.

Gebruikers kunnen de eerste rechtstreeks zelf uitproberen in een chatbot-formaat op de nieuwe website van Acree, chat.arcee.aien ontwikkelaars kunnen de code voor beide modellen downloaden op Knuffelend gezicht en voer het zelf uit, en pas ze ook aan/verfijnen naar hun wens – allemaal gratis onder een ondernemingsvriendelijke Apache 2.0-licentie.

Hoewel klein in vergelijking met de grootste frontier-modellen, vertegenwoordigen deze releases een zeldzame poging van een Amerikaanse startup om end-to-end open-weight-modellen op schaal te bouwen, helemaal opnieuw getraind op Amerikaanse infrastructuur, met behulp van een door de VS samengestelde dataset-pijplijn.

“Ik ervaar een combinatie van extreme trots op mijn team en verlammende uitputting, dus ik heb moeite om onder woorden te brengen hoe opgewonden ik ben om deze modellen uit te brengen”, schreef Arcee Chief Technology Officer (CTO) Lucas Atkins in een bericht op het sociale netwerk X (voorheen Twitter). “Vooral Mini.”

Een derde model, Trinity Large, is al in training: een 420B-parametermodel met 13B actieve parameters per token, gepland voor lancering in januari 2026.

“We willen iets toevoegen dat op die foto ontbrak”, schreef Atkins in de krant Trinity-lanceringsmanifest gepubliceerd op de website van Arcee. “Een serieus familiemodel met open gewicht, van begin tot eind getraind in Amerika… dat bedrijven en ontwikkelaars daadwerkelijk kunnen bezitten.”

Van kleine modellen tot geschaalde ambitie

Het Trinity-project markeert een keerpunt voor Arcee AI, dat tot nu toe bekend stond om zijn compacte, ondernemingsgerichte modellen. Het bedrijf heeft tot nu toe 29,5 miljoen dollar aan financiering opgehaald, waaronder een Series A-serie van 24 miljoen dollar in 2024 onder leiding van Emergence Capital, en eerdere releases omvatten AFM-4.5B, een compact, op instructies afgestemd model dat medio 2025 werd uitgebracht, en SuperNova, een eerder 70B-parameter-instructie-volgmodel ontworpen voor in-VPC bedrijfsimplementatie.

Beide waren gericht op het oplossen van regelgevings- en kostenproblemen die de adoptie van propriëtaire LLM’s in de onderneming teisterden.

Met Trinity mikt Arcee hoger: niet alleen het afstemmen van instructies of post-training, maar full-stack voortraining van funderingsmodellen met open gewicht – gebouwd voor redeneren in een lange context, aanpassing van synthetische gegevens en toekomstige integratie met live hertrainingssystemen.

Oorspronkelijk bedoeld als opstapje naar Trinity Large, kwamen zowel Mini als Nano voort uit vroege experimenten met schaarse modellering en werden ze al snel zelf productiedoelen.

Technische hoogtepunten

Trinity Mini is een 26B-parametermodel met 3B actief per token, ontworpen voor redeneren met hoge doorvoer, functieaanroepen en toolgebruik. Trinity Nano Preview is een 6B-parametermodel met ongeveer 800 miljoen actieve niet-inbeddingsparameters: een meer experimenteel, op chat gericht model met een sterkere persoonlijkheid, maar een lagere redeneringsrobuustheid.

Beide modellen maken gebruik van Arcee’s nieuwe Attention-First Mixture-of-Experts (AFMoE)-architectuur, een aangepast MoE-ontwerp dat mondiale spaarzaamheid, lokale/mondiale aandacht en gated aandachtstechnieken combineert.

Geïnspireerd door recente ontwikkelingen van DeepSeek en Qwen, wijkt AFMoE af van traditionele MoE door schaarse expertrouting nauw te integreren met een verbeterde aandachtsstapel – inclusief aandacht voor gegroepeerde zoekopdrachten, gated aandacht en een lokaal/globaal patroon dat redeneren in de lange context verbetert.

Denk aan een typisch MoE-model, zoals een callcenter met 128 gespecialiseerde agenten (“experts” genoemd), maar er worden er slechts een paar geraadpleegd voor elk gesprek, afhankelijk van de vraag. Dit bespaart tijd en energie, omdat niet elke expert zijn medewerking hoeft te verlenen.

Wat AFMoE anders maakt, is de manier waarop het beslist welke agenten moeten worden gebeld en hoe het hun antwoorden combineert. De meeste MoE-modellen gebruiken een standaardaanpak waarbij experts worden gekozen op basis van een eenvoudige rangschikking.

AFMoE maakt daarentegen gebruik van een soepelere methode (sigmoïde routing genoemd) die meer lijkt op het aanpassen van een volumeknop dan op het omdraaien van een schakelaar – waardoor het model meerdere perspectieven op een elegantere manier met elkaar kan combineren.

Het ‘aandacht eerst’-gedeelte betekent dat het model zich sterk richt op de manier waarop het aandacht besteedt aan verschillende delen van het gesprek. Stel je voor dat je een roman leest en sommige delen duidelijker onthoudt dan andere, op basis van belangrijkheid, recentheid of emotionele impact: dat is aandacht. AFMoE verbetert dit door lokale aandacht (focussen op wat zojuist is gezegd) te combineren met mondiale aandacht (herinneren aan belangrijke punten van eerder), met behulp van een ritme dat de zaken in balans houdt.

Ten slotte introduceert AFMoE iets dat gated aandacht wordt genoemd, dat fungeert als een volumeregelaar voor elke aandachtsoutput – waardoor het model verschillende stukjes informatie naar behoefte kan benadrukken of dempen, zoals het aanpassen van hoeveel u om elke stem in een groepsdiscussie geeft.

Dit alles is ontworpen om het model stabieler te maken tijdens training en efficiënter op schaal, zodat het langere gesprekken kan begrijpen, duidelijker kan redeneren en sneller kan werken zonder dat er enorme computerbronnen nodig zijn.

In tegenstelling tot veel bestaande MoE-implementaties legt AFMoE de nadruk op stabiliteit op diepte en trainingsefficiëntie, met behulp van technieken zoals op sigmoid gebaseerde routering zonder hulpverlies, en op diepte geschaalde normalisatie om schaling zonder divergentie te ondersteunen.

Modelmogelijkheden

Trinity Mini maakt gebruik van een MoE-architectuur met 128 experts, 8 actief per token en 1 altijd actieve gedeelde expert. Contextvensters bereiken maximaal 131.072 tokens, afhankelijk van de provider.

Benchmarks laten zien dat Trinity Mini competitief presteert met grotere modellen op het gebied van redeneertaken, waaronder beter presteren dan gpt-oss op de SimpleQA-benchmark (test feitelijke herinnering en of het model onzekerheid toelaat), MMLU (Zero shot, meten van brede academische kennis en redeneren over veel onderwerpen zonder voorbeelden), en BFCL V3 (evalueert multi-step function calling en real-world toolgebruik):

MMLU (nulschot): 84,95
Wiskunde-500: 92.10
GPQA-diamant: 58.55
BFCL V3: 59,67

Latentie- en doorvoercijfers bij providers als Together en Clarifai laten een doorvoersnelheid van meer dan 200 tokens per seconde zien met een E2E-latentie van minder dan drie seconden, waardoor Trinity Mini levensvatbaar is voor interactieve toepassingen en agentpijplijnen.

Hoewel Trinity Nano kleiner is en niet zo stabiel in randgevallen, demonstreert het een schaarse levensvatbaarheid van de MoE-architectuur met minder dan 1 miljard actieve parameters per token.

Toegang, prijzen en ecosysteemintegratie

Beide Trinity-modellen worden uitgebracht onder de tolerante, ondernemingsvriendelijke, Apache 2.0-licentiewaardoor onbeperkt commercieel en onderzoeksgebruik mogelijk is. Trinity Mini is verkrijgbaar via:

API-prijzen voor Trinity Mini via OpenRouter:

$0,045 per miljoen invoertokens
Uitvoertokens van $ 0,15 per miljoen
Er is voor een beperkte tijd een gratis laag beschikbaar op OpenRouter

Het model is al geïntegreerd in apps, waaronder Benchable.ai, Open WebUI en SillyTavern. Het wordt ondersteund in Hugging Face Transformers, VLLM, LM Studio en llama.cpp.

Gegevens zonder compromis: de rol van DatologyAI

Centraal in de aanpak van Arcee staat de controle over trainingsgegevens – een scherp contrast met veel open modellen die zijn getraind op op internet geschraapte of juridisch dubbelzinnige datasets. Dat is waar DatologieAIeen datacuratie-startup mede opgericht door voormalig Meta- en DeepMind-onderzoeker Ari Morcos, speelt een cruciale rol.

Het platform van DatologyAI automatiseert het filteren van gegevens, deduplicatie en kwaliteitsverbetering in alle modaliteiten, waardoor het trainingscorpus van Arcee de valkuilen van luidruchtige, bevooroordeelde of auteursrechtelijk risicovolle inhoud vermijdt.

Voor Trinity hielp DatologyAI bij de constructie van een curriculum van 10 biljoen tokens, georganiseerd in drie fasen: 7T algemene gegevens, 1,8T tekst van hoge kwaliteit en 1,2T STEM-zwaar materiaal, inclusief wiskunde en code.

Dit is dezelfde samenwerking die Arcee’s AFM-4.5B aandreef, maar aanzienlijk geschaald zowel qua omvang als complexiteit. Volgens Arcee waren het de filter- en data-rankingtools van Datology die ervoor zorgden dat Trinity netjes kon opschalen en tegelijkertijd de prestaties verbeterde bij taken als wiskunde, QA en het gebruik van agenttools.

De bijdrage van Datologie strekt zich ook uit tot het genereren van synthetische gegevens. Voor Trinity Large heeft het bedrijf meer dan 10 biljoen synthetische tokens geproduceerd – gecombineerd met 10T beheerde webtokens – om een 20T-token trainingscorpus te vormen voor het volledige model dat nu in ontwikkeling is.

Bouwen aan de infrastructuur om te concurreren: Prime Intellect

Het vermogen van Arcee om volledige trainingen uit te voeren in de VS is ook te danken aan zijn infrastructuurpartner, Eerste intellect. De startup, opgericht begin 2024, begon met een missie om de toegang tot AI-compute te democratiseren door een gedecentraliseerde GPU-marktplaats en trainingsstack te bouwen.

Terwijl Prime Intellect de krantenkoppen haalde met zijn gedistribueerde training van INTELLECT-1 – een 10B-parametermodel dat is getraind door bijdragers in vijf landen – erkent het recentere werk, waaronder de 106B INTELLECT-3, de afwegingen van schaal: gedistribueerde training werkt, maar voor 100B+ modellen is de gecentraliseerde infrastructuur nog steeds efficiënter.

Voor Trinity Mini en Nano leverde Prime Intellect de orkestratiestack, aangepaste TorchTitan-runtime en fysieke rekenomgeving: 512 H200 GPU’s in een aangepaste bf16-pijplijn, met hoogefficiënt HSDP-parallellisme. Het host ook het 2048 B300 GPU-cluster dat wordt gebruikt om Trinity Large te trainen.

De samenwerking laat het verschil zien tussen branding en uitvoering. Hoewel het langetermijndoel van Prime Intellect gedecentraliseerd computergebruik blijft, ligt de kortetermijnwaarde voor Arcee in een efficiënte, transparante trainingsinfrastructuur: een infrastructuur die onder de jurisdictie van de VS blijft, met bekende herkomst- en veiligheidscontroles.

Een strategische inzet op modelsoevereiniteit

Arcee’s streven naar volledige voortraining weerspiegelt een bredere stelling: dat de toekomst van zakelijke AI zal afhangen van het bezitten van de trainingslus – en niet alleen van het verfijnen ervan. Naarmate systemen evolueren om zich aan te passen aan live gebruik en autonoom met tools te communiceren, zullen compliance en controle over trainingsdoelstellingen net zo belangrijk zijn als prestaties.

“Naarmate toepassingen ambitieuzer worden, blijft de grens tussen ‘model’ en ‘product’ bewegen”, merkte Atkins op in het Trinity-manifest van Arcee. “Om dat soort software te bouwen, moet je de gewichten en de trainingspijplijn beheersen, niet alleen de instructielaag.”

Deze omkadering onderscheidt Trinity van andere inspanningen met open gewicht. In plaats van het basismodel van iemand anders te patchen, heeft Arcee zijn eigen basismodel gebouwd – van data tot implementatie, van infrastructuur tot optimizer – samen met partners die die visie van openheid en soevereiniteit delen.

Vooruitkijkend: Trinity Groot

Er wordt momenteel getraind voor Trinity Large, het 420B-parameter MoE-model van Arcee, waarbij dezelfde afmoe-architectuur wordt gebruikt, geschaald naar een grotere set experts.

De dataset bevat 20T-tokens, gelijkmatig verdeeld tussen synthetische gegevens van DatologyAI en samengestelde wb-gegevens.

Het model wordt naar verwachting volgende maand, in januari 2026, gelanceerd, en kort daarna volgt een volledig technisch rapport.

Als dit lukt, zou Trinity Large een van de enige volledig open-weight, door de VS opgeleide modellen op frontier-schaal worden, waardoor Arcee wordt gepositioneerd als een serieuze speler in het open ecosysteem in een tijd waarin de meeste Amerikaanse LLM-inspanningen gesloten zijn of gebaseerd zijn op niet-Amerikaanse fundamenten.

Een hernieuwde toewijding aan de Amerikaanse open source

In een landschap waarin de meest ambitieuze modellen met open gewicht steeds meer worden gevormd door Chinese onderzoekslaboratoria, signaleert de lancering van Arcee Trinity een zeldzame richtingsverandering: een poging om terrein terug te winnen voor transparante, door de VS gecontroleerde modelontwikkeling.

Gesteund door gespecialiseerde partners op het gebied van data en infrastructuur, en vanaf het begin opgebouwd voor aanpassingsvermogen op de lange termijn, is Trinity een krachtig statement over de toekomst van de Amerikaanse AI-ontwikkeling. Het laat zien dat kleine, minder bekende bedrijven nog steeds de grenzen kunnen verleggen en op een open manier kunnen innoveren, zelfs nu de industrie steeds meer wordt geproductiseerd en gecommodificeerd.

Wat nog moet worden bezien is of Trinity Large de capaciteiten van zijn beter gefinancierde sectorgenoten kan evenaren. Maar nu Mini en Nano al in gebruik zijn en er een sterke architectonische basis aanwezig is, bewijst Arcee misschien al zijn centrale stelling: dat modelsoevereiniteit, en niet alleen de modelgrootte, het volgende tijdperk van AI zal bepalen.

Source link

Arcee aims to reboot U.S. open source AI with new Trinity models released under Apache 2.0