Self-improving language models are becoming reality with MIT's updated SEAL technique

Onderzoekers van het Massachusetts Institute of Technology (MIT) krijgen hernieuwde aandacht voor het ontwikkelen en ontwikkelen van… open source een techniek waarmee grote taalmodellen (LLM’s) – zoals die ten grondslag liggen aan ChatGPT en de meeste moderne AI-chatbots – zichzelf kunnen verbeteren door synthetische gegevens te genereren om op af te stemmen.
De techniek, bekend als SEAL (Self-Adapting LLMs), werd voor het eerst beschreven in een artikel dat in juni werd gepubliceerd en destijds door VentureBeat werd behandeld.
Een aanzienlijk uitgebreide en bijgewerkte versie van het artikel werd vorige maand uitgebrachtevenals open source-code geplaatst op Github (onder een MIT-licentie, die commercieel en zakelijk gebruik mogelijk maakt), en veroorzaakt deze week nieuwe golven onder AI-power-gebruikers op het sociale netwerk X.
Met SEAL kunnen LLM’s autonoom hun eigen verfijningsstrategieën genereren en toepassen. In tegenstelling tot conventionele modellen die afhankelijk zijn van vaste externe gegevens en door mensen vervaardigde optimalisatiepijplijnen, zorgt SEAL ervoor dat modellen kunnen evolueren door hun eigen synthetische trainingsgegevens en bijbehorende optimalisatierichtlijnen te produceren.
De ontwikkeling is afkomstig van een team dat is aangesloten bij MIT’s Improbable AI Lab, waaronder Adam Zweiger, Jyothish Pari, Han Guo, Ekin Akyürek, Yoon Kim en Pulkit Agrawal. Hun onderzoek werd onlangs gepresenteerd op de 39e conferentie over neurale informatieverwerkingssystemen (NeurIPS 2025).
Achtergrond: van ‘voorbij statische AI’ naar zelfaanpassende systemen
Eerder dit jaar rapporteerde VentureBeat voor het eerst over SEAL als een raamwerk in een vroeg stadium waarmee taalmodellen hun eigen synthetische gegevens konden genereren en erop konden trainen – een mogelijke oplossing voor de stagnatie van vooraf getrainde modellen zodra ze werden ingezet.
In dat stadium werd SEAL ontworpen als een proof-of-concept waarmee AI-agenten van ondernemingen voortdurend konden leren in dynamische omgevingen zonder handmatige omscholing.
Sindsdien is het onderzoek aanzienlijk vooruitgegaan. De nieuwe versie breidt het eerdere raamwerk uit door aan te tonen dat het zelfaanpassingsvermogen van SEAL schaalt met de modelgrootte, het leren van versterking effectiever integreert om catastrofaal vergeten te verminderen, en de dual-loop-structuur van SEAL formaliseert (innerlijke gecontroleerde fijnafstemming en buitenste versterkingsoptimalisatie) voor reproduceerbaarheid.
Het bijgewerkte artikel introduceert ook evaluaties van verschillende promptformaten, verbeterde stabiliteit tijdens leercycli en een bespreking van praktische implementatie-uitdagingen tijdens de inferentietijd.
De beperkingen van statische modellen aanpakken
Hoewel LLM’s opmerkelijke capaciteiten hebben getoond op het gebied van het genereren en begrijpen van tekst, is hun aanpassing aan nieuwe taken of kennis vaak handmatig, broos of afhankelijk van de context.
SEAL daagt deze status quo uit door modellen uit te rusten met de mogelijkheid om wat de auteurs ‘self-edits’ noemen te genereren: natuurlijke taaluitvoer die specificeert hoe het model zijn gewichten moet bijwerken.
Deze zelfbewerkingen kunnen de vorm aannemen van geherformuleerde informatie, logische implicaties of toolconfiguraties voor augmentatie en training. Eenmaal gegenereerd, wordt het model verfijnd op basis van deze bewerkingen. Het proces wordt geleid door versterkend leren, waarbij het beloningssignaal afkomstig is van verbeterde prestaties bij een stroomafwaartse taak.
Het ontwerp bootst na hoe menselijke leerlingen studiemateriaal zouden kunnen herformuleren of reorganiseren om informatie beter te internaliseren. Deze herstructurering van kennis vóór assimilatie vormt een belangrijk voordeel ten opzichte van modellen die passief nieuwe gegevens ‘as-is’ consumeren.
Prestaties voor alle taken
SEAL is getest op twee hoofddomeinen: kennisintegratie en leren met weinig kansen.
In de setting van kennisintegratie evalueerden de onderzoekers hoe goed een model nieuwe feitelijke inhoud kon internaliseren uit passages die vergelijkbaar zijn met die in de SQuAD-dataset, een benchmarkdataset voor begrijpend lezen geïntroduceerd door Stanford University in 2016, bestaande uit meer dan 100.000 crowdsourced vraag-antwoordparen gebaseerd op Wikipedia-artikelen (Rajpurkar et al., 2016).
In plaats van rechtstreeks op de passagetekst af te stemmen, het model genereerde synthetische implicaties van de passage en vervolgens daarop afstemmen.
Na twee rondes van versterkend leren verbeterde het model de nauwkeurigheid van het beantwoorden van vragen van 33,5% naar 47,0% op een versie zonder context van SQuAD, waarmee de resultaten werden overtroffen die waren verkregen met behulp van synthetische gegevens gegenereerd door GPT-4.1.
In de leeromgeving met weinig shots werd SEAL geëvalueerd met behulp van een subset van de ARC-benchmark, waarbij taken redenering vereisen op basis van slechts een paar voorbeelden. Hier genereerde SEAL zelfbewerkingen waarin gegevensaugmentaties en hyperparameters werden gespecificeerd.
Na versterkend leren, het slagingspercentage bij het correct oplossen van uitgestelde taken steeg van 20% naar 72,5% met behulp van zelfbewerkingen die waren gegenereerd zonder versterkend leren. Modellen die uitsluitend afhankelijk waren van in-context leren zonder enige aanpassing scoorden 0%.
Technisch Kader
SEAL werkt met behulp van een structuur met twee lussen: een binnenste lus voert gecontroleerde verfijning uit op basis van de zelfbewerking, terwijl een buitenste lus versterkend leren gebruikt om het beleid te verfijnen dat deze zelfbewerkingen genereert.
Het gebruikte versterkingsleeralgoritme is gebaseerd op ReSTEM, dat bemonstering combineert met gefilterd gedragsklonen. Tijdens de training worden alleen zelfbewerkingen die tot prestatieverbeteringen leiden versterkt. Deze aanpak leert het model effectief welke soorten bewerkingen het meest nuttig zijn voor het leren.
Voor de efficiëntie past SEAL op LoRA gebaseerde fijnafstemming toe in plaats van volledige parameterupdates, waardoor snelle experimenten en goedkope aanpassingen mogelijk zijn.
Sterke punten en beperkingen
De onderzoekers melden dat SEAL zeer bruikbare trainingsgegevens kan produceren met minimaal toezicht, en zelfs beter presteert dan grote externe modellen zoals GPT-4.1 bij specifieke taken.
Ze laten ook zien dat SEAL verder generaliseert dan de oorspronkelijke opzet: het blijft goed presteren bij het opschalen van single-pass updates naar scenario’s voor voortgezette pre-training met meerdere documenten.
Het raamwerk is echter niet zonder beperkingen. Eén probleem is catastrofaal vergeten, waarbij updates om nieuwe informatie op te nemen de prestaties van eerder geleerde taken kunnen verslechteren.
Als reactie op deze bezorgdheid vertelde co-auteur Jyo Pari via e-mail aan VentureBeat dat versterkend leren (RL) het vergeten effectiever lijkt te verminderen dan standaard gesuperviseerde fijnafstemming (SFT), daarbij verwijzend naar een recent artikel over dit onderwerp. Hij voegde eraan toe dat het combineren van dit inzicht met SEAL zou kunnen leiden tot nieuwe varianten waarbij SEAL niet alleen trainingsgegevens leert, maar ook beloningsfuncties.
Een andere uitdaging is de computationele overhead: het evalueren van elke zelfbewerking vereist verfijning en prestatietests, wat 30 tot 45 seconden per bewerking kan duren – aanzienlijk meer dan bij standaard leertaken voor versterking.
Zoals Jyo uitlegde: “Het trainen van SEAL is niet triviaal omdat het twee optimalisatielussen vereist, een buitenste RL-lus en een binnenste SFT-lus. Op het moment van inferentie zal het bijwerken van modelgewichten ook een nieuwe systeeminfrastructuur vereisen.” Hij benadrukte de noodzaak van toekomstig onderzoek naar inzetsystemen als een cruciaal pad om SEAL praktisch te maken.
Bovendien gaat het huidige ontwerp van SEAL uit van de aanwezigheid van gepaarde taken en referentie-antwoorden voor elke context, waardoor de directe toepasbaarheid ervan wordt beperkt tot niet-gelabelde corpora. Jyo verduidelijkte echter dat zolang er een taak verderop in de keten is met een berekenbare beloning, SEAL kan worden getraind om zich dienovereenkomstig aan te passen, zelfs op veiligheidskritische domeinen. In principe zou een door SEAL getraind model kunnen leren training op schadelijke of kwaadwillige input te vermijden als het wordt geleid door het juiste beloningssignaal.
Reacties van de AI-gemeenschap
De AI-onderzoeks- en bouwgemeenschap heeft met een mix van opwinding en speculatie gereageerd op het SEAL-papier. Op X, voorheen Twitter, wogen verschillende prominente op AI gerichte accounts op de potentiële impact.
Gebruiker @VraserXeen zelfbenoemde onderwijzer en AI-liefhebber, noemde SEAL “de geboorte van continue zelflerende AI” en voorspelde dat modellen zoals OpenAI’s GPT-6 een vergelijkbare architectuur zouden kunnen aannemen.
In hun woorden vertegenwoordigt SEAL “het einde van het tijdperk van de bevroren gewichten”, en luidt systemen in die evolueren naarmate de wereld om hen heen verandert.
Ze benadrukten het vermogen van SEAL om blijvende herinneringen te vormen, kennis te herstellen en te leren van realtime gegevens, en vergeleken dit met een fundamentele stap in de richting van modellen die niet alleen informatie gebruiken, maar deze ook absorberen.
In de tussentijd, @alex_promptermede-oprichter van een door AI aangedreven marketingonderneming, omschreef SEAL als een sprong in de richting van modellen die zichzelf letterlijk herschrijven. “MIT heeft zojuist een AI gebouwd die zijn eigen code kan herschrijven om slimmer te worden”, schreef hij. Onder verwijzing naar de belangrijkste resultaten van het artikel: een stijging van 40% in het onthouden van feiten en een betere prestatie dan GPT-4.1 met behulp van zelf gegenereerde gegevens – beschreef hij de bevindingen als een bevestiging dat “LLM’s die zichzelf verfijnen, niet langer sci-fi zijn.”
Het enthousiasme weerspiegelt een bredere honger in de AI-ruimte naar modellen die kunnen evolueren zonder voortdurende bijscholing of menselijk toezicht – vooral in snel veranderende domeinen of gepersonaliseerde gebruiksscenario’s.
Toekomstige richtingen en open vragen
In antwoord op vragen over het opschalen van SEAL naar grotere modellen en taken, wees Jyo op experimenten (bijlage B.7) die aantonen dat naarmate de modelgrootte toeneemt, ook hun zelfaanpassingsvermogen toeneemt. Hij vergeleek dit met studenten die hun studietechnieken in de loop van de tijd verbeterden: grotere modellen zijn simpelweg beter in het genereren van nuttige zelfbewerkingen.
Op de vraag of SEAL generaliseert naar nieuwe promptstijlen, bevestigde hij dat dit het geval is, daarbij verwijzend naar Tabel 10 in de paper. Hij erkende echter ook dat het team het vermogen van SEAL om naar geheel nieuwe domeinen of modelarchitecturen over te dragen nog niet heeft getest.
“SEAL is een eerste werk dat de mogelijkheden laat zien”, zei hij. “Maar er zijn nog veel meer tests nodig.” Hij voegde eraan toe dat de generalisatie kan verbeteren naarmate SEAL wordt getraind in een bredere taakverdeling.
Interessant genoeg ontdekte het team dat slechts een paar leerstappen voor versterking al tot meetbare prestatieverbeteringen leidden. “Dit is spannend,” merkte Jyo op, “omdat het betekent dat we met meer rekenkracht hopelijk nog meer verbeteringen kunnen realiseren.” Hij suggereerde dat toekomstige experimenten meer geavanceerde leermethoden voor versterking zouden kunnen onderzoeken dan ReSTEM, zoals Group Relative Policy Optimization (GRPO).
Naar meer adaptieve en agentische modellen
SEAL vertegenwoordigt een stap in de richting van modellen die in de loop van de tijd autonoom kunnen verbeteren, zowel door nieuwe kennis te integreren als door de manier waarop ze leren opnieuw te configureren. De auteurs voorzien toekomstige uitbreidingen waarbij SEAL zou kunnen helpen bij zelfvooropleiding, voortdurend leren en de ontwikkeling van agentische systemen – modellen die interageren met evoluerende omgevingen en zich stapsgewijs aanpassen.
In dergelijke omstandigheden zou een model SEAL kunnen gebruiken om na elke interactie gewichtsupdates te synthetiseren, waardoor gedrag of inzichten geleidelijk worden geïnternaliseerd. Dit zou de behoefte aan herhaald toezicht en handmatige interventie kunnen verminderen, vooral in gebieden met beperkte data of gespecialiseerde domeinen.
Naarmate de openbare webtekst verzadigd raakt en de verdere schaalvergroting van LLM’s wordt belemmerd door de beschikbaarheid van gegevens, kunnen zelfgestuurde benaderingen zoals SEAL een cruciale rol spelen bij het verleggen van de grenzen van wat LLM’s kunnen bereiken.
U kunt toegang krijgen tot het SEAL-project, inclusief code en verdere documentatie, op: https://jyopari.github.io/posts/seal




