AI

OpenAGI emerges from stealth with an AI agent that it claims crushes OpenAI and Anthropic

Een stealth-startup voor kunstmatige intelligentie, opgericht door een MIT-onderzoeker, kwam vanochtend met een ambitieuze claim naar voren: het nieuwe AI-model kan computers beter besturen dan systemen die zijn gebouwd door OpenAI En Antropisch – tegen een fractie van de kosten.

OpenAGIonder leiding van de algemeen directeur Zengyi Qinuitgegeven Luxeen basismodel dat is ontworpen om computers autonoom te laten werken door schermafbeeldingen te interpreteren en acties uit te voeren in desktopapplicaties. Het in San Francisco gevestigde bedrijf zegt dat Lux een succespercentage van 83,6 procent behaalt Online-Mind2Webeen benchmark die de meest rigoureuze test in de sector is geworden voor het evalueren van AI-agents die computers besturen.

Die score is een aanzienlijke sprong voorwaarts ten opzichte van de toonaangevende modellen van goed gefinancierde concurrenten. OpenAI’s Exploitantuitgebracht in januari, scoort 61,3 procent op dezelfde benchmark. Antropische Claude Computergebruik behaalt 56,3 procent.

“Traditionele LLM-training voegt een grote hoeveelheid tekstcorpus toe aan het model. Het model leert tekst produceren”, zei Qin in een exclusief interview met VentureBeat. “Ons model leert daarentegen acties te produceren. Het model is getraind met een grote hoeveelheid computerscreenshots en actiereeksen, waardoor het acties kan produceren om de computer te besturen.”

De aankondiging komt op een cruciaal moment voor de AI-industrie. Zowel technologiegiganten als startups hebben miljarden dollars gestoken in de ontwikkeling van autonome agenten die door software kunnen navigeren, reizen kunnen boeken, formulieren kunnen invullen en complexe workflows kunnen uitvoeren. OpenAI, Antropisch, GooglenEn Microsoft hebben het afgelopen jaar allemaal agentproducten uitgebracht of aangekondigd, waarbij ze erop gokken dat computergestuurde AI net zo transformatief zal worden als chatbots.

Toch heeft onafhankelijk onderzoek twijfel doen rijzen over de vraag of de huidige agenten wel zo capabel zijn als hun makers suggereren.

Waarom universiteitsonderzoekers een strengere benchmark hebben ontwikkeld om AI-agenten te testen – en wat ze ontdekten

De Online-Mind2Web-benchmarkontwikkeld door onderzoekers van de Ohio State University en de University of California, Berkeley, is specifiek ontworpen om de kloof tussen marketingclaims en daadwerkelijke prestaties bloot te leggen.

Gepubliceerd in april en geaccepteerd voor de Conferentie over taalmodellering 2025omvat de benchmark 300 verschillende taken op 136 echte websites – alles van het boeken van vluchten tot het navigeren door complexe e-commerce-kassa’s. In tegenstelling tot eerdere benchmarks waarbij delen van websites in de cache werden opgeslagen, test Online-Mind2Web agenten in live online omgevingen waar pagina’s dynamisch veranderen en onverwachte obstakels verschijnen.

De resultaten schetsten volgens de onderzoekers “een heel ander beeld van de competentie van de huidige agenten, wat duidt op overoptimisme in eerder gerapporteerde resultaten.”

Toen het Ohio State-team vijf toonaangevende webagenten testte met zorgvuldige menselijke evaluatie, ontdekten ze dat veel recente systemen – ondanks zware investeringen en marketingophef – niet beter presteerden dan Zie Acteen relatief eenvoudige agent uitgebracht in januari 2024. Zelfs OpenAI’s Exploitantde best presterende onder de commerciële aanbiedingen in hun onderzoek, behaalden slechts 61 procent succes.

See also  Lovable becomes a unicorn with $200M Series A just 8 months after launch

“Het leek erop dat zeer capabele en praktische agenten inderdaad slechts enkele maanden verwijderd waren”, schreven de onderzoekers in een blogpost bij hun papier. “We zijn ons er echter ook terdege van bewust dat er nog steeds veel fundamentele hiaten zijn in het onderzoek naar volledig autonome agenten, en dat de huidige agenten waarschijnlijk niet zo competent zijn als de gerapporteerde benchmarkcijfers kunnen weergeven.”

De benchmark heeft terrein gewonnen als industriestandaard, met een openbaar scorebord dat wordt gehost op Hugging Face en de inzendingen van onderzoeksgroepen en bedrijven volgt.

Hoe OpenAGI zijn AI trainde om actie te ondernemen in plaats van alleen maar tekst te genereren

Het beweerde prestatievoordeel van OpenAGI komt voort uit wat het bedrijf noemt “Agentic Active Voortraining”, een trainingsmethodologie die fundamenteel verschilt van de manier waarop de meeste grote taalmodellen leren.

Conventionele taalmodellen trainen op enorme tekstcorpora en leren het volgende woord in een reeks te voorspellen. De resulterende systemen blinken uit in het genereren van samenhangende tekst, maar zijn niet ontworpen om acties te ondernemen in grafische omgevingen.

Luxvolgens Qin, kiest voor een andere aanpak. Het model traint op computerschermafbeeldingen in combinatie met actiescènes, leert visuele interfaces te interpreteren en te bepalen welke klikken, toetsaanslagen en navigatiestappen een bepaald doel zullen bereiken.

“Door de actie kan het model actief de computeromgeving verkennen, en een dergelijke verkenning genereert nieuwe kennis, die vervolgens wordt teruggekoppeld naar het model voor training”, vertelde Qin aan VentureBeat. “Dit is een natuurlijk zelfontwikkelend proces, waarbij een beter model betere verkenning oplevert, betere verkenning betere kennis oplevert en betere kennis tot een beter model leidt.”

Deze zichzelf versterkende trainingslus zou, als deze functioneert zoals beschreven, kunnen helpen verklaren hoe een kleiner team resultaten kan bereiken die grotere organisaties ontgaan. In plaats van steeds grotere statische datasets te vereisen, zou de aanpak het model in staat stellen voortdurend te verbeteren door zijn eigen trainingsgegevens te genereren door middel van verkenning.

OpenAGI claimt ook aanzienlijke kostenvoordelen. Het bedrijf zegt dat Lux ongeveer een tiende van de kosten van grensmodellen van OpenAI en Anthropic opereert, terwijl taken sneller worden uitgevoerd.

In tegenstelling tot concurrenten die alleen browsers gebruiken, kan Lux Slack, Excel en andere desktopapplicaties besturen

Een cruciaal onderscheid in de aankondiging van OpenAGI: Lux kan applicaties besturen via een volledig desktopbesturingssysteem, niet alleen via webbrowsers.

De meeste in de handel verkrijgbare middelen voor computergebruik, inclusief vroege versies van Claude van Anthropic Computergebruikricht zich vooral op browsergebaseerde taken. Die beperking sluit grote categorieën productiviteitswerk uit dat plaatsvindt in desktoptoepassingen: spreadsheets in Microsoft Excel, communicatie in Slack, ontwerpwerk in Adobe-producten, codebewerking in ontwikkelomgevingen.

See also  Candace Owens claims there is a Zionist conspiracy against Tucker Carlson

OpenAGI zegt dat Lux door deze native applicaties kan navigeren, een mogelijkheid die de bereikbare markt voor computergebruiksmiddelen aanzienlijk zou vergroten. Het bedrijf brengt naast het model een ontwikkelkit voor ontwikkelaars uit, waarmee derden applicaties bovenop Lux kunnen bouwen.

Het bedrijf werkt ook mee Intel optimaliseren Lux voor edge-apparaten, waardoor het model lokaal op laptops en werkstations zou kunnen draaien in plaats van dat er een cloudinfrastructuur nodig is. Dat partnerschap zou de zorgen van bedrijven over het verzenden van gevoelige schermgegevens naar externe servers kunnen wegnemen.

“We werken samen met Intel om ons model op edge-apparaten te optimaliseren, waardoor het het beste computergebruiksmodel op het apparaat wordt”, aldus Qin.

Het bedrijf bevestigde dat het verkennende gesprekken voert met AMD en Microsoft over aanvullende partnerschappen.

Wat gebeurt er als u een AI-agent vraagt ​​uw bankgegevens te kopiëren?

Computergebruiksagenten brengen nieuwe veiligheidsuitdagingen met zich mee die zich niet voordoen bij conventionele chatbots. Een AI-systeem dat in staat is om op knoppen te klikken, tekst in te voeren en door applicaties te navigeren, kan, als het verkeerd wordt gericht, aanzienlijke schade aanrichten: geld overmaken, bestanden verwijderen of gevoelige informatie exfiltreren.

OpenAGI zegt dat het veiligheidsmechanismen rechtstreeks in Lux heeft ingebouwd. Wanneer het model verzoeken tegenkomt die het veiligheidsbeleid schenden, weigert het door te gaan en waarschuwt het de gebruiker.

In een voorbeeld van het bedrijf, toen een gebruiker het model vroeg om “mijn bankgegevens te kopiëren en deze in een nieuw Google-document te plakken”, antwoordde Lux met een interne redeneerstap: “De gebruiker vraagt ​​mij om de bankgegevens te kopiëren, die gevoelige informatie zijn. Op basis van het veiligheidsbeleid kan ik deze actie niet uitvoeren.” Het model gaf vervolgens een waarschuwing aan de gebruiker in plaats van het potentieel gevaarlijke verzoek uit te voeren.

Dergelijke waarborgen zullen aan intensieve controle worden onderworpen naarmate het aantal computergebruikers toeneemt. Beveiligingsonderzoekers hebben al snelle injectie-aanvallen op vroege agentsystemen aangetoond, waarbij kwaadaardige instructies ingebed in websites of documenten het gedrag van een agent kunnen kapen. Of de veiligheidsmechanismen van Lux vijandige aanvallen kunnen weerstaan, moet nog worden getest door onafhankelijke onderzoekers.

De MIT-onderzoeker die twee van de meest gedownloade AI-modellen van GitHub heeft gebouwd

Qin brengt een ongebruikelijke combinatie van academische kwalificaties en ondernemerservaring naar OpenAGI.

Hij promoveerde in 2025 aan het Massachusetts Institute of Technology, waar zijn onderzoek zich richtte op computer vision, robotica en machinaal leren. Zijn academische werk verscheen op toplocaties, waaronder de Conferentie over computervisie en patroonherkenningde Internationale conferentie over leerrepresentatiesen de Internationale conferentie over machinaal leren.

Voordat hij OpenAGI oprichtte, bouwde Qin verschillende algemeen aanvaarde AI-systemen. JetMoEeen groot taalmodel waarop hij de ontwikkeling leidde, toonde aan dat een goed presterend model van de grond af aan kon worden getraind voor minder dan 100.000 dollar – een fractie van de tientallen miljoenen die normaal gesproken nodig zijn. Het model presteerde beter dan dat van Meta LLaMA2-7B op standaardbenchmarks, volgens een technisch rapport dat de aandacht trok van het Computer Science and Artificial Intelligence Laboratory van MIT.

See also  Leonardo DiCaprio 'Raging' about 'Epstein-Stijl Network' Claims

Zijn eerdere open-sourceprojecten bereikten een opmerkelijke adoptie. OpenVoiceeen model voor het klonen van stemmen, verzamelde ongeveer 35.000 sterren op GitHub en stond qua populariteit in de top 0,03 procent van open-sourceprojecten. MeloTTSeen tekst-naar-spraak-systeem, is meer dan 19 miljoen keer gedownload, waardoor het een van de meest gebruikte audio-AI-modellen is sinds de release in 2024.

Qin was ook medeoprichter MijnShelleen AI-agentplatform dat zes miljoen gebruikers heeft aangetrokken die gezamenlijk meer dan 200.000 AI-agenten hebben gebouwd. Volgens het bedrijf hebben gebruikers meer dan een miljard interacties gehad met agenten op het platform.

Neem deel aan de miljardenrace om AI te bouwen die uw computer bestuurt

De markt voor computergebruiksagenten heeft het afgelopen jaar grote belangstelling getrokken van investeerders en technologiegiganten.

OpenAI vrijgegeven Exploitant in januari, waardoor gebruikers een AI kunnen instrueren om taken op internet uit te voeren. Anthropic heeft Claude verder ontwikkeld Computergebruiken positioneert het als een kerncapaciteit van zijn Claude-modelfamilie. Google heeft agentfuncties in zijn Tweeling producten. Microsoft heeft agentmogelijkheden geïntegreerd in zijn gehele netwerk Tweede piloot aanbiedingen en Ramen.

Toch blijft de markt in opkomst. De acceptatie door ondernemingen wordt beperkt door zorgen over de betrouwbaarheid, beveiliging en de mogelijkheid om edge-cases af te handelen die vaak voorkomen in echte workflows. De prestatieverschillen die worden onthuld door benchmarks zoals Online-Mind2Web suggereren dat de huidige systemen mogelijk niet klaar zijn voor bedrijfskritische toepassingen.

OpenAGI betreedt dit competitieve landschap als een onafhankelijk alternatief, waarbij superieure benchmarkprestaties en lagere kosten worden gepositioneerd tegenover de enorme middelen van zijn goed gefinancierde rivalen. Het Lux-model en de ontwikkelaars-SDK van het bedrijf zijn vanaf vandaag beschikbaar.

Of OpenAGI de dominantie van benchmarks kan vertalen naar betrouwbaarheid in de echte wereld blijft de centrale vraag. De AI-industrie heeft een lange geschiedenis van indrukwekkende demo’s die haperen in de productie, van laboratoriumresultaten die afbrokkelen in de chaos van het daadwerkelijke gebruik. Benchmarks meten wat ze meten, en de afstand tussen een gecontroleerde test en een werkdag van acht uur vol randgevallen, uitzonderingen en verrassingen kan enorm zijn.

Maar als Lux in het wild presteert zoals het in het laboratorium presteert, reiken de implicaties veel verder dan het succes van één startup. Het zou erop kunnen wijzen dat de weg naar capabele AI-agenten niet via de grootste chequeboekjes loopt, maar via de slimste architecturen – dat een klein team met de juiste ideeën de reuzen te slim af kan zijn.

De technologie-industrie heeft dat verhaal eerder gezien. Het blijft zelden lang waar.

Source link

Back to top button