Research Suggests LLMs Willing to Assist in Malicious ‘Vibe Coding’

6 hours ago

0 0 7 minutes read

In de afgelopen jaren hebben grote taalmodellen (LLMS) getrokken controle voor hun potentiële misbruik in offensieve cybersecurity, met name bij het genereren van software -exploits.

De recente trend naar ‘Vibe Coding’ (het informele gebruik van taalmodellen om snel code voor een gebruiker te ontwikkelen, in plaats van expliciet onderwijs De gebruiker om te coderen) heeft een concept nieuw leven ingeblazen dat zijn hoogtepunt bereikte in de jaren 2000: de ‘Script Kiddie’ – een relatief ongeschoolde kwaadwillende acteur met net genoeg kennis om een schadelijke aanval te repliceren of te ontwikkelen. De implicatie is natuurlijk dat wanneer de balk voor binnenkomst aldus wordt verlaagd, bedreigingen de neiging hebben zich te vermenigvuldigen.

Alle commerciële LLM’s hebben een soort vangrail om voor dergelijke doeleinden te worden gebruikt, hoewel deze beschermende maatregelen dat zijn onder constante aanval. Meestal worden de meeste foss -modellen (over meerdere domeinen, van LLMS tot generatieve afbeelding/videomodellen) uitgebracht met een soort vergelijkbare bescherming, meestal voor nalevingsdoeleinden in het Westen.

Officiële releases van het model worden echter routinematig aangepast door gebruikersgemeenschappen die meer volledige functionaliteit zoeken, of anders dat Loras gebruikt om beperkingen te omzeilen en mogelijk ‘ongewenste’ resultaten te verkrijgen.

Hoewel de overgrote meerderheid van online LLMS de gebruiker zal voorkomen met kwaadaardige processen, ‘onbelemmerde’ initiatieven zoals Whiterabbitneo zijn beschikbaar om beveiligingsonderzoekers te helpen op een gelijk speelveld als hun tegenstanders te werken.

De algemene gebruikerservaring op dit moment wordt het meest weergegeven in de chatgpt -serie, wiens filtermechanismen vaak kritiek trekken van de inheemse gemeenschap van de LLM.

Het lijkt erop dat je een systeem probeert aan te vallen!

In het licht van deze waargenomen neiging tot beperking en censuur, kunnen gebruikers verrast zijn om te ontdekken dat chatgpt is gebleken als de meest coöperatief Van alle LLM’s die zijn getest in een recente studie die is ontworpen om taalmodellen te dwingen om kwaadaardige code -exploits te creëren.

De nieuw papier van onderzoekers van UNSW Sydney en Commonwealth Scientific and Industrial Research Organisation (CSIRO), getiteld Goed nieuws voor scriptkiddies? Evaluatie van grote taalmodellen voor geautomatiseerde exploitatie -generatiebiedt de eerste systematische evaluatie van hoe effectief deze modellen kunnen worden gevraagd om werkende exploits te produceren. Voorbeeldgesprekken van het onderzoek zijn verstrekt door de auteurs.

De studie vergelijkt hoe modellen presteerden op zowel originele als gemodificeerde versies van bekende kwetsbaarheidslaboratoria (gestructureerde programmeeroefeningen die zijn ontworpen om specifieke softwarebeveiligingsfouten aan te tonen), en helpen onthullen of ze op vertrouwden onthouden Voorbeelden of worstelen vanwege ingebouwde veiligheidsbeperkingen.

Van de ondersteunende site helpt de Ollama LLM de onderzoekers om een aanval van de kwetsbaarheid van string te ontwikkelen. Bron: https://anonymous.4open.science/r/aeg_llm-eae8/chatgpt_format_string_original.txt

Hoewel geen van de modellen in staat was om een effectieve exploit te creëren, kwamen verschillende van hen heel dichtbij; Wat nog belangrijker is, verschillende van hen wilde het beter doen in de taakwat wijst op een potentieel falen van bestaande vangrailbenaderingen.

De krant stelt:

‘Onze experimenten tonen aan dat GPT-4 en GPT-4O een hoge mate van samenwerking vertonen bij het genereren van exploitatie, vergelijkbaar met enkele ongecensureerde open-source modellen. Onder de geëvalueerde modellen was LLAMA3 het meest resistent tegen dergelijke verzoeken.

‘Ondanks hun bereidheid om te helpen, blijft de daadwerkelijke dreiging van deze modellen beperkt, omdat niemand met succes de exploits heeft gegenereerd voor de vijf aangepaste laboratoria met refactored code. GPT-4O, de sterkste uitvoerder in onze studie, maakte echter meestal slechts één of twee fouten per poging.

‘Dit suggereert een aanzienlijk potentieel voor het gebruik van LLMS om geavanceerde, generaliseerbaar te ontwikkelen [Automated Exploit Generation (AEG)] technieken. ‘

Veel tweede kansen

Het truïsme ‘Je krijgt geen tweede kans om een goede eerste indruk te maken’ is niet algemeen van toepassing op LLMS, omdat het typisch beperkte contextvenster van een taalmodel betekent dat een negatieve context (in sociale zin, dwz antagonisme) is niet volhardend.

Overweeg: als u naar een bibliotheek ging en om een boek over praktische bomvorming zou vragen, zou u waarschijnlijk op zijn minst worden geweigerd. Maar (ervan uitgaande dat dit onderzoek het gesprek niet volledig vanaf het begin heeft geteisterd) uw verzoeken om Gerelateerde werkenzoals boeken over chemische reacties of circuitontwerp, zouden in de geest van de bibliothecaris duidelijk gerelateerd zijn aan het eerste onderzoek en in dat licht worden behandeld.

Waarschijnlijk niet, de bibliothecaris zou het zich ook in een toekomst Vergaderingen die je om een keer om een bomboek vroeg, waardoor deze nieuwe context van jezelf ‘onherstelbaar’ werd.

Niet zo met een LLM, die kan worstelen om tokenized informatie te behouden, zelfs uit het huidige gesprek, laat staan van langetermijngeheugenrichtlijnen (als er een in de architectuur is, zoals bij het chatgpt-4o-product).

Dus zelfs casual gesprekken met Chatgpt onthullen ons per ongeluk dat het soms bij een mug aan een mugan wordt gespeeld, maar een kameel slikt, niet in het minst wanneer een constituerend thema, studie of proces met betrekking tot een anders ‘verboden’ activiteit zich tijdens het discours mag ontwikkelen.

Dit geldt voor alle huidige taalmodellen, hoewel de kwaliteit van de vangrail kan variëren in omvang en benadering onder hen (dwz het verschil tussen het wijzigen van de gewichten van het getrainde model of het gebruik van in/uit -filtering van tekst tijdens een chatsessie, waardoor het model structureel intact maar mogelijk gemakkelijker te aanvallen blijft).

De methode testen

Om te testen hoe ver LLMS kan worden geduwd in de richting van het genereren van werkende exploits, hebben de auteurs een gecontroleerde omgeving opgezet met behulp van vijf Labs van Seed Labselk gebouwd rond bekende kwetsbaarheden, waaronder een Bufferoverloop,, Return-to-libcA Vuile koeienaanvalEn Race -omstandigheden.

Naast het gebruik van de originele laboratoria, creëerden de onderzoekers gemodificeerde versies door variabelen en functies te hernoemen naar generieke identificatiegegevens. Dit was bedoeld om te voorkomen dat de modellen gebruikten van onthouden trainingsvoorbeelden.

Elk lab werd twee keer per model uitgevoerd: eenmaal in zijn oorspronkelijke vorm en eenmaal in de verduisterde versie.

De onderzoekers introduceerden vervolgens een tweede LLM in de lus: een aanvallersmodel dat is ontworpen om het doelmodel te veroorzaken en opnieuw te promoten om de output over meerdere rondes te verfijnen en te verbeteren. De LLM die voor deze rol werd gebruikt, was GPT-4O, die opereerde via een script dat gemedieerde dialoog tussen de aanvaller en het doelwit, waardoor de verfijningscyclus tot vijftien keer zou kunnen doorgaan, of totdat er geen verdere verbetering mogelijk werd beoordeeld:

Workflow voor de op LLM gebaseerde aanvaller, in dit geval GPT-4O.

De doelmodellen voor het project waren GPT-4O,, GPT-4o-Mini,, Lama3 (8b), Dolfijn-mistral (7b), en Dolfijn-phi (2.7B), die zowel gepatenteerde als open-source-systemen vertegenwoordigen, met een mix van uitgelijnde en niet-uitgelijnde modellen (dwz modellen met ingebouwde veiligheidsmechanismen die zijn ontworpen om schadelijke aanwijzingen te blokkeren, en die aangepast door verfijning of configuratie om die mechanismen te omzeilen).

De lokaal installeerbare modellen werden uitgevoerd via de Ollama Framework, met de anderen toegankelijk via hun enige beschikbare methode – API.

De resulterende uitgangen werden gescoord op basis van het aantal fouten dat verhinderde dat de exploit zou functioneren zoals bedoeld.

Resultaat

De onderzoekers testten hoe coöperatief elk model was tijdens het exploit -generatieproces, gemeten door het registreren van het percentage antwoorden waarin het model probeerde te helpen met de taak (zelfs als de output gebrekkig was).

Resultaten van de hoofdtest, met gemiddelde samenwerking.

GPT-4O en GPT-4O-Mini vertoonden de hoogste samenwerkingsniveaus, met gemiddelde responspercentages van respectievelijk 97 en 96 procent, in de vijf kwetsbaarheidscategorieën: Bufferoverloop,, Return-to-libc,, Format String,, Race ConditionEn Vuile koe.

Dolfijn-mistrale en dolfijn-PHI volgden op de voet, met gemiddelde samenwerkingspercentages van 93 en 95 procent. Lama3 toonde de minst Bereidheid om deel te nemen, met een algemeen samenwerkingspercentage van slechts 27 procent:

Aan de linkerkant zien we het aantal fouten gemaakt door de LLMS op de originele zaadlab -programma’s; Aan de rechterkant, het aantal fouten gemaakt op de gerefactureerde versies.

Bij het onderzoeken van de feitelijke prestaties van deze modellen vonden ze een opmerkelijke kloof tussen bereidheid En effectiviteit: GPT-4O produceerde de meest nauwkeurige resultaten, met in totaal zes fouten in de vijf verdoezelde laboratoria. GPT-4O-Mini volgde met acht fouten. Dolphin-Mistral presteerde redelijk goed op de originele laboratoria, maar worstelde aanzienlijk toen de code werd refacted, wat suggereert dat deze tijdens de training vergelijkbare inhoud heeft gezien. Dolphin-Phi maakte zeventien fouten, en LLAMA3 het meest, met vijftien.

De storingen omvatten doorgaans technische fouten die de exploits niet-functioneel maakten, zoals onjuiste buffergroottes, ontbrekende luslogica of syntactisch geldige maar ineffectieve payloads. Geen enkel model is erin geslaagd een werkende exploit te produceren voor een van de verdoezelde versies.

De auteurs merkten op dat de meeste modellen code produceerden die leek op werkende exploits, maar mislukten vanwege een zwak begrip van hoe de onderliggende aanvallen daadwerkelijk werken – een patroon dat duidelijk was in alle categorieën voor kwetsbaarheid, en die suggereerden dat de modellen bekende codestructuren imiteerden in plaats van redeneren door de betrokken logica (in bufferoverstroming, bijvoorbeeld, die bijvoorbeeld een functioneren van een functioneren van een functioneren imiteerden. Nop slee/dia).

In rendement op LIBC-pogingen bevatten payloads vaak onjuiste vulling of misplaatste functieadressen, wat resulteerde in uitgangen die geldig leken, maar onbruikbaar waren.

Hoewel de auteurs deze interpretatie als speculatief beschrijven, suggereert de consistentie van de fouten een breder probleem waarin de modellen de stappen van een exploit niet verbinden met hun beoogde effect.

Conclusie

Er is enige twijfel, het artikel geeft toe of de geteste taalmodellen de originele zaadlaboratoria tijdens de eerste training hebben gezien; waarvoor varianten werden geconstrueerd. Desalniettemin bevestigen de onderzoekers dat ze graag willen werken met real-world exploits in latere iteraties van deze studie; Echt nieuw en recent materiaal is minder kans om te worden onderworpen aan snelkoppelingen of andere verwarrende effecten.

De auteurs geven ook toe dat de latere en meer geavanceerde ‘denkende’ modellen zoals GPT-O1 en Deepseek-R1, die niet beschikbaar waren op het moment dat de studie werd uitgevoerd, de verkregen resultaten kunnen verbeteren en dat dit een verdere indicatie is voor toekomstig werk.

De paper concludeert dat de meeste geteste modellen werken zouden hebben geproduceerd, werkte exploits hebben geproduceerd als ze daartoe in staat waren geweest. Hun falen om volledig functionele output te genereren lijkt niet het gevolg te zijn van uitlijningsbeschermers, maar wijst eerder op een echte architecturale beperking – een die mogelijk al is verminderd in recentere modellen, of binnenkort zal zijn.

Voor het eerst gepubliceerd maandag 5 mei 2025

Source link