Why Large Language Models Skip Instructions and How to Address the Issue

1 day ago

0 0 8 minutes read

Grote taalmodellen (LLMS) zijn snel onmisbare kunstmatige intelligentie (AI) tools geworden, die applicaties van chatbots en contentcreatie naar coderingshulp wordt gestimuleerd. Ondanks hun indrukwekkende mogelijkheden, is een veel voorkomende uitdagingsgebruikers die deze modellen soms delen van de instructies die ze ontvangen soms overslaan, vooral wanneer die instructies lang zijn of meerdere stappen omvatten. Dit overslaan leidt tot onvolledige of onnauwkeurige uitgangen, die verwarring kunnen veroorzaken en het vertrouwen in AI -systemen kunnen eroderen. Begrijpen waarom LLMS -instructies overslaan en hoe dit probleem kan worden aangepakt, is essentieel voor gebruikers die op deze modellen vertrouwen voor precieze en betrouwbare resultaten.

Waarom slaat LLMS instructies over?

LLMS werkt door invoertekst te lezen als een reeks tokens. Tokens zijn de kleine stukjes waarin tekst is verdeeld. Het model verwerkt deze tokens de ene na de ander, van start tot finish. Dit betekent dat instructies aan het begin van de input de neiging hebben om meer aandacht te krijgen. Latere instructies kunnen minder focus krijgen en kunnen worden genegeerd.

Dit gebeurt omdat LLMS een beperkte aandachtscapaciteit heeft. Aandacht is het mechanisme dat modellen gebruiken om te beslissen welke invoeronderdelen essentieel zijn bij het genereren van antwoorden. Wanneer de invoer kort is, werkt de aandacht goed. Maar de aandacht wordt minder naarmate de input langer wordt of instructies complex worden. Dit verzwakt de focus op latere delen, waardoor overgaat.

Bovendien verhogen veel instructies meteen de complexiteit. Wanneer instructies overlappen of conflicten, kunnen modellen in de war raken. Ze kunnen proberen alles te beantwoorden, maar vage of tegenstrijdige reacties produceren. Dit resulteert vaak in het missen van enkele instructies.

LLMS delen ook enkele mensachtige limieten. Mensen kunnen bijvoorbeeld de focus verliezen bij het lezen van lange of repetitieve teksten. Evenzo kunnen LLMS vergeten Latere instructies die ze meer tokens verwerken. Dit focusverlies maakt deel uit van het ontwerp en de limieten van het model.

Een andere reden is hoe LLMS wordt getraind. Ze zien veel voorbeelden van eenvoudige instructies, maar minder complexe, meerstappen. Daarom volgen modellen de voorkeur aan het volgen van eenvoudigere instructies die vaker voorkomen in hun trainingsgegevens. Door deze bias slaat ze complexe instructies over. Ook beperken tokenlimieten de hoeveelheid invoer die het model kan verwerken. Wanneer invoer deze limieten overschrijdt, worden instructies buiten de limiet genegeerd.

Voorbeeld: Stel dat u een LLM Five -instructies geeft in een enkele prompt. Het model kan zich vooral richten op de eerste twee instructies en de laatste drie gedeeltelijk of volledig negeren. Dit heeft direct invloed op hoe het model opeenvolgend tokens verwerkt en zijn aandachtsbeperkingen.

Hoe goed LLMS sequentiële instructies beheren op basis van SIFO 2024 -bevindingen

Recente studies hebben zorgvuldig bekeken hoe goed LLMS verschillende instructies na de ander volgen. Een belangrijke studie is de Opeenvolgende instructies volgende (SIFO) Benchmark 2024. Deze benchmark-testmodellen op taken die stapsgewijze voltooiing van instructies moeten voltooien, zoals tekstaanpassing, vragen van vragen, wiskunde en beveiligingsregels. Elke instructie in de volgorde hangt af van de juiste voltooiing van de vóór deze. Deze aanpak helpt te controleren of het model de hele reeks goed heeft gevolgd.

De resultaten van SIFO laten zien dat zelfs de beste LLM’s, zoals GPT-4 en Claude-3, het vaak moeilijk vinden om alle instructies correct te voltooien. Dit is vooral het geval wanneer de instructies lang of ingewikkeld zijn. Het onderzoek wijst op drie hoofdproblemen waarmee LLMS wordt geconfronteerd met de volgende instructies:

Begrip: Volledig grijpen wat elke instructie betekent.

Redenering: Logisch verschillende instructies aan elkaar koppelen om het antwoord duidelijk te houden.

Betrouwbare uitvoer: Volledige en nauwkeurige antwoorden produceren, over alle gegeven instructies.

Technieken zoals snelle engineering en verfijning helpen bij het verbeteren van hoe goed modellen de instructies volgen. Deze methoden helpen echter niet volledig bij het probleem van het overslaan van instructies. Het gebruik van versterkingsonderwijs met menselijke feedback (RLHF) verbetert het vermogen van het model om op de juiste manier te reageren verder. Toch hebben modellen moeite wanneer instructies veel stappen vereisen of zeer complex zijn.

De studie toont ook aan dat LLMS het beste werkt wanneer instructies eenvoudig, duidelijk gescheiden en goed georganiseerd zijn. Wanneer taken lange redeneerketens of vele stappen nodig hebben, daalt het modelnauwkeurigheid. Deze bevindingen helpen betere manieren voor te stellen om LLM’s goed te gebruiken en de noodzaak te tonen om sterkere modellen te bouwen die de instructies na de ander echt kunnen volgen.

Waarom LLMS instructies overslaan: technische uitdagingen en praktische overwegingen

LLMS kan instructies overslaan vanwege verschillende technische en praktische factoren die zijn geworteld in hoe ze invoertekst verwerken en coderen.

Beperkte aandachtsspanne en informatieveldheid

Llms vertrouwen op Aandachtsmechanismen om belang toe te wijzen aan verschillende inputonderdelen. Wanneer de aanwijzingen beknopt zijn, is de aandacht van het model gericht en effectief. Naarmate de prompt echter langer of meer repetitief wordt, wordt de aandacht verwaterd en worden latere tokens of instructies minder focus, waardoor de kans dat ze over het hoofd worden gezien, toenemen. Dit fenomeen, bekend als informatieverdunning, is vooral problematisch voor instructies die laat in een prompt lijken. Bovendien hebben modellen Vaste tokenlimieten (bijv. 2048 tokens); Elke tekst buiten deze drempel wordt afgekapt en genegeerd, waardoor instructies aan het einde volledig worden overgeslagen.

Uitvoercomplexiteit en dubbelzinnigheid

LLMS kan worstelen met het uitvoeren van duidelijke en volledige antwoorden wanneer ze worden geconfronteerd met meerdere of tegenstrijdige instructies. Het model kan gedeeltelijke of vage antwoorden genereren om tegenstrijdigheden of verwarring te voorkomen, waardoor sommige instructies effectief worden weggelaten. Ambiguïteit in hoe instructies worden geformuleerd, vormt ook uitdagingen: onduidelijke of onnauwkeurige aanwijzingen maken het voor het model moeilijk om de beoogde acties te bepalen, waardoor het risico op het overslaan of verkeerd interpreteren van delen van de input.

Snel ontwerp- en opmaakgevoeligheid

De structuur en de formulering van prompts spelen ook een cruciale rol bij het volgen van instructies. Onderzoek toont aan dat zelfs kleine veranderingen in hoe instructies worden geschreven of opgemaakt, aanzienlijk kunnen beïnvloeden of het model zich aan hen houdt.

Slecht gestructureerde aanwijzingen, zonder duidelijke scheiding, opsommingstekens of nummering, maken het voor het model moeilijker om onderscheid te maken tussen stappen, waardoor de kans op samenvoegen of weglaten instructies vergroot. De interne weergave van de prompt van het model is zeer gevoelig voor deze variaties, wat verklaart waarom snelle engineering (herformulerings- of herstructureringsvoorstellingen) de therapietrouw aanzienlijk kan verbeteren, zelfs als de onderliggende inhoud hetzelfde blijft.

Hoe instructies op te lossen Skipping in LLMS

Het verbeteren van het vermogen van LLMS om instructies nauwkeurig te volgen, is essentieel voor het produceren van betrouwbare en precieze resultaten. De volgende best practices moeten worden overwogen om de instructie over te slaan en de kwaliteit van door AI gegenereerde reacties te verbeteren:

Taken moeten worden onderverdeeld in kleinere delen

Lange of multi-stappen aanwijzingen moeten worden onderverdeeld in kleinere, meer gerichte segmenten. Door één of twee instructies tegelijk te verstrekken, kan het model betere aandacht behouden en vermindert de kans op het missen van stappen.

Voorbeeld

In plaats van alle instructies te combineren in een enkele prompt, zoals ‘Vat de tekst samen, vermeld de hoofdpunten, stel verbeteringen voor en vertaal deze naar het Frans”Elke instructie moet afzonderlijk of in kleinere groepen worden gepresenteerd.

Instructies moeten worden opgemaakt met genummerde lijsten of opsommingstekens

Het organiseren van instructies met expliciete opmaak, zoals genummerde lijsten of opsommingstekens, helpt aan dat elk item een individuele taak is. Deze duidelijkheid verhoogt de kansen dat het antwoord alle instructies zal aanpakken.

Voorbeeld

Vat de volgende tekst samen.
Maak een lijst van de belangrijkste punten.
Verbeteringen voorstellen.

Dergelijke opmaak biedt visuele aanwijzingen die het model helpen bij het herkennen en scheiden van verschillende taken binnen een prompt.

Instructies moeten expliciet en ondubbelzinnig zijn

Het is essentieel dat instructies duidelijk de vereiste vermelden om elke stap te voltooien. Dubbelzinnige of vage taal moet worden vermeden. De prompt moet expliciet aangeven dat er geen stappen kunnen worden overgeslagen.

Voorbeeld

“Voltooi alle drie de onderstaande taken. Het overslaan van stappen is niet acceptabel.”

Directe verklaringen zoals deze verminderen de verwarring en moedigen het model aan om volledige antwoorden te geven.

Afzonderlijke aanwijzingen moeten worden gebruikt voor high-stakes of kritieke taken

Elke instructie moet worden ingediend als een individuele prompt voor taken waarbij nauwkeurigheid en volledigheid van cruciaal belang zijn. Hoewel deze benadering de interactietijd kan verhogen, verbetert het de kans op het verkrijgen van volledige en precieze uitgangen aanzienlijk. Deze methode zorgt ervoor dat het model zich volledig op één taak tegelijk richt, waardoor het risico op gemiste instructies wordt verminderd.

Geavanceerde strategieën om de volledigheid en efficiëntie in evenwicht te brengen

Wachten op een reactie na elke instructie kan voor gebruikers tijdrovend zijn. Om de efficiëntie te verbeteren met behoud van de duidelijkheid en het verminderen van overgeslagen instructies, kunnen de volgende geavanceerde prompttechnieken effectief zijn:

Batch -instructies met duidelijke opmaak en expliciete labels

Meerdere gerelateerde instructies kunnen worden gecombineerd in een enkele prompt, maar elk moet worden gescheiden met nummering of koppen. De prompt moet het model ook instrueren om volledig en in volgorde op alle instructies te reageren.

Voorbeeldprompt

Voltooi alle volgende taken zorgvuldig zonder iets over te slaan:

Vat de onderstaande tekst samen.
Maak een lijst van de belangrijkste punten uit uw samenvatting.
Stel verbeteringen voor op basis van de belangrijkste punten.
Vertaal de verbeterde tekst in het Frans.

Stijlstijlprompts in de handel

Chain-of Thought-prompter-begeleidt het model om te redeneren door elke taakstap voordat een antwoord wordt gegeven. Het model aanmoedigen om instructies opeenvolgend binnen een enkele reactie te verwerken, zorgt ervoor dat er geen stappen over het hoofd worden gezien, waardoor de kans op het overslaan van instructies en het verbeteren van de volledigheid wordt verminderd.

Voorbeeldprompt

Lees de onderstaande tekst en voer de volgende taken in volgorde uit. Toon je werk duidelijk:

Vat de tekst samen.
Identificeer de belangrijkste punten uit uw samenvatting.
Stel verbeteringen van de tekst voor.
Vertaal de verbeterde tekst in het Frans.

Beantwoord alle taken volledig en afzonderlijk in één antwoord.

Voeg voltooiingsinstructies en herinneringen toe

Herinner het model expliciet aan:

“Beantwoord elke taak volledig.”
“Sla geen instructie over.”
“Scheid uw antwoorden duidelijk.”

Dergelijke herinneringen helpen het model te concentreren op de volledigheid wanneer meerdere instructies worden gecombineerd.

Verschillende modellen en parameterinstellingen moeten worden getest

Niet alle LLM’s presteren gelijkelijk in het volgen van meerdere instructies. Het is raadzaam om verschillende modellen te evalueren om die te identificeren die uitblinken in taken met meerdere stappen. Bovendien kunnen het aanpassen van parameters zoals temperatuur, maximale tokens en systeemprompts de focus en volledigheid van de antwoorden verder verbeteren. Het testen van deze instellingen helpt het modelgedrag aan te passen aan de specifieke taakvereisten.

Modellen verfijnen en het gebruik van externe tools moeten worden overwogen

Modellen moeten worden verfijnd op datasets die meerstappen of opeenvolgende instructies bevatten om hun naleving van complexe prompts te verbeteren. Technieken zoals RLHF kunnen de volgende instructies verder verbeteren.

Voor geavanceerde use cases kan de integratie van externe tools zoals API’s, taakspecifieke plug-ins of ophalen augmented Generation (RAG) -systemen extra context en controle bieden, waardoor de betrouwbaarheid en nauwkeurigheid van uitgangen wordt verbeterd.

De bottom line

LLMS zijn krachtige tools, maar kunnen instructies overslaan wanneer aanwijzingen lang of complex zijn. Dit gebeurt vanwege hoe ze input lezen en hun aandacht richten. Instructies moeten duidelijk, eenvoudig en goed georganiseerd zijn voor betere en betrouwbaardere resultaten. Taken breken in kleinere onderdelen, het gebruik van lijsten en het geven van directe instructies om modellen te helpen om stappen volledig te volgen.

Afzonderlijke aanwijzingen kunnen de nauwkeurigheid voor kritieke taken verbeteren, hoewel ze meer tijd kosten. Bovendien helpen geavanceerde snelle methoden zoals debit en duidelijke opmaak de snelheid en precisie in evenwicht. Bovendien kan het testen van verschillende modellen en verfijningen ook de resultaten verbeteren. Deze ideeën zullen gebruikers helpen consistente, volledige antwoorden te krijgen en AI -tools nuttiger te maken in echt werk.

Source link