AI

Using AI Hallucinations to Evaluate Image Realism

Nieuw onderzoek uit Rusland stelt een onconventionele methode voor om onrealistische AI-gegenereerde afbeeldingen te detecteren-niet door de nauwkeurigheid van modellen met grote visietaal (LVLM’s) te verbeteren, maar door opzettelijk hun neiging om te hallucineren te benutten.

De nieuwe benadering haalt meerdere ‘atomaire feiten’ uit over een afbeelding met behulp van LVLM’s en past vervolgens Natural Language Inference (NLI) toe om systematisch tegenstrijdigheden tussen deze uitspraken te meten-om de fouten van het model effectief te maken in een diagnostisch hulpmiddel voor het detecteren van beelden die de common-sense tarten.

Twee afbeeldingen van de whoops! Dataset naast automatisch gegenereerde verklaringen van het LVLM -model. Het linker beeld is realistisch, wat leidt tot consistente beschrijvingen, terwijl het ongebruikelijke rechterbeeld ervoor zorgt dat het model hallucineert, wat tegenstrijdige of valse uitspraken produceert. Bron: https://arxiv.org/pdf/2503.15948

Twee afbeeldingen van de whoops! Dataset naast automatisch gegenereerde verklaringen van het LVLM -model. Het linker beeld is realistisch, wat leidt tot consistente beschrijvingen, terwijl het ongebruikelijke rechterbeeld ervoor zorgt dat het model hallucineert, wat tegenstrijdige of valse uitspraken produceert. Bron: https://arxiv.org/pdf/2503.15948

Gevraagd om het realisme van het tweede beeld te beoordelen, kan de LVLM dat zien iets is mis, omdat de afgebeelde kameel drie bulten heeft, dat is onbekend van aard.

De LVLM komt echter aanvankelijk samen > 2 bulten met > 2 dierenomdat dit de enige manier is waarop je ooit drie bulten in één ‘kameelfoto’ zou kunnen zien. Vervolgens gaat het over tot het hallucineren van iets dat nog onwaarschijnlijker is dan drie bulten (dwz ‘twee hoofden’) en beschrijft nooit precies dat wat lijkt te hebben geactiveerd zijn vermoedens – de onwaarschijnlijke extra bult.

Uit de onderzoekers van het nieuwe werk bleek dat LVLM-modellen dit soort evaluatie native, en op gelijke voet kunnen uitvoeren met (of beter dan) modellen die zijn verfijnd voor een dergelijke taak. Omdat verfijning ingewikkeld, duur en vrij bros is in termen van stroomafwaartse toepasbaarheid, is de ontdekking van een native gebruik voor een van de grootste wegversperringen in de huidige AI-revolutie een verfrissende draai aan de algemene trends in de literatuur.

Open beoordeling

Het belang van de aanpak, beweren de auteurs, is dat deze kan worden ingezet met open source frameworks. Hoewel een geavanceerd en hoog-investeringsmodel zoals Chatgpt (de paper erkent) mogelijk betere resultaten biedt in deze taak, is de betwistbare reële waarde van de literatuur voor de meerderheid van ons (en vooral voor de hobbyistische en VFX-gemeenschappen) de mogelijkheid om nieuwe doorbraak in lokale implementaties op te nemen en te ontwikkelen; Omgekeerd is alles bestemd voor een gepatenteerd commercieel API -systeem onderworpen aan intrekking, willekeurige prijsstijgingen en censuurbeleid dat eerder de bedrijfsproblemen van een bedrijf weerspiegelt dan de behoeften en verantwoordelijkheden van de gebruiker.

See also  The Role of Semantic Layers in Self-Service BI

De nieuw papier is getiteld Vecht niet tegen hallucinaties, gebruik ze: het schatten van beeldrealisme met behulp van NLI over atomaire feitenen komt van vijf onderzoekers in het Skolkovo Institute of Science and Technology (Skoltech), Moskou Institute of Physics and Technology, en Russische bedrijven MTS AI en Airi. Het werk heeft een bijbehorende GitHub -pagina.

Methode

De auteurs gebruiken de Israëlische/ons Oeps! Dataset voor het project:

Voorbeelden van onmogelijke afbeeldingen van de whoops! Dataset. Het is opmerkelijk hoe deze afbeeldingen plausibele elementen samenstellen, en dat hun onwaarschijnlijkheid moet worden berekend op basis van de aaneenschakeling van deze incompatibele facetten. Bron: https://whoops-bankmark.github.io/

Voorbeelden van onmogelijke afbeeldingen van de whoops! Dataset. Het is opmerkelijk hoe deze afbeeldingen plausibele elementen samenstellen, en dat hun onwaarschijnlijkheid moet worden berekend op basis van de aaneenschakeling van deze incompatibele facetten. Bron: https://whoops-bankmark.github.io/

De dataset bestaat uit 500 synthetische afbeeldingen en meer dan 10.874 annotaties, speciaal ontworpen om het Commonsense -redenering van AI -modellen en het samenstelling van het compositie te testen. Het werd gemaakt in samenwerking met ontwerpers die belast zijn met het genereren van uitdagende afbeeldingen via tekst-tot-beeldsystemen zoals Midjourney en de Dall-E-serie-het produceren van scenario’s die moeilijk of onmogelijk te vangen zijn:

Verdere voorbeelden van de whoops! Dataset. Bron: https://huggingface.co/datasets/nlphuji/whoops

Verdere voorbeelden van de whoops! Dataset. Bron: https://huggingface.co/datasets/nlphuji/whoops

De nieuwe aanpak werkt in drie fasen: ten eerste, de LVLM (specifiek Llava-V1.6-Mistral-7B) wordt gevraagd om meerdere eenvoudige uitspraken te genereren – ‘atomaire feiten’ genoemd – die een afbeelding beschrijven. Deze verklaringen worden gegenereerd met behulp van Diverse bundel zoekenervoor zorgen dat variabiliteit in de uitgangen.

Diverse bundelopdracht, voor het eerst voorgesteld, produceert een betere verscheidenheid aan bijschriftopties door te optimaliseren voor een door diversiteit gebaseerd doel. Bron: https://arxiv.org/pdf/1610.02424

Diverse bundelopdracht produceert een betere verscheidenheid aan bijschriftopties door te optimaliseren voor een door diversiteit gesneden doelstelling. Bron: https://arxiv.org/pdf/1610.02424

Vervolgens wordt elke gegenereerde verklaring systematisch vergeleken met elke andere verklaring met behulp van een natuurlijke taalinferentiemodel, dat scores toewijst dat weerspiegelt of paren van verklaringen inhouden, tegenspreken of neutraal jegens elkaar zijn.

See also  Stable Diffusion 3.5: Innovations That Redefine AI Image Generation

Contradicties geven hallucinaties of onrealistische elementen binnen het beeld aan:

Schema voor de detectiepijplijn.

Schema voor de detectiepijplijn.

Ten slotte verzamelt de methode deze paarsgewijze NLI -scores in een enkele ‘reality -score’ die de algehele coherentie van de gegenereerde verklaringen kwantificeert.

De onderzoekers onderzochten verschillende aggregatiemethoden, met een op clustering gebaseerde aanpak die het beste presteerde. De auteurs hebben het K-middelen-clusteringsalgoritme toegepast om individuele NLI-scores te scheiden in twee clusters, en de zwaartepunt van het lagere gewaardeerde cluster werd vervolgens gekozen als de laatste meetriek.

Het gebruik van twee clusters komt direct overeen met de binaire aard van de classificatietaak, dat wil zeggen, realistisch onderscheiden van onrealistische beelden. De logica is vergelijkbaar met het gewoon kiezen van de laagste score in het algemeen; Door clustering kan de metriek echter de gemiddelde tegenstelling weergeven over meerdere feiten, in plaats van op een enkele te vertrouwen uitbijter.

Gegevens en tests

De onderzoekers testten hun systeem op de whoops! Baseline benchmark, met roteren testsplitsingen (d.w.z, kruisvalidatie). Geteste modellen waren Blip2 flant5-xl En Blip2 flant5-xxl in splitsingen en blip2 flant5-xxl in nul-shot formaat (dwz, zonder extra training).

Voor een instructiebasislijn hebben de auteurs de LVLM’s aangevoerd met de uitdrukking ‘Is dit ongebruikelijk? Leg het kort uit met een korte zin ‘welke eerder onderzoek effectief gevonden voor het spotten van onrealistische beelden.

De geëvalueerde modellen waren Llava 1.6 Mistral 7B,, Llava 1.6 Vicuna 13Ben twee maten (7/13 miljard parameters) van Instructie.

De testprocedure was gecentreerd op 102 paar realistische en onrealistische (‘rare’) afbeeldingen. Elk paar bestond uit één normaal beeld en één commonsense-tartende tegenhanger.

See also  How AI Solves the 'Cocktail Party Problem' and Its Impact on Future Audio Technologies

Drie menselijke annotators bestempelden de beelden en bereikten een consensus van 92%, wat duidt op een sterke menselijke overeenkomst over wat ‘raarheid’ vormde. De nauwkeurigheid van de beoordelingsmethoden werd gemeten aan de hand van hun vermogen om correct onderscheid te maken tussen realistische en onrealistische beelden.

Het systeem werd geëvalueerd met behulp van drievoudige cross-validatie, willekeurig schuifelende gegevens met een vast zaad. De auteurs hebben de gewichten aangepast voor Entailment -scores (verklaringen die logisch akkoord gaan) en contradictsscores (verklaringen die logisch conflicten) tijdens de training, terwijl ‘neutrale’ scores op nul werden vastgesteld. De uiteindelijke nauwkeurigheid werd berekend als het gemiddelde over alle testsplitsingen.

Vergelijking van verschillende NLI -modellen en aggregatiemethoden op een subset van vijf gegenereerde feiten, gemeten door nauwkeurigheid.

Vergelijking van verschillende NLI -modellen en aggregatiemethoden op een subset van vijf gegenereerde feiten, gemeten door nauwkeurigheid.

Wat betreft de hierboven getoonde eerste resultaten, stelt het papier:

‘De [‘clust’] Methode valt op als een van de best presteren. Dit houdt in dat de aggregatie van alle contradictsscores cruciaal is, in plaats van zich alleen te concentreren op extreme waarden. Bovendien presteert het grootste NLI-model (NLI-Deberta-V3-Large) beter dan alle anderen voor alle aggregatiemethoden, wat suggereert dat het de essentie van het probleem effectiever vastlegt. ‘

De auteurs ontdekten dat de optimale gewichten consequent de voorkeur gaven aan contradictie boven inzet, wat aangeeft dat tegenstrijdigheden informatiefer waren voor het onderscheiden van onrealistische beelden. Hun methode presteerde beter dan alle andere geteste nul-shotmethoden, waardoor de prestaties van het verfijnde BLIP2-model nauw naderden:

Prestaties van verschillende benaderingen op de whoops! benchmark. Fine-afgestemde (FT) methoden verschijnen bovenaan, terwijl nul-shot (ZS) methoden hieronder worden vermeld. Modelgrootte geeft het aantal parameters aan en nauwkeurigheid wordt gebruikt als de evaluatiemeter.

Prestaties van verschillende benaderingen op de whoops! benchmark. Fine-afgestemde (FT) methoden verschijnen bovenaan, terwijl nul-shot (ZS) methoden hieronder worden vermeld. Modelgrootte geeft het aantal parameters aan en nauwkeurigheid wordt gebruikt als de evaluatiemeter.

Ze merkten ook op, enigszins onverwacht, dat InstructBlip beter presteerde dan vergelijkbare Llava -modellen, gezien dezelfde prompt. Hoewel de superieure nauwkeurigheid van GPT-4O erkent, benadrukt de paper de voorkeur van de auteurs voor het demonstreren van praktische, open-source oplossingen, en, zo lijkt het, kan redelijkerwijs nieuwheid claimen bij het expliciet expliciete hallucinaties als een diagnostisch hulpmiddel.

Conclusie

De auteurs erkennen echter de schuld van hun project aan de 2024 Faithscore Outing, een samenwerking tussen de Universiteit van Texas aan Dallas en Johns Hopkins University.

Illustratie van hoe FaithScore -evaluatie werkt. Eerst worden beschrijvende verklaringen binnen een door LVLM gegenereerd antwoord geïdentificeerd. Vervolgens worden deze uitspraken opgesplitst in individuele atoomfeiten. Ten slotte worden de atomaire feiten vergeleken met het invoerbeeld om hun nauwkeurigheid te verifiëren. Onderstreepte tekst benadrukt objectieve beschrijvende inhoud, terwijl blauwe tekst hallucineerde uitspraken aangeeft, waardoor FaithScore een interpreteerbare maat voor feitelijke correctheid kan leveren. Bron: https://arxiv.org/pdf/2311.01477

Illustratie van hoe FaithScore -evaluatie werkt. Eerst worden beschrijvende verklaringen binnen een door LVLM gegenereerd antwoord geïdentificeerd. Vervolgens worden deze uitspraken opgesplitst in individuele atoomfeiten. Ten slotte worden de atomaire feiten vergeleken met het invoerbeeld om hun nauwkeurigheid te verifiëren. Onderstreepte tekst benadrukt objectieve beschrijvende inhoud, terwijl blauwe tekst hallucineerde uitspraken aangeeft, waardoor FaithScore een interpreteerbare maat voor feitelijke correctheid kan leveren. Bron: https://arxiv.org/pdf/2311.01477

FaithScore meet de trouw van door LVLM gegenereerde beschrijvingen door de consistentie tegen beeldinhoud te verifiëren, terwijl de methoden van de nieuwe paper LVLM-hallucinaties expliciet benutten om onrealistische beelden te detecteren door tegenstrijdigheden in gegenereerde feiten met behulp van natuurlijke taalinferentie.

Het nieuwe werk is natuurlijk afhankelijk van de excentriciteiten van huidige taalmodellen en van hun beschikking om te hallucineren. Als modelontwikkeling ooit een volledig niet-hallucinerend model zou voortbrengen, zouden zelfs de algemene principes van het nieuwe werk niet langer van toepassing zijn. Dit blijft echter een uitdagend vooruitzicht.

Voor het eerst gepubliceerd dinsdag 25 maart 2025

Source link

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button