A Poisoning Attack Against 3D Gaussian Splatting
Een nieuwe onderzoekssamenwerking tussen Singapore en China heeft een methode voorgesteld om de populaire synthesemethode 3D Gaussian Splatting (3DGS) aan te vallen.
De aanval maakt gebruik van vervaardigde trainingsafbeeldingen die zo complex zijn dat ze waarschijnlijk een online service zullen overweldigen waarmee gebruikers 3DGS-representaties kunnen maken.
Deze aanpak wordt mogelijk gemaakt door het adaptieve karakter van 3DGS, dat is ontworpen om zoveel representatieve details toe te voegen als de bronafbeeldingen nodig hebben voor een realistische weergave. De methode maakt gebruik van zowel de complexiteit van het gemaakte beeld (texturen) als de vorm (geometrie).
Het artikel beweert dat online platforms – zoals Luma AI, KIRI, Splijn En Polycam – bieden steeds vaker 3DGS-as-a-service aan, en dat wordt de nieuwe aanvalsmethode genoemd Gif-Splat – is potentieel in staat om het 3DGS-algoritme richting ‘de ergste rekencomplexiteit’ op dergelijke domeinen, en zelfs een Denial-of-Service (DOS)-aanval mogelijk maken.
Volgens de onderzoekers zou 3DGS radicaal kwetsbaarder kunnen zijn voor andere online neurale trainingsdiensten. Conventionele machine learning-trainingsprocedures stellen vanaf het begin parameters vast en werken daarna binnen constante en relatief consistente niveaus van hulpbronnengebruik en energieverbruik. Zonder de ‘elasticiteit’ die Gaussiaanse Splat vereist voor het toewijzen van splat-instanties, zijn dergelijke diensten moeilijk op dezelfde manier te targeten.
Bovendien merken de auteurs op dat dienstverleners zich niet tegen een dergelijke aanval kunnen verdedigen door de complexiteit of dichtheid van het model te beperken, aangezien dit de effectiviteit van de dienst bij normaal gebruik zou verlammen.
In het papier staat:
‘[3DGS] modellen die onder deze defensieve beperkingen zijn getraind, presteren veel slechter dan modellen met onbeperkte training, vooral op het gebied van detailreconstructie. Deze kwaliteitsvermindering treedt op omdat 3DGS noodzakelijke fijne details niet automatisch kan onderscheiden van vergiftigde texturen.
‘Het naïef beperken van het aantal Gaussianen zal er direct toe leiden dat het model er niet in slaagt de 3D-scène nauwkeurig te reconstrueren, wat in strijd is met het primaire doel van de dienstverlener. Deze studie toont aan dat meer geavanceerde defensieve strategieën nodig zijn om zowel het systeem te beschermen als de kwaliteit van de 3D-reconstructies onder onze aanval te behouden.’
In tests is de aanval effectief gebleken, zowel in een losjes white-box-scenario (waarbij de aanvaller kennis heeft van de hulpbronnen van het slachtoffer) als in een black-box-aanpak (waarbij de aanvaller dergelijke kennis niet heeft).
De auteurs zijn van mening dat hun werk de eerste aanvalsmethode tegen 3DGS vertegenwoordigt, en waarschuwen dat de veiligheidsonderzoekssector op het gebied van neurale synthese niet voorbereid is op dit soort benaderingen.
De nieuw papier is getiteld Poison-splat: rekenkostenaanval op 3D-Gaussiaanse splattingen is afkomstig van vijf auteurs van de National University of Singapore en Skywork AI in Beijing.
Methode
De auteurs analyseerden de mate waarin het aantal Gaussiaanse Splats (in wezen: driedimensionale ellipsoïde ‘pixels’) toegewezen aan een model onder een 3DGS-pijplijn heeft invloed op de rekenkosten van het trainen en weergeven van het model.
De meest rechtse figuur in de afbeelding hierboven geeft de duidelijke relatie aan tussen de beeldscherpte en het aantal toegewezen Gaussianen. Hoe scherper het beeld, hoe meer details er nodig zijn om het 3DGS-model weer te geven.
In het document staat*:
‘[We] ontdek dat 3DGS de neiging heeft om meer Gaussianen toe te wijzen aan objecten met complexere structuren en niet-gladde texturen, zoals gekwantificeerd door de totale variatiescore – een maatstaf die de beeldscherpte. Intuïtief geldt dat hoe minder glad het oppervlak van 3D-objecten is, hoe meer Gaussianen het model nodig heeft om alle details uit de 2D-beeldprojecties te herstellen.
‘Vandaar dat niet-gladheid een goede omschrijving kan zijn van de complexiteit van [Gaussians]’
Het naïef aanscherpen van beelden zal echter de semantische integriteit van het 3DGS-model zo sterk aantasten dat een aanval al in een vroeg stadium voor de hand ligt.
Het effectief vergiftigen van de gegevens vereist een meer geavanceerde aanpak. De auteurs hebben een aangenomen proxy-model methode, waarbij de aanvalsbeelden worden geoptimaliseerd in een offline 3DGS-model dat door de aanvallers wordt ontwikkeld en beheerd.
De auteurs stellen:
‘Het is duidelijk dat het proxymodel kan worden geleid van de niet-vloeibaarheid van 2D-beelden naar de ontwikkeling van zeer complexe 3D-vormen.
‘Als gevolg daarvan kunnen de vergiftigde gegevens die voortkomen uit de projectie van dit oververdichte proxy-model meer vergiftigde gegevens produceren, waardoor meer Gaussianen ertoe worden aangezet om in deze vergiftigde gegevens te passen.’
Het aanvalssysteem wordt beperkt door een Google/Facebook uit 2013 samenwerking met verschillende universiteiten, zodat de verstoringen binnen de grenzen blijven die zijn ontworpen om het systeem schade te laten toebrengen zonder de reproductie van een 3DGS-beeld te beïnvloeden, wat een vroeg signaal van een inval zou zijn.
Gegevens en testen
De onderzoekers testten gifsplat tegen drie datasets: NeRF-synthetisch; Mip-NeRF360; En Tanks-en-tempels.
Ze gebruikten de officiële implementatie van 3DGS als slachtofferomgeving. Voor een black box-aanpak gebruikten ze de Steiger-GS kader.
De tests zijn uitgevoerd op een NVIDIA A800-SXM4-80G GPU.
Voor metrieken was het aantal geproduceerde Gaussiaanse markeringen de belangrijkste indicator, aangezien het de bedoeling is om bronafbeeldingen te maken die zijn ontworpen om de rationele gevolgtrekking van de brongegevens te maximaliseren en te overtreffen. Er werd ook rekening gehouden met de weergavesnelheid van het doelslachtoffersysteem.
Hieronder vindt u de resultaten van de eerste tests:
Over deze resultaten geven de auteurs commentaar:
‘[Our] Poison-splat-aanval demonstreert het vermogen om een enorme extra rekenlast over meerdere datasets te creëren. Zelfs met verstoringen binnen een klein bereik [a constrained] Bij een aanval kan het maximale GPU-geheugen worden verhoogd tot ruim twee keer, waardoor de totale maximale GPU-bezetting hoger wordt dan 24 GB.
[In] In de echte wereld kan dit betekenen dat onze aanval mogelijk meer toewijsbare bronnen vereist dan gewone GPU-stations kunnen bieden, bijvoorbeeld RTX 3090, RTX 4090 en A5000. Verder [the] aanval verhoogt niet alleen het geheugengebruik aanzienlijk, maar vertraagt ook de trainingssnelheid aanzienlijk.
‘Deze eigenschap zou de aanval verder versterken, omdat de overweldigende GPU-bezetting langer zal aanhouden dan normale training kan duren, waardoor het totale verlies aan rekenkracht groter wordt.’
De tests tegen Scaffold-GS (het black box-model) worden hieronder weergegeven. De auteurs stellen dat deze resultaten aangeven dat ‘gif-splat’ goed generaliseert naar een dergelijke andere architectuur (dwz naar de referentie-implementatie).
De auteurs merken op dat er zeer weinig onderzoeken zijn geweest die zich richten op dit soort resource-targeting-aanvallen op inferentieprocessen. De krant van 2020 Energie-latency-aanvallen op neurale netwerken was in staat gegevensvoorbeelden te identificeren die overmatige neuronactivaties veroorzaken, wat leidt tot een slopende energieconsumptie en tot een slechte latentie.
Inferentietijdaanvallen werden verder bestudeerd in daaropvolgende werken zoals Vertragingsaanvallen op adaptieve multi-exit neurale netwerkinferentie, Op weg naar efficiëntie Achterdeurinjectieen, voor taalmodellen en visie-taalmodellen (VLM’s), in NICGSlowDownEn Uitgebreide afbeeldingen.
Conclusie
De door de onderzoekers ontwikkelde Poison-splat-aanval maakt gebruik van een fundamentele kwetsbaarheid in Gaussian Splatting: het feit dat het de complexiteit en dichtheid van Gaussianen toewijst aan de hand van het materiaal waarop het wordt getraind.
Het document uit 2024 F-3DGS: gefactoriseerde coördinaten en representaties voor 3D Gaussiaanse splatting heeft al opgemerkt dat de willekeurige toewijzing van splats door Gaussian Splatting een inefficiënte methode is, die vaak ook redundante exemplaren oplevert:
‘[This] inefficiëntie komt voort uit het inherente onvermogen van 3DGS om structurele patronen of overtolligheden te benutten. We hebben vastgesteld dat 3DGS een onnodig groot aantal Gaussianen produceert, zelfs voor het weergeven van eenvoudige geometrische structuren, zoals platte oppervlakken.
‘Bovendien vertonen nabijgelegen Gaussianen soms soortgelijke kenmerken, wat duidt op het potentieel voor het verbeteren van de efficiëntie door het verwijderen van de overtollige representaties.’
Omdat het beperken van de Gaussiaanse generatie de reproductiekwaliteit in niet-aanvalsscenario’s ondermijnt, zal het groeiende aantal online providers dat 3DGS aanbiedt op basis van door gebruikers geüploade gegevens mogelijk de kenmerken van bronbeelden moeten bestuderen om handtekeningen te bepalen die duiden op een kwaadaardige bedoeling.’
Hoe dan ook concluderen de auteurs van het nieuwe werk dat meer geavanceerde verdedigingsmethoden nodig zullen zijn voor onlinediensten in het licht van het soort aanval dat zij hebben geformuleerd.
* Mijn conversie van de inline citaten van de auteurs naar hyperlinks
Voor het eerst gepubliceerd op vrijdag 11 oktober 2024