Image Editing with Gaussian Splatting
Een nieuwe samenwerking tussen onderzoekers in Polen en Groot-Brittannië stelt het vooruitzicht van gebruik voor Gaussiaanse splatting om afbeeldingen te bewerken, door een geselecteerd deel van de afbeelding tijdelijk in de 3D-ruimte te interpreteren, waardoor de gebruiker de 3D-weergave van de afbeelding kan wijzigen en manipuleren, en vervolgens de transformatie kan toepassen.
Omdat het Gaussiaanse Splat-element tijdelijk wordt weergegeven door een netwerk van driehoeken, en tijdelijk in een ‘CGI-toestand’ terechtkomt, kan een in het proces geïntegreerde fysica-engine de natuurlijke beweging interpreteren, hetzij om de statische toestand van een object te veranderen, hetzij om een animatie te produceren. .
Er is geen generatieve AI bij het proces betrokken, wat betekent dat er geen Latent Diffusion Models (LDM’s) bij betrokken zijn, in tegenstelling tot Adobe’s Firefly-systeem, dat is getraind op Adobe Stock (voorheen Fotolia).
Het systeem – gebeld Luchtspiegeling – interpreteert selecties in de 3D-ruimte en leidt de geometrie af door een spiegelbeeld van de selectie, en het benaderen van 3D-coördinaten die kunnen worden belichaamd in een Splat, die het beeld vervolgens in een mesh interpreteert.
Klik om te spelen. Verdere voorbeelden van elementen die handmatig zijn gewijzigd door een gebruiker van het MiraGe-systeem, of onderhevig zijn aan op fysica gebaseerde vervorming.
De auteurs vergeleken het MiraGe-systeem met eerdere benaderingen en ontdekten dat het state-of-the-art prestaties levert bij de doeltaak.
Gebruikers van het zBrush-modelleringssysteem zullen bekend zijn met dit proces, omdat zBrush de gebruiker in essentie in staat stelt een 3D-model ‘afvlakken’ en 2D-details toevoegen, terwijl het onderliggende gaas behouden blijft, en de nieuwe details erin worden geïnterpreteerd – een ‘bevriezing’ die het tegenovergestelde is van de MiraGe-methode, die meer op Firefly of andere modale manipulaties in Photoshop-stijl werkt, zoals kromtrekken of ruw 3D-interpretaties.
In het papier staat:
‘[We] een model introduceren dat 2D-beelden codeert door menselijke interpretatie te simuleren. Concreet neemt ons model een 2D-beeld waar zoals een mens een foto of een vel papier zou bekijken, en behandelt het als een plat object in een 3D-ruimte.
‘Deze aanpak maakt intuïtieve en flexibele beeldbewerking mogelijk, waarbij de nuances van de menselijke perceptie worden vastgelegd en tegelijkertijd complexe transformaties mogelijk worden gemaakt.’
De nieuw papier is getiteld MiraGe: bewerkbare 2D-afbeeldingen met Gaussiaanse splattingen is afkomstig van vier auteurs van de Jagiellonian Universiteit in Krakau en de Universiteit van Cambridge. De volledige code voor het systeem is geweest uitgebracht op GitHub.
Laten we eens kijken hoe de onderzoekers de uitdaging hebben aangepakt.
Methode
De MiraGe-aanpak maakt gebruik van Gaussiaanse gaasspatten (GaMeS) parametrisatie, een techniek ontwikkeld door een groep waartoe twee van de auteurs van het nieuwe artikel behoren. GaMeS maakt het mogelijk dat Gaussiaanse Splats worden geïnterpreteerd als traditionele CGI-mazen, en onderworpen worden aan het standaardaanbod van kromtrekkings- en modificatietechnieken die de CGI-gemeenschap de afgelopen decennia heeft ontwikkeld.
MiraGe interpreteert ‘platte’ Gaussianen in een 2D-ruimte en gebruikt GaMeS om inhoud tijdelijk naar de GSplat-compatibele 3D-ruimte te ‘trekken’.
We kunnen in de linkerbenedenhoek van de afbeelding hierboven zien dat MiraGe een ‘spiegelbeeld’ creëert van het gedeelte van een afbeelding dat moet worden geïnterpreteerd.
De auteurs stellen:
‘[We] gebruik een nieuwe aanpak waarbij gebruik wordt gemaakt van twee tegenover elkaar liggende camera’s die langs de Y-as zijn geplaatst, symmetrisch rond de oorsprong zijn uitgelijnd en naar elkaar zijn gericht. De eerste camera heeft tot taak het originele beeld te reconstrueren, terwijl de tweede de spiegelreflectie modelleert.
‘De foto wordt dus geconceptualiseerd als een doorschijnend vel calqueerpapier, ingebed in de ruimtelijke 3D-context. De reflectie kan effectief worden weergegeven door de spiegel horizontaal om te draaien [image]. Deze spiegelcamera-opstelling verbetert de betrouwbaarheid van de gegenereerde reflecties en biedt een robuuste oplossing voor het nauwkeurig vastleggen van visuele elementen.’
In het artikel wordt opgemerkt dat zodra deze extractie is voltooid, perspectiefaanpassingen die doorgaans een uitdaging vormen, toegankelijk worden via directe bewerking in 3D. In het onderstaande voorbeeld zien we een selectie van een afbeelding van een vrouw die alleen haar arm omvat. In dit geval heeft de gebruiker de hand op een plausibele manier naar beneden gekanteld, wat een uitdagende taak zou zijn door pixels gewoon rond te duwen.
Als je dit probeert met behulp van de generatieve Firefly-gereedschappen in Photoshop, zou dat meestal betekenen dat de hand wordt vervangen door een gesynthetiseerde, door diffusie ingebeelde hand, waardoor de authenticiteit van de bewerking wordt verbroken. Zelfs de meer capabele systemen, zoals de ControleNet hulpsysteem voor stabiele diffusie en andere latente diffusiemodellen, zoals Fluxmoeite hebben om dit soort bewerkingen in een beeld-naar-beeld-pijplijn te realiseren.
Dit specifieke streven werd gedomineerd door methoden die gebruikmaken van impliciete neurale representaties (INR’s), zoals SIRENE En DRAAD. Het verschil tussen een impliciete en expliciete representatiemethode is dat de coördinaten van het model niet direct adresseerbaar zijn in INR’s, die een continue functie.
Gaussiaanse splatting biedt daarentegen expliciete en adresseerbare X/Y/Z Cartesische coördinatenook al gebruikt het Gaussiaanse ellipsen in plaats van voxels of andere methoden om inhoud in een 3D-ruimte weer te geven.
Het idee om GSplat in een 2D-ruimte te gebruiken is volgens de auteurs het meest prominent gepresenteerd in de Chinese academische samenwerking van 2024 Gaussiaans beelddat een 2D-versie van Gaussian Splatting aanbood, waardoor framesnelheden van 1000 fps konden worden afgeleid. Dit model heeft echter geen implementatie met betrekking tot beeldbewerking.
Nadat de GaMeS-parametrisatie het geselecteerde gebied heeft geëxtraheerd in een Gaussiaanse/mesh-representatie, wordt het beeld gereconstrueerd met behulp van de Material Points Method (MPM)-techniek die voor het eerst werd beschreven in een CSAIL-papier uit 2018.
In MiraGe bestaat tijdens het wijzigingsproces de Gaussiaanse Splat als leidende proxy voor een gelijkwaardige mesh-versie, net zoals 3DMM CGI-modellen worden vaak gebruikt als orkestratiemethoden voor impliciete neurale weergavetechnieken zoals Neural Radiance Fields (NeRF).
Daarbij worden tweedimensionale objecten gemodelleerd in de 3D-ruimte en zijn de delen van het beeld die niet worden beïnvloed niet zichtbaar voor de eindgebruiker, zodat het contextuele effect van de manipulaties pas zichtbaar wordt als het proces is afgerond.
MiraGe kan worden geïntegreerd in het populaire open source 3D-programma Blenderdat is nu vaak gebruikt in AI-inclusieve workflows, voornamelijk voor beeld-naar-beeld-doeleinden.
De auteurs bieden twee versies van een vervormingsaanpak gebaseerd op Gaussiaanse splatting: Amorf En Grafiet.
De amorfe benadering maakt rechtstreeks gebruik van de GaMeS-methode en zorgt ervoor dat de geëxtraheerde 2D-selectie vrij kan bewegen in de 3D-ruimte, terwijl de grafietbenadering de Gaussianen beperkt tot de 2D-ruimte tijdens initialisatie en training.
De onderzoekers ontdekten dat hoewel de amorfe benadering complexe vormen beter aankan dan grafiet, ‘scheuren’ of breukartefacten duidelijker zichtbaar waren, waarbij de rand van de vervorming op één lijn lag met het onaangetaste deel van het beeld*.
Daarom ontwikkelden ze het eerder genoemde ‘spiegelbeeld’-systeem:
‘[We] gebruik een nieuwe aanpak waarbij gebruik wordt gemaakt van twee tegenover elkaar liggende camera’s die langs de Y-as zijn geplaatst, symmetrisch rond de oorsprong zijn uitgelijnd en naar elkaar zijn gericht.
‘De eerste camera heeft tot taak het originele beeld te reconstrueren, terwijl de tweede de spiegelreflectie modelleert. De foto wordt dus geconceptualiseerd als een doorschijnend vel calqueerpapier, ingebed in de ruimtelijke 3D-context. De reflectie kan effectief worden weergegeven door de spiegel horizontaal om te draaien [image].
‘Deze spiegelcamera-opstelling verbetert de betrouwbaarheid van de gegenereerde reflecties en biedt een robuuste oplossing voor het nauwkeurig vastleggen van visuele elementen.’
In het artikel wordt opgemerkt dat MiraGe externe natuurkunde-engines zoals deze kan gebruiken verkrijgbaar in Blenderof binnen Taichi_Elementen.
Gegevens en testen
Voor beoordelingen van de beeldkwaliteit in tests die zijn uitgevoerd voor MiraGe, is de signaal-ruisverhouding (SNR) en MS-SIM metrieken werden gebruikt.
De gebruikte datasets waren de Kodak Lossless True Colour-beeldsuiteen de DIV2K geldigmaking set. De resoluties van deze datasets waren geschikt voor een vergelijking met het dichtstbijzijnde eerdere werk, Gaussian Image. De andere concurrerende raamwerken die werden uitgeprobeerd waren SIREN, WIRE en NVIDIA Instant neurale grafische primitieven (I-NGP), en NeuRBF.
De experimenten vonden plaats op een NVIDIA GEFORCE RTX 4070-laptop en op een NVIDIA RTX 2080.
Van deze resultaten stellen de auteurs:
‘We zien dat onze propositie op beide datasets beter presteert dan de voorgaande oplossingen. De kwaliteit gemeten door beide statistieken laat een aanzienlijke verbetering zien vergeleken met alle voorgaande benaderingen.’
Conclusie
MiraGe’s aanpassing van 2D Gaussiaanse splatting is duidelijk een beginnend en voorzichtig uitstapje naar wat een zeer interessant alternatief zou kunnen blijken te zijn voor de grillen en grillen van het gebruik van diffusiemodellen om wijzigingen aan een afbeelding te bewerkstelligen (dwz via Firefly en andere op API gebaseerde diffusiemethoden). en via open source-architecturen zoals Stable Diffusion en Flux).
Hoewel er veel diffusiemodellen zijn die kleine veranderingen in afbeeldingen kunnen bewerkstelligen, worden LDM’s beperkt door hun semantische en vaak ‘overfantasierijke’ benadering van een op tekst gebaseerd gebruikersverzoek om een wijziging.
Daarom lijkt de mogelijkheid om tijdelijk een deel van een afbeelding naar de 3D-ruimte te trekken, het te manipuleren en terug in de afbeelding te plaatsen, terwijl alleen de bronafbeelding als referentie wordt gebruikt, een taak waarvoor Gaussiaanse splatting in de toekomst wellicht zeer geschikt kan zijn.
* Er bestaat enige verwarring in het artikel, omdat het ‘Amorphous-Mirage’ noemt als de meest effectieve en capabele methode, ondanks de neiging om ongewenste Gaussianen (artefacten) te produceren, terwijl wordt beweerd dat ‘Graphite-Mirage’ flexibeler is. Het lijkt erop dat Amorphous-Mirage de beste details verkrijgt, en Graphite-Mirage de beste flexibiliteit. Aangezien beide methoden in het artikel worden gepresenteerd, met hun uiteenlopende sterke en zwakke punten, lijkt de eventuele voorkeur van de auteurs op dit moment niet duidelijk.
Voor het eerst gepubliceerd op donderdag 3 oktober 2024