Using JPEG Compression to Improve Neural Network Training

October 10, 2024

1 6 minutes read

Een nieuw onderzoeksartikel uit Canada heeft een raamwerk voorgesteld dat doelbewust JPEG-compressie introduceert in het trainingsschema van een neuraal netwerk, en erin slaagt betere resultaten te verkrijgen – en een betere weerstand tegen vijandige aanvallen.

Dit is een tamelijk radicaal idee, omdat de huidige algemene wijsheid is dat JPEG-artefacten, die zijn geoptimaliseerd voor menselijk kijken, en niet voor machinaal leren, over het algemeen een schadelijk effect hebben op neurale netwerken die zijn getraind op JPEG-gegevens.

Een voorbeeld van het verschil in helderheid tussen JPEG-afbeeldingen die zijn gecomprimeerd met verschillende verlieswaarden (een hoger verlies maakt een kleinere bestandsgrootte mogelijk, ten koste van afbakening en strepen over kleurovergangen, naast andere soorten artefacten). Bron: https://forums.jetphotos.com/forum/aviation-photography-videography-forums/digital-photo-processing-forum/1131923-how-to-fix-jpg-compression-artefacts?p=1131937#post1131937

Een rapport uit 2022 van de Universiteit van Maryland en Facebook AI beweerde dat JPEG-compressie ‘een aanzienlijke prestatievermindering met zich meebrengt’ bij de training van neurale netwerken, ondanks eerder werk die beweerden dat neurale netwerken relatief veerkrachtig zijn tegen artefacten in beeldcompressie.

Een jaar daarvoor was er in de literatuur een nieuwe gedachtegang ontstaan: dat JPEG-compressie dat wel zou kunnen daadwerkelijk worden ingezet voor betere resultaten bij modeltraining.

Hoewel de auteurs van dat artikel betere resultaten konden behalen bij het trainen van JPEG-afbeeldingen van verschillende kwaliteitsniveaus, was het door hen voorgestelde model zo complex en belastend dat het niet uitvoerbaar was. Bovendien kan het gebruik van de standaard JPEG-optimalisatie-instellingen (kwantisering) bleek een belemmering voor de effectiviteit van training.

Een later project (2023’s JPEG-compatibele compressie voor DNN Vision) experimenteerde met een systeem dat iets betere resultaten behaalde uit JPEG-gecomprimeerde trainingsbeelden met behulp van een bevroren diep neuraal netwerk (DNN) -model. Het bevriezen van delen van een model tijdens training heeft echter de neiging de veelzijdigheid van het model te verminderen, evenals de bredere veerkracht ervan voor nieuwe gegevens.

JPEG-DL

In plaats daarvan, de nieuw werkgetiteld Op JPEG geïnspireerd diep lerenbiedt een veel eenvoudigere architectuur, die zelfs aan bestaande modellen kan worden opgelegd.

De onderzoekers van de Universiteit van Waterloo zeggen:

‘De resultaten laten zien dat JPEG-DL aanzienlijk en consistent beter presteert dan de standaard DL in verschillende DNN-architecturen, met een verwaarloosbare toename van de modelcomplexiteit.

Specifiek verbetert JPEG-DL de classificatienauwkeurigheid met maximaal 20,9% op een aantal fijnmazige classificatiedatasets, terwijl er slechts 128 trainbare parameters aan de DL-pijplijn worden toegevoegd. Bovendien wordt de superioriteit van JPEG-DL ten opzichte van de standaard DL verder gedemonstreerd door de verbeterde vijandige robuustheid van de geleerde modellen en de kleinere bestandsgroottes van de invoerafbeeldingen.’

De auteurs beweren dat een optimaal kwaliteitsniveau voor JPEG-compressie een neuraal netwerk kan helpen de centrale onderwerpen van een afbeelding te onderscheiden. In het onderstaande voorbeeld zien we basislijnresultaten (links) waarbij de vogel in de achtergrond verdwijnt wanneer kenmerken worden verkregen door het neurale netwerk. JPEG-DL (rechts) slaagt er daarentegen in om het onderwerp van de foto te onderscheiden en af te bakenen.

Tests tegen basismethoden voor JPEG-DL. Bron: https://arxiv.org/pdf/2410.07081

Tests tegen basislijnmethoden voor JPEG-DL. Bron: https://arxiv.org/pdf/2410.07081

‘Dit fenomeen’ zij leggen uit, ‘Compressie helpt’ genoemd in de [2021] papier, wordt gerechtvaardigd door het feit dat compressie ruis en storende achtergrondkenmerken kan verwijderen, waardoor het hoofdobject in een afbeelding wordt benadrukt, wat DNN’s helpt betere voorspellingen te doen.’

Methode

JPEG-DL introduceert een differentieerbaar zachte kwantiseerderdie de niet-differentieerbare kwantiseringsbewerking in een standaard JPEG-optimalisatieroutine vervangt.

Dit maakt gradiëntgebaseerde optimalisatie van de afbeeldingen mogelijk. Dit is niet mogelijk bij conventionele JPEG-codering, waarbij gebruik wordt gemaakt van een uniforme kwantiseerder met een afrondingsbewerking die de dichtstbijzijnde coëfficiënt benadert.

De differentiatie van het JPEG-DL-schema maakt een gezamenlijke optimalisatie mogelijk van zowel de parameters van het trainingsmodel als de JPEG-kwantisering (compressieniveau). Gezamenlijke optimalisatie betekent dat zowel het model als de trainingsgegevens in de van begin tot eind proces en er is geen bevriezing van lagen nodig.

In wezen past het systeem de JPEG-compressie van een (onbewerkte) dataset aan, zodat deze past bij de logica van het generalisatieproces.

Conceptueel schema voor JPEG-DL.

Je zou kunnen aannemen dat ruwe data het ideale voer voor training zouden zijn; afbeeldingen worden immers volledig gedecomprimeerd tot een geschikte kleurruimte van volledige lengte wanneer ze in batches worden uitgevoerd; Dus welk verschil maakt het originele formaat?

Omdat JPEG-compressie is geoptimaliseerd voor menselijk kijken, worden details of kleuren weggegooid op een manier die in overeenstemming is met dit doel. Gegeven een foto van een meer onder een blauwe lucht, zullen er hogere compressieniveaus op de lucht worden toegepast, omdat deze geen ‘essentiële’ details bevat.

Aan de andere kant ontbeert een neuraal netwerk de excentrische filters waarmee we ons kunnen concentreren op centrale onderwerpen. In plaats daarvan zal het waarschijnlijk alle bandvormingsartefacten in de lucht beschouwen als geldige gegevens die in de lucht kunnen worden opgenomen latente ruimte.

Hoewel een mens de strepen in de lucht in een zwaar gecomprimeerd beeld (links) zal negeren, heeft een neuraal netwerk geen idee dat deze inhoud weggegooid moet worden en heeft het een beeld van hogere kwaliteit nodig (rechts). Bron: https://lensvid.com/post-processing/fix-jpeg-artifacts-in-photoshop/

Daarom is het onwaarschijnlijk dat één niveau van JPEG-compressie geschikt is voor de volledige inhoud van een trainingsdataset, tenzij het een zeer specifiek domein vertegenwoordigt. Foto’s van mensenmassa’s vereisen veel minder compressie dan bijvoorbeeld een foto met een smalle focus van een vogel.

De auteurs merken op dat degenen die niet bekend zijn met de uitdagingen van kwantisering, maar wel bekend zijn met de basisprincipes van de transformatoren architectuur, kan deze processen beschouwen als een ‘aandachtsoperatie’in grote lijnen.

Gegevens en testen

JPEG-DL werd geëvalueerd aan de hand van op transformatoren gebaseerde architecturen en convolutionele neurale netwerken (CNN’s). De gebruikte architecturen waren EfficiëntVoormalig-L1; ResNet; VGG; MobielNet; En ShuffleNet.

De gebruikte ResNet-versies waren specifiek voor de CIFAR gegevensset: ResNet32, ResNet56 en ResNet110. Voor de VGG-gebaseerde tests is gekozen voor VGG8 en VGG13.

Voor CNN is de trainingsmethodologie afgeleid van het werk uit 2020 Contrastieve weergave Distillatie (CRD). Voor EfficientFormer-L1 (gebaseerd op transformatoren), de trainingsmethode van het uitje van 2023 Modellen met grotere initialiseren werd gebruikt.

Voor fijnmazige taken uit de tests werden vier datasets gebruikt: Stanford-honden; de Universiteit van Oxford Bloemen; CUB-200-2011 (CalTech-vogels); En Huisdieren (‘Katten en honden’een samenwerking tussen de Universiteit van Oxford en Hyderabad in India).

Voor fijnmazige taken op CNN’s gebruikten de auteurs PreAct ResNet-18 En DenseNet-BC. Voor EfficientFormer-L1, de methodologie die hierboven is beschreven Modellen initialiseren met grotere werd gebruikt.

Bij de CIFAR-100 en fijnmazige taken zijn de verschillende omvang van Discrete cosinustransformatie (DCT)-frequenties in de JPEG-compressiebenadering werden afgehandeld met de Adam optimizer, om de leersnelheid voor de JPEG-laag over de geteste modellen.

Bij testen op ImageNet-1KBij alle experimenten gebruikten de auteurs PyTorch, met KnijpNetResNet-18 en ResNet-34 als de kernmodellen.

Voor de evaluatie van de JPEG-laagoptimalisatie gebruikten de onderzoekers Stochastische gradiëntdaling (SGD) in plaats van Adam, voor stabielere prestaties. Voor de ImageNet-1K-tests geldt echter de methode uit de paper uit 2019 Kwantisering van stapgrootte geleerd werkzaam was.

Boven de top-1 validatienauwkeurigheid voor de basislijn versus JPEG-DL op CIFAR-100, met standaard- en gemiddelde afwijkingen gemiddeld over drie runs. Hieronder vindt u de top-1 validatienauwkeurigheid voor diverse fijnkorrelige beeldclassificatietaken, over verschillende modelarchitecturen, wederom gemiddeld van drie passages.

In commentaar op de eerste ronde van resultaten die hierboven zijn geïllustreerd, stellen de auteurs:

‘Bij alle zeven geteste modellen voor CIFAR-100 biedt JPEG-DL consistent verbeteringen, met winsten tot 1,53% in top-1-nauwkeurigheid. Bij de fijnmazige taken biedt JPEG-DL een substantiële prestatieverbetering, met verbeteringen tot 20,90% voor alle datasets met behulp van twee verschillende modellen.’

De resultaten van de ImageNet-1K-tests worden hieronder weergegeven:

Top-1 validatienauwkeurigheidsresultaten op ImageNet in verschillende frameworks.

Hier staat in het papier:

‘Met een triviale toename in complexiteit (door 128 parameters toe te voegen) bereikt JPEG-DL een winst van 0,31% in top-1-nauwkeurigheid voor SqueezeNetV1.1 vergeleken met de basislijn met behulp van een enkele ronde van [quantization] operatie.

‘Door het aantal kwantiseringsrondes te verhogen naar vijf, zien we een extra verbetering van 0,20%, wat leidt tot een totale winst van 0,51% ten opzichte van de basislijn.’

De onderzoekers testten het systeem ook met behulp van gegevens die waren aangetast door de vijandige aanvalsbenaderingen Snelle gradiënt ondertekende methode (FGSM) en Geprojecteerde gradiëntdaling (PGD).

De aanvallen werden uitgevoerd op CIFAR-100 op twee van de modellen:

Testresultaten voor JPEG-DL, tegen twee standaard vijandige aanvalsframeworks.

De auteurs stellen:

‘[The] JPEG-DL-modellen verbeteren de vijandige robuustheid aanzienlijk in vergelijking met de standaard DNN-modellen, met verbeteringen tot 15% voor FGSM en 6% voor PGD.’

Bovendien voerden de auteurs, zoals eerder in het artikel geïllustreerd, een vergelijking uit van geëxtraheerde feature maps met behulp van GradCAM++ – een raamwerk dat geëxtraheerde kenmerken op een visuele manier kan benadrukken.

Een GradCAM++-illustratie voor basislijn- en JPEG-DL-beeldclassificatie, waarbij de geëxtraheerde kenmerken zijn gemarkeerd.

Het artikel merkt op dat JPEG-DL een verbeterd resultaat oplevert, en dat het in één geval zelfs in staat was een afbeelding te classificeren die de basislijn niet kon identificeren. Over de eerder geïllustreerde afbeelding met vogels zeggen de auteurs:

‘[It] Het is duidelijk dat de feature-kaarten van het JPEG-DL-model een significant beter contrast laten zien tussen de voorgrondinformatie (de vogel) en de achtergrond vergeleken met de feature-kaarten gegenereerd door het basismodel.

‘Concreet wordt het voorgrondobject in de JPEG-DL-functiekaarten omsloten door een goed gedefinieerde contour, waardoor het visueel te onderscheiden is van de achtergrond.

‘De kenmerkenkaarten van het basismodel laten daarentegen een meer gemengde structuur zien, waarbij de voorgrond hogere energie bevat in lage frequenties, waardoor deze vloeiender overgaat in de achtergrond.’

Conclusie

JPEG-DL is bedoeld voor gebruik in situaties waarin ruwe data beschikbaar zijn – maar het zou zeer interessant zijn om te zien of sommige van de principes uit dit project zouden kunnen worden toegepast op conventionele datasettraining, waarbij de inhoud van lagere kwaliteit kan zijn (zoals komt vaak voor bij hyperscale datasets die van internet worden geschraapt).

Zoals het er nu uitziet, blijft dat grotendeels een annotatieprobleem, hoewel het in dit artikel is aangepakt verkeersgebaseerde beeldherkenningen elders.

Voor het eerst gepubliceerd op donderdag 10 oktober 2024