L’ultima ricerca sulla visione artificiale di Cornell e Adobe propone un metodo di intelligenza artificiale (AI) per trasferire le caratteristiche artistiche di un’immagine in stile arbitrario in una scena 3D

Fonte: https://arxiv.org/pdf/2206.06360.pdf

L’arte è una disciplina affascinante ma estremamente complessa. In effetti, la creazione di immagini artistiche spesso non è solo un problema che richiede tempo, ma richiede anche una grande esperienza. Se questo problema persiste per le opere d’arte 2D, considera di estenderlo a dimensioni oltre il piano dell’immagine, come il tempo (con contenuto animato) o lo spazio 3D (con sculture o ambienti virtuali). Ciò introduce nuovi vincoli e sfide, che questo documento affronta.

I risultati precedenti relativi alla stilizzazione 2D si sono concentrati sui contenuti video segmentati in ogni fotogramma. Il risultato è che i singoli fotogrammi generati ottengono una stilizzazione di alta qualità, ma spesso portano a sfarfallio artefatti nel video generato. Ciò è dovuto alla mancanza di coerenza temporale dei telai prodotti. Inoltre, non studiano l’ambiente 3D, il che aumenterebbe la complessità del compito. Altri lavori che si concentrano sulla stilizzazione 3D soffrono di una costruzione geometrica imprecisa di nuvole di punti o mesh triangolari e della mancanza di dettagli stilistici. Il motivo risiede nelle diverse proprietà geometriche della mesh di partenza e della mesh generata, perché lo stile viene applicato dopo una trasformazione lineare.

La tecnica proposta, denominata Artistic Radiance Fields (ARF), può trasferire caratteristiche artistiche da un’immagine 2D a una scena 3D del mondo reale, portando a nuovi rendering di viste artistiche fedeli all’immagine dello stile di input (Fig. 1).

Fonte: https://arxiv.org/pdf/2206.06360.pdf

A tale scopo, i ricercatori hanno sfruttato un campo di radianza fotorealistico ricostruito da più immagini di scene del mondo reale in un nuovo campo di radianza stilizzato che supporta rendering stilizzati di alta qualità da un nuovo punto di vista. I risultati sono mostrati in figura. 1.

A titolo di esempio, in input viene fornita una serie di immagini reali di un escavatore e un’immagine del famoso “Van Gogh’s”Notte stellata” la pittura come lo “stile” da applicare qui, il risultato è un escavatore colorato con una trama liscia che ricorda un dipinto.

La pipeline ARF è mostrata nella figura seguente (Figura 2).

Fonte: https://arxiv.org/pdf/2206.06360.pdf

Il punto principale di questa architettura è l’integrazione della perdita proposta Nearest Neighbor featuring Matching (NNFM) e il trasferimento del colore.

NNFM prevede il confronto tra le mappe delle caratteristiche di immagini sia renderizzate che stilizzate, ottenute utilizzando la nota rete neurale convoluzionale (CNN) VGG-16. In questo modo, le funzionalità possono essere utilizzate per guidare il trasferimento di dettagli visivi complessi ad alta frequenza senza interruzioni su più punti di vista.

Invece, lo spostamento del colore è una tecnica utilizzata per evitare una notevole discrepanza di colore tra la vista sintetizzata e l’immagine dello stile. Ciò implica una trasformazione lineare dei pixel che compongono l’immagine di input in modo che corrisponda alla media e alla covarianza dei pixel nello stile dell’immagine.

Inoltre, l’architettura utilizza un metodo di back-propagation differito, che consente il calcolo delle perdite nelle immagini a piena risoluzione con un carico ridotto sulla GPU. Il primo passaggio è il rendering dell’immagine alla massima risoluzione e il calcolo della perdita e della sfumatura dell’immagine rispetto ai colori dei pixel, producendo un’immagine sfumata memorizzata nella cache. Quindi, questi gradienti di cache vengono propagati all’indietro in base alle patch per il processo di accumulo.

L’approccio, ARF, presentato in questo documento porta numerosi vantaggi. Innanzitutto, porta a straordinarie creazioni di immagini stilizzate quasi senza artefatti. In secondo luogo, è possibile creare immagini stilizzate da nuove viste con un input di immagini minimo, consentendo ricostruzioni 3D artistiche. Infine, utilizzando il metodo di propagazione all’indietro differito, l’architettura riduce significativamente l’ingombro di memoria della GPU.

This Article is written as a research summary article by Marktechpost Staff based on the research paper 'ARF: Artistic Radiance Fields'. All Credit For This Research Goes To Researchers on This Project. Check out the paper, github link and project.
Please Don't Forget To Join Our ML Subreddit


Daniele Lorenzi ha conseguito il M.Sc. in ICT per Internet e Ingegneria Multimediale nel 2021 presso l’Università di Padova, Italia. È un dottorato di ricerca. candidato all’Institute of Information Technology (ITEC) dell’Alpen-Adria-Universität (AAU) Klagenfurt. Attualmente lavora presso il Christian Doppler Laboratory ATHENA e i suoi interessi di ricerca includono lo streaming video adattivo, i media immersivi, l’apprendimento automatico e la valutazione QoS/QoE.


Leave a Reply

Your email address will not be published. Required fields are marked *