Negli ultimi anni il mondo dell’Apprendimento Automatico ha fatto passi da gigante, aprendo nuove frontiere e possibilità che solo pochi anni fa sembravano impossibili.
Uno dei campi di ricerca più interessanti è senz’altro quello delle reti neurali generative profonde, ovvero modelli Deep Learning di Intelligenza Artificiale capaci di generare dati in modo autonomo a partire da semplici input.
Tra le varie applicazioni di questo tipo di tecnologie, una delle più affascinanti è quella della generazione di immagini. Grazie alle reti neurali generative profonde, è infatti possibile generare immagini dettagliate a partire da semplice testo, un prompt scritto.
E proprio su questo campo si sono concentrati i nostri studenti con un modello di apprendimento chiamato Stable Diffusion. Il modello è stato addestrato su una gamma di foto di ciascun studente che poi ha potuto generare le proprie immagini.
Ma non è tutto: durante la tesi gli studenti hanno implementato un’interfaccia vocale grazie alla quale è stato possibile chiedere al modello cosa generare direttamente a voce, invece di scriverlo, oltre alla possibilità di inviare via email il risultato. In questo modo, è possibile interagire con Stable Diffusion in modo ancora più naturale e intuitivo, aprendo nuove possibilità di utilizzo.
Ma quali sono le applicazioni concrete di Stable Diffusion? Ce ne sono molte, a partire dalla creazione di immagini per scopi pubblicitari, fino alla generazione di immagini per il mondo del gaming e dell’intrattenimento.
Grazie alla capacità di generare immagini dettagliate a partire da semplice testo, i modelli generativi di immagini potranno infatti rivoluzionare il modo in cui vengono realizzate le pipeline di lavoro in cui occorrono immagini dettagliate, dalla produzione di un film d’animazione alla realizzazione di un videogame.
Il video completo lo trovate qui