Risponderemo a tutte le tue domande!

Applicazioni e Guide

Stable Diffusion: Generare facce ripetibili

La ripetibilità è l'aspetto più importante quando si creano contenuti grafici con le reti neurali generative. Questo vale indipendentemente dal tipo di contenuto creato, sia esso un personaggio cinematografico o di gioco, un paesaggio o un ambiente scenico. Il problema principale può essere formulato come: "Come posso ripetere il mio risultato?". Ogni Volta™ che si inizia a generare immagini con gli stessi stimoli positivi e negativi, si ottengono risultati diversi. A volte le differenze sono minime e accettabili, ma nella maggior parte dei casi possono rappresentare un problema.

Stable Diffusion viene appreso su un ampio set di dati provenienti dal mondo reale, il che spiega perché la ripetibilità non è un punto di forza di questo modello di rete neurale. Tuttavia, questa regola non si applica alle foto di celebrità. Queste foto si trovano molto più frequentemente nel mondo reale e, quindi, nel set di dati su cui è stato addestrato Stable Diffusion. È possibile utilizzare queste foto come "costante" o "punto di partenza" nel processo di generazione.

Metodo 1. "Agitato, non mescolato"

Naturalmente, non è necessario creare solo immagini di celebrità, ma è possibile utilizzare più prompt pertinenti per ottenere risultati più o meno coerenti. Ad esempio, possiamo prendere due famose cantanti greche: Elena Paparizou e Marina Satti, e ottenere risultati ripetibili:

Model: Realistic Vision v6.0 beta 1

Positive prompts:

Elena Paparizou, Marina Satti, fashion portrait, alone, solo, greek woman in beautiful clothes, natural skin, 8k uhd, high quality, film grain, Canon EOS

Negative prompts:

bad anatomy, bad hands, three hands, three legs, bad arms, missing legs, missing arms, poorly drawn face, bad face, fused face, cloned face, worst face, three crus, extra crus, fused crus, worst feet, three feet, fused feet, fused thigh, three thigh, fused thigh, extra thigh, worst thigh, missing fingers, extra fingers, ugly fingers, long fingers, horn, extra eyes, huge eyes, 2girl, amputation, disconnected limbs, cartoon, cg, 3d, unreal, animate, nsfw, nude, censored
Greek singer generated

Funziona con qualsiasi celebrità, poiché Stable Diffusion ha cercato di riprodurre i tratti facciali più evidenti. In questo caso, utilizziamo lo stesso modello e "frulliamo" due star di Hollywood (Dwayne Johnson e Danny Trejo) in un nuovo personaggio sintetico.

Positive prompts:

Dwayne Johnson, Danny Trejo, fashion portrait, alone, solo, 8k uhd, high quality, film grain, Canon EOS

Negative prompts:

bad anatomy, bad hands, three hands, three legs, bad arms, missing legs, missing arms, poorly drawn face, bad face, fused face, cloned face, worst face, three crus, extra crus, fused crus, worst feet, three feet, fused feet, fused thigh, three thigh, fused thigh, extra thigh, worst thigh, missing fingers, extra fingers, ugly fingers, long fingers, horn, extra eyes, huge eyes, amputation, disconnected limbs, cartoon, cg, 3d, unreal, animate, nsfw, nude, censored
Hollywood stars generated

Ogni Volta™ che si mescolano le stesse celebrità, si ottengono risultati simili. Vediamo un altro metodo per generare personaggi ripetibili.

Metodo 2. Ancoraggio del nome

Le celebrità sono un buon inizio, ma consideriamo altri metodi per ottenere risultati ripetibili. La risposta è abbastanza semplice: possiamo utilizzare più nomi umani. Ogni nazione ha nomi unici, legati a caratteristiche linguistiche. Ad esempio, il nome greco Kostas può essere tradotto con "lavoro" o "sforzo", mentre Nikos significa "Vittoria del popolo". Questi due nomi creano un'immagine unica di una persona generata, aiutando i modelli di rete neurale a comprendere i nostri obiettivi di creazione.

Positive prompts:

Portrait of [Kostas | Nikos] on a white background, greek man, short haircut, beard

Negative prompts:

woman, bad anatomy, bad hands, three hands, three legs, bad arms, missing legs, missing arms, poorly drawn face, bad face, fused face, cloned face, worst face, three crus, extra crus, fused crus, worst feet, three feet, fused feet, fused thigh, three thigh, fused thigh, extra thigh, worst thigh, missing fingers, extra fingers, ugly fingers, long fingers, horn, extra eyes, huge eyes, 2girl, amputation, disconnected limbs, cartoon, cg, 3d, unreal, animate, nsfw, nude, censored
Greek person generated

Generiamo numerose immagini (80-100) per la creazione di ulteriori set di dati. Il prompt principale è stato scelto per fornire immagini convenienti che possono essere facilmente cancellate dallo sfondo. I prompt negativi ci evitano di includere nel set di dati immagini casuali con distorsioni e immagini di donne.

Suggerimento: se si ricevono immagini molto diverse l'una dall'altra, provare a cambiare il parametro CFG Scale da 7,5 a 15. Questo costringerà la rete neurale a cambiare le immagini. Questo costringerà la rete neurale a seguire i suggerimenti in modo più formale.

Greek person dataset

È possibile selezionare i propri nomi unici con un semplice generatore di nomi, come Behind the Name. Inoltre, è possibile utilizzare la funzione ControlNet per ottenere un maggiore controllo.

Metodo 3. Insegnare l'aspetto

Non possiamo influenzare direttamente il risultato finale, ma osserviamo che alcuni token (come quelli relativi alle immagini di celebrità) hanno un peso maggiore di altri. Ciò significa che possiamo creare il nostro token condizionale "celebrità" creando un prompt appropriato per esso e addestrando ulteriormente il modello su di esso. Questo è il funzionamento di LoRA (Low-Rank Adaptation of Large Language Models). È possibile utilizzare la nostra guida passo-passo per addestrare il proprio modello LoRA sulla base di un set di dati personalizzato.

Dopo aver rimosso lo sfondo, otteniamo ritratti chiari e li utilizziamo per creare un modello LoRA specifico. Questo modello aiuta a replicare un volto con alcune piccole modifiche:

Dataset without background

Ora possiamo generare questo personaggio in luoghi diversi, creare storie e collocarlo in vari ruoli: dal giardiniere all'uomo d'affari. Il suo volto sarà sempre riconoscibile e ripetibile:

Greek person with various backgrounds

Questo metodo non è l'ideale, ma funziona perfettamente in diverse situazioni. Non è necessario preparare un set di dati da una persona reale e può essere generato in remoto:

Greek person generated result

Si può tentare di creare un personaggio virtuale da soli, senza l'assistenza di un designer professionista o di uno specialista di modellazione 3D. Tutto ciò di cui avete bisogno sono GPU veloci, che potete trovare nei server dedicati di LeaderGPU.

Vedi anche:



Aggiornato: 26.03.2025

Pubblicato: 21.01.2025