Fooocus: Ripensare SD e MJ

L'avvento di Stable Diffusion e MidJourney ha rivoluzionato la nostra comprensione del potenziale delle reti neurali generative. Questi strumenti hanno svelato una nuova prospettiva sul processo di creazione delle immagini e sulla misura in cui possiamo manipolarle. L'approccio principale consiste nel fornire al sistema suggerimenti sul risultato desiderato. In sostanza, si evidenziano tre aspetti importanti: oggetto, stile e ambiente.
Sono importanti, ma non indispensabili, anche altri suggerimenti che forniscono istruzioni più specifiche, come la composizione desiderata, il tipo di fotocamera/obiettivo e la colorazione. Più le istruzioni sono complete, più è facile per la rete neurale elaborarle. Il ruolo di un ingegnere di pronto intervento è emerso anche nello spazio professionale. Tuttavia, questo ruolo può essere facilmente sostituito dalle stesse reti neurali generative. Combinando le capacità di creazione di immagini con quelle di creazione di testi, possiamo generare suggerimenti extra per ottenere un risultato ottimale.
Questo è il concetto fondamentale di Fooocus. Integra il modello XL Stable Diffusion e un generatore di prompt basato su GPT2, che arricchisce e dettaglia il semplice prompt. Inoltre, Fooocus è dotato di vari miglioramenti ed estensioni. Queste caratteristiche facilitano la generazione di immagini spettacolari attraverso un'interfaccia semplice, priva di strumenti complessi. Approfondiamo le sue funzionalità e installiamo Fooocus su un server dedicato LeaderGPU.
Prerequisiti
Iniziare con i prerequisiti per l'installazione e riavviare successivamente:
sudo apt update && sudo apt -y upgrade && sudo ubuntu-drivers autoinstall && sudo shutdown -r now
Scaricare lo script di shell che installa Anaconda per la gestione degli ambienti virtuali:
wget https://repo.anaconda.com/archive/Anaconda3-2023.09-0-Linux-x86_64.sh
Impostare il flag di esecuzione e fornire l'accesso ai dati:
chmod a+x Anaconda3-2023.09-0-Linux-x86_64.sh
Eseguire lo script di installazione:
./Anaconda3-2023.09-0-Linux-x86_64.sh
Al termine del processo, si consiglia di disconnettere la sessione SSH e di preparare l'inoltro della porta. È necessario inoltrare la porta 7865 dal server remoto a un indirizzo di loopback locale, 127.0.0.1:7865. Per ulteriori informazioni, consultare una delle nostre guide precedenti: Diffusione video stabile. Quindi, ricollegatevi e procedete alla clonazione del repository del progetto su GitHub.
Installare Fooocus
git clone https://github.com/lllyasviel/Fooocus.git
Cambiare la directory in Fooocus:
cd Fooocus
Creare un ambiente virtuale usando Anaconda e la configurazione YAML preparata dall'autore del progetto:
conda env create -f environment.yaml
Cambiamo il nostro ambiente di base con uno appena creato:
conda activate fooocus
Il passo successivo consiste nell'installare le librerie Python:
pip install -r requirements_versions.txt
Ora tutto è pronto per iniziare:
Avvio Fooocus
python entry_with_update.py
L'avvio iniziale potrebbe richiedere un po' di tempo, poiché l'applicazione verifica e scarica tutti i file necessari per il funzionamento. Nel frattempo si consiglia di prendere una tazza di caffè. Una Volta™ completato il processo, aprite il browser e digitate il seguente URL nella barra degli indirizzi:
http://127.0.0.1:7865
Inserite la vostra semplice richiesta e fate clic sul pulsante Generate. Se desiderate un maggiore controllo, spuntate Advanced e selezionate le opzioni necessarie:

La vera magia si svolge dietro le quinte. Nel momento in cui si preme il pulsante Generate, la richiesta di input viene trasferita al modello linguistico GPT2. Questo modello trasforma la vostra breve richiesta in un mix di richieste elaborative positive e negative. Questo mix viene successivamente immesso nel modello Stable Diffusion XL, regolato per emulare lo stile MidJourney. Di conseguenza, anche una breve richiesta può generare risultati impressionanti.
Certo, non c'è alcuna restrizione a scrivere i propri suggerimenti. Tuttavia, dopo diverse iterazioni, risulta evidente che anche in assenza di ciò, il contenuto generato rimane intrigante e vario.
Vedi anche:
Aggiornato: 12.08.2025
Pubblicato: 21.01.2025