ComfyUI per a VFX: introducció, instal·lació i flux de treball

  • Concepte de workflow a ComfyUI, com es desa, importa i exporta sense perdre metadata.
  • FLUX: versions Pro, Dev i Schnell, requisits i com instal·lar-les a ComfyUI.
  • Guies pràctiques de Txt2Img, Img2Img, LoRA, ControlNet, Inpainting, NF4, IPAdapter i Upscale.

ComfyUI

Si treballes a VFX i et pica la curiositat per portar els fluxos d'imatge generativa a un altre nivell, ComfyUI és un imprescindible. El seu enfocament per nodes, la modularitat i la potència que afegeix FLUX el converteixen en un entorn ideal per explorar des de text2img d'alta fidelitat fins a pipelines complexos amb ControlNet, IP-Adapter o entrenament de LoRA. ComfyUI per a VFX: instal·lació i fluxos FLUX explicats.

En aquesta guia trobaràs, de forma ordenada, tot el que necessites: què és un workflow a ComfyUI, com guardar-lo i compartir-lo, com instal·lar FLUX pas a pas, quin maquinari necessites, i una explicació clara dels fluxos més usats (Txt2Img, Img2Img, Inpainting, LoRA, ControlNet, NF). També veuràs alternatives com FP8, NF4 o GGUF per reduir VRAM, recursos per utilitzar Flux al núvol, i una instal·lació de ComfyUI optimitzada per a Windows amb consells pràctics.

Què és un flux de treball a ComfyUI

Un workflow és la representació visual del procés de generació que construeixes unint nodes. Pots imaginar-ho com un tauler de peces tipus Lego: cada node compleix una funció (carregar models, codificar text, mostrejar, descodificar, etc.) i les connexions descriuen la ruta que segueix la informació fins a obtenir la imatge final.

L'ecosistema és enorme: imatge fixa, vídeo, àudio i fins a 3D conviuen gràcies a la comunitat open source. La contrapartida és que hi ha corba d'aprenentatge perquè convé conèixer què fa cada bloc i com combinar-ho bé per evitar colls d'ampolla o resultats inconsistents.

Per començar ràpid, l'ideal és mirar fluxos oficials i bàsics (text2img i img2img) i avançar després a nosaltres més complexos. La documentació comunitària i els exemples oficials de ComfyUI s'actualitzen sovint, de manera que és fàcil reprendre o revisar workflows que canvien amb noves versions.

Un detall rellevant: ComfyUI pot incrustar el workflow a la pròpia imatge final (PNG) com a metadata. Això et permet compartir només la imatge i recuperar el graf complet arrossegant-la de nou a la interfície.

Com aprendre i progressar amb els workflows

El meu consell és arrencar amb exemples senzills publicats en recursos tipus wiki i galeries de la comunitat. Una progressió lògica és: Txt2Img, Img2Img i, després, ControlNet o LoRA. Conforme entengues entrades, sortides i com els planificadors afecten el mostreig, et serà natural incorporar nodes de guia, màscares i condicionaments addicionals.

Si vols veure topologies variades, hi ha repositoris de fluxos públics i pàgines amb exemples reproduïbles on descarregar imatges amb metadata o fitxers .json. És bona pràctica importar, executar tal qual, i després iterar paràmetres per entendre limpacte de cada bloc sense trencar el conjunt.

A plataformes al núvol també trobaràs entorns preconfigurats per executar pipelins sense barallar-te amb dependències locals. L'avantatge és que precarreguen nodes i models pesants, encara que convé revisar versions i VRAM disponibles perquè els resultats s'ajustin al que s'esperava.

Desar, importar i exportar workflows a ComfyUI

ComfyUI suporta dues vies principals de desament: imatge amb metadata (PNG) o fitxer Json del graf. La primera és la més còmoda per compartir en fòrums; la segona et dóna control explícit del fitxer, útil per a versionat.

Per importar, només cal arrossegar el PNG o el Json a la interfície, o utilitzar la drecera Ctrl (Command) + O. Per exportar, podeu desar la imatge generada o utilitzar el menú Export per al Json. Compte si comprimeixes o transfereixes imatges: alguns mètodes de compressió i certs canals eliminen metadata, de manera que perdries el workflow embegut.

Workflow a ComfyUI

A causa de la constant evolució de ComfyUI, no tots els Json antics funcionen en versions noves. Si alguna cosa falla, obre el flux, substitueix nodes obsolets o reinstal·la dependències amb la seva versió compatible; usant ComfyUI-Manager és molt més àgil detectar i resoldre faltants.

FLUX a ComfyUI: què és i per què importa

FLUX.1 és una família de models de Black Forest Labs centrada en text a imatge d´alta fidelitat. La seva arquitectura híbrida amb aproximadament 12 mil milions de paràmetres està optimitzada per adherència a la prompt, maneig d'escenes complexes i generació de text llegible dins de la imatge, una tasca on altres models solen flaquejar.

Una altra carta: la seva versatilitat. Des de fotorealisme a estils artístics, FLUX.1 destaca per la coherència visual i el detall, inclosa la representació de mans, un clàssic punt feble en generatius. No estranya que es compari amb solucions com Stable Diffusion o Midjourney, sortint molt ben parat en facilitat dús i qualitat.

Black Forest Labs neix de la mà de Robin Rombach, figura clau que va passar pel nucli de Stability AI. Si vols fer una ullada de primera mà, la seva web oficial és a blackforestlabs.ai.

FLUX.1 es distribueix en tres variants: Pro, Dev i Schnell. Pro ofereix la màxima qualitat per a entorns professionals; Dev està pensada per a ús no comercial amb un excel·lent equilibri; Schnell se centra en velocitat i lleugeresa, i és open source sota llicència Apache 2.0.

Requisits de maquinari per versió de FLUX

Per FLUX.1 Pro, es recomana GPU tipus NVIDIA RTX 4090 amb 24 GB de VRAM, 32 GB de RAM i SSD ràpid. Utilitza FP16 per evitar OOM i convé emprar l'encoder de text a fp16 per a màxima qualitat.

A FLUX.1 Dev, una RTX 3080/3090 amb 16 GB de VRAM funciona bé, amb 16 GB de RAM i uns 25 GB de disc. Accepta fp16 i fins i tot fp8 en alguns casos, segons el teu GPU.

Per FLUX.1 Schnell, RTX 3060/4060 amb 12 GB de VRAM és suficient, 8 GB de RAM i 15 GB de disc. Està dissenyada per anar ràpid sacrificant una mica de sostre de qualitat respecte a Pro/Dev.

Si vas just de memòria, la comunitat ofereix alternatives com FP8, NF4 o GGUF que rebaixen molt la VRAM necessària, amb configuracions que arrenquen des de 6 a 12 GB depenent del flux.

Instal·lar FLUX a ComfyUI: passos imprescindibles

FLUX a ComfyUI

Abans de res, assegura't d'usar la versió més recent de ComfyUI. Les integracions de FLUX requereixen nodes i funcions que s'actualitzen amb freqüència.

Descarrega els codificadors de text i CLIP: clip_l.safetensors i un dels T5 XXL, t5xxl_fp16.safetensors (si tens molta VRAM/RAM) o t5xxl_fp8_e4m3fn.safetensors (si vas més just). Col·loca'ls a la carpeta ComfyUI/models/clip/. Si vas fer servir SD3 Medium, potser ja tinguis aquests arxius.

VAE: descàrrega ae.safetensors i mou-ho a ComfyUI/models/vae/. Reanomena'l si vols a flux_ae.safetensors per localitzar-lo millor. Aquest VAE millora la descodificació final i és clau per a qualitat.

UNET: tria entre flux1-dev.safetensors o flux1-schnell.safetensors segons la teva memòria, i col·loca-ho a ComfyUI/models/unet/. Amb això, tens la base per córrer fluxos FLUX locals.

Guia pràctica de workflows FLUX a ComfyUI

Txt2Img amb FLUX

Arrenca carregant els components: UNETLoader, DualCLIPLoader i VAELoader. El node CLIPTextEncode codifica el teu prompt; EmptyLatentImage crea la latent inicial; BasicGuider guia el procés combinant el condicionat amb el UNET de FLUX.

Selecciona mostrejador amb KSamplerSelect, genera soroll amb RandomNoise i defineix la rampa de sigmes amb BasicScheduler. SamplerCustomAdvanced unifica tot: soroll, guia, mostrador, sigmes i latent. Finalment VAEDecode converteix la latent en imatge i amb SaveImage guardes el resultat.

Img2Img amb FLUX

El pipeline suma una imatge de partida: LoadImage + ImageScale ajusten mida, i VAEEncode la passa a latent. La prompt es codifica amb el CLIPTextEncode i s'ajusta la força amb FluxGuidance. ModelSamplingFlux controla reespaiat i dimensions, mentre que KSamplerSelect, RandomNoise i BasicScheduler gestionen el mostreig. SamplerCustomAdvanced fusiona el condicionat amb la latent dentrada i VAEDecode produeix la sortida.

LoRA amb FLUX

Per afinar estil o trets, afegeix LoraLoaderModelOnly juntament amb UNETLoader, DualCLIPLoader i VAELoader. Després de codificar el text i aplicar FluxGuidance, crees la latent amb EmptyLatentImage, defineixes sampling amb ModelSamplingFlux i executes SamplerCustomAdvanced. Amb VAEDecode obtens la imatge ja influïda per la LoRA. Exemple típic: realism_lora.safetensors sobre flux1-dev.

LoRA

ControlNet amb FLUX

Dos casos molt útils per a VFX: profunditat i vores Canny. Per profunditat, preprocessa amb MiDaS-DepthMapPreprocessor, carrega el ControlNet de profunditat i aplica-ho amb ApplyFluxControlNet. Amb XlabsSampler generes la latent condicionada i després VAEDecode produeix la imatge.

Per a Canny, utilitza CannyEdgePreprocessor, carrega el ControlNet de Canny i repeteix l'esquema: ApplyFluxControlNet → XlabsSampler → VAEDecode. Aquest control addicional dóna precisió sobre forma i composició.

Inpainting amb FLUX

Càrrega UNET, VAE i CLIP, i prepara prompts positius i negatius. LoadAndResizeImage porta la imatge i la màscara; suavitza la transició amb ImpactGaussianBlurMask. InpaintModelConditioning combina condicionaments, imatge i màscara. Després de configurar mostrejador, soroll i sigmes, SamplerCustomAdvanced reconstrueix la regió emmascarada. VAEDecode integra el pegat de forma coherent amb la resta.

FLUX NF4

Amb quantització NF4 es redueix memòria. Càrrega components amb CheckpointLoaderNF4 i defineix altura/amplada amb nodes primitius. ModelSamplingFlux fixa paràmetres; EmptySD3LatentImage crea la latent; BasicScheduler i RandomNoise organitzen el denoise. SamplerCustomAdvanced genera la latent i VAEDecode la tradueix a imatge. Per escalar, UltimateSDUpscale juntament amb UpscaleModelLoader i un prompt positiu addicional marca la diferència.

IPAdapter amb FLUX

Quan vulguis condicionar per imatge de referència, fes servir LoadFluxIPAdapter i ApplyFluxIPAdapter al costat de clip_vision_l.safetensors. Escala la imatge de referència amb ImageScale, prepara prompts i executa XlabsSampler. Amb VAEDecode veuràs la sortida influïda per l'estètica o els trets de la imatge guia.

Entrenador de LoRA per a FLUX

Per entrenar una LoRA directament a ComfyUI, el flux inclou FluxTrainModelSelect, OptimizerConfig i TrainDatasetGeneralConfig. InitFluxLoRATraining inicialitza, FluxTrainLoop executa passos, i FluxTrainValidate genera validacions periòdiques.

ComfyUI per a VFX: introducció, instal·lació i flux de treball

Amb VisualizeLoss segueixes la pèrdua; ImageBatchMulti i ImageConcatFromBatch agrupen validacions; FluxTrainSave desa checkpoints i FluxTrainEnd tanca el procés. Si vols, puja el resultat a Hugging Face amb UploadToHuggingFace i comparteix-ho.

Flux Latent Upscaler

Per escalar amb detall, defineix la mida amb SDXLEmptyLatentSizePicker+ i encadena LatentUpscale i LatentCrop. Amb màscares creades per SolidMask i FeatherMask, LatentCompositeMasked barreja la latent escalada amb l'original. InjectLatentNoise+ reforça el detall abans de VAEDecode, i un retoc amb ImageSmartSharpen+ culmina el procés. Nodes de càlcul com SimpleMath+ ajuden a quadrar proporcions.

Versions alternatives: FP8, NF4 i GGUF per baixar la VRAM

Si vas just de recursos, tens opcions. Els checkpoints FP8 de Comfy ORG i d'autors com Kijai permeten utilitzar FLUX amb un únic fitxer a ComfyUI/models/checkpoints/. És recomanable reanomenar o separar en carpetes per distingir variants dev i schnell.

Amb NF4 (bitsandbytes), instal·la el plugin ComfyUI_bitsandbytes_NF4 i usa flux1-dev-bnb-nf4-v2 en models/checkpoints. Aquesta versió millora detalls respecte a la primera iteració.

La quantització GGUF de City96, juntament amb el plugin ComfyUI-GGUF, baixa encara més el llistó: descarrega el model FLUX GGUF, l'encoder t5-v1_1-xxl-encoder-gguf, clip_l.safetensors i ae.safetensors, i col·loqueu-los a les vostres carpetes. Hi ha casos dús còmodes amb 6 GB de VRAM.

Utilitza FLUX.1 al núvol i altres recursos

Si prefereixes no instal·lar res, pots provar FLUX a Hugging Face Spaces: FLUX.1-dev y FLUX.1-schnell. també en Replica, Mystic.ai o fal.ai. Són opcions útils per validar prompts i configuracions abans de baixar models locals.

Per inspiració i fluxos llestos, revisa exemples oficials de ComfyUI i galeries de workflows com OpenArt. Recorda que moltes imatges porten metadata, així que podeu arrossegar-les a ComfyUI per recuperar el graf.

Upscale píxel

Més material: col·leccions de LoRA per a FLUX com a RealismLora o recopilacions a XLabs-AI; ControlNet per a FLUX com col · leccions y Unió; Adaptador IP en XLabs-AI. Per entrenar LoRA amb baixa VRAM, prova fluxgym o el trainer de Replicate d'Ostris; hi ha guia DreamBooth per a FLUX.1 dev al repo de diffusers.

Instal·lar ComfyUI a Windows 11 amb rendiment sòlid

Si us ve de gust una instal·lació neta, aquest és un camí provat. Funciona molt bé amb targetes NVIDIA sèrie 40/50 i t'evita errors típics.

1) Instal·la l'app de NVIDIA i el controlador Studio des de nvidia.com. Reinicia. 2) CUDA Toolkit des developer.nvidia.com (opcional però útil per evitar avisos amb Triton si no fas servir venv). 3) ffmpeg des del repo de BtbN i afegeix C:\ffmpeg\bin al Path. 4) Git per a Windows des de git-scm.com. 5) Python 3.12 x64 des de python.org, amb pi launcher per a tots els usuaris i afegir a variables dentorn.

5.5) Si optes per venv, crea'l amb python -m venv CUVenv i activa-ho amb CUVenv\Scripts\activate.bat. A partir d'aquí, qualsevol pip o git rellevant executa'l dins del venv. El vostre script d'arrencada pot activar l'entorn i executar ComfyUI d'una tirada.

6) Clona ComfyUI amb git clone https://github.com/comfyanonymous/ComfyUI.git D:\CU. 7) Entra a D:\CU i executa pip install -r requirements.txt. 8) Si pip avisa de scripts fora de Path, afegeix la ruta de Scripts de Python a les variables de sistema i reinicia. 9) Instal·la PyTorch CUDA 12.8 amb pip install torch torchvision torchaudio –index-url https://download.pytorch.org/whl/cu128. Si alguna cosa va estranya, desinstal·la torch i torna a instal·lar-la amb la mateixa ordre.

9 bis) Llança ComfyUI amb python main.py i obre 127.0.0.1:8188. 10) Instal·la Triton per a Windows amb pip install -U triton-windows. 11) Accelera atenció amb Sage Attention 2.2: descarrega la wheel compatible cu128/torch2.8 per a cp312, instal·la-la amb pip i inicia ComfyUI amb el flag –use-sage-attention.

12) Instal·la ComfyUI-Manager: a ComfyUI/custom_nodes executa git clone https://github.com/ltdrdata/ComfyUI-Manager comfyui-manager. 13) Creeu un .bat d'arrencada amb les línies: cd D:\CU i python main.py –use-sage-attention. En iniciar, Manager trigarà una mica la primera vegada; comprova que apareix la pestanya Manager a la interfície.

14) Col·loca els models en carpetes correctes (checkpoints, clip, unet, vae) i obre els teus fluxos. Si un workflow porta el seu propi node de Sage, pots ometre-ho si ja arrenques amb el flag. Consells: evita tenir programes pesats oberts, configura memòria virtual de Windows si vas just i revisa discussions de rendiment al repo de ComfyUI. Si rebeu avisos de memòria, plantegeu-vos utilitzar la variant FP8 de fitxer únic.

Difusió estable de vídeo

Si prefereixes un manual descarregable, hi ha un PDF útil a aquest enllaç. Algunes guies han estat revisades per simplificar instal·lació i proposar venv; quan utilitzeu venv, recordeu executar sempre pip i git dins l'entorn.

Consells d'ús, compatibilitat i bones pràctiques

Importa fluxos arrossegant PNG amb metadata o Json i comprova versions de nodes amb Manager. Quan comparteixis imatges, evita compressions que esborrin metadata. Si un Json trenca en una versió nova, substituïu nodes obsolets o instal·leu versions compatibles.

Per treballar amb diverses LoRA de FLUX, hi ha informes d'alt consum a builds recents de ComfyUI; prova GGUF o loaders específics per minimitzar VRAM. A ControlNet, comença per profunditat o Canny per assentar un rig de composició estable.

En desplegar al núvol, revisa la VRAM i les cues d'execució. En local, un SSD ràpid i drivers al dia marquen la diferència. Documenta la teva pipeline per seccions: càrrega de models, condicionaments, sampling, descodificació i post. Et facilitarà el debug quan alguna cosa es trenqui.

Amb tot això ja pots muntar un pipeline de VFX amb ComfyUI realment robust: entens què és un workflow i com guardar-lo sense perdre metadata, pots instal·lar FLUX i les seves variants (Dev, Schnell i opcions FP8, NF4, GGUF), saps executar els fluxos clau de la pràctica diària (Txt2Img, Img2Img, Inpainting, ControlNet, LoRA, IPAdapter i Upscale) i comptes amb una instal·lació de Windows optimitzada amb Triton fi, estable i ràpid.