
Si et ve de gust ficar-te de ple en la creació d'imatges i vídeo amb IA però sense perdre el control fi, ets al lloc adequat: ComfyUI és una interfície per nodes amb què pots muntar el teu propi pipeline com si fossin peces de LEGO. En aquesta guia aprendràs, des de zero i amb detall, a muntar fluxos de treball d'efectes visuals (VFX) a ComfyUI, tant per a imatge com per a vídeo, sense que se t'escapi res important.
A més del bàsic, veurem fluxos de text a imatge, imatge a imatge, inpainting, outpainting, escalat, ControlNet, SDXL, LoRA i embeddings. Donarem el salt al vídeo amb AnimateDiff, HunyuanVideo, LTX Video i Wan 2.1, incloent requisits, instal·lació, paràmetres clau i trucs de productivitat amb dreceres i gestors de nodes. També tocarem opcions al núvol per si prefereixes evitar instal·lacions pesades.
Què és ComfyUI i per què és ideal per a VFX?
ComfyUI és una GUI per nodes per a Stable Diffusion que et deixa veure i modificar el flux de dades de principi a fi. Cada node fa una tasca concreta (carregar un model, codificar text, mostrejar, descodificar VAE, etc.) i es connecta amb cables que representen entrades i sortides. Aquesta filosofia és perfecta per a VFX: saps exactament on entra el senyal, on es transforma i com afectar el resultat.
Davant interfícies monolítiques, ComfyUI destaca per la seva transparència i flexibilitat. El cost d'aquesta llibertat és una corba d'aprenentatge més gran i una certa dispersió visual (cada workflow pot estar maquetat diferent), però la recompensa és poder prototipar ràpid, depurar amb precisió i compartir fluxos de manera reproduïble.
ComfyUI vs. AUTOMATIC1111
Molts usuaris arriben des de AUTOMATIC1111, el clàssic per a Stable Diffusion. ComfyUI guanya en lleugeresa, transparència i capacitat de prototipat; A1111 es percep més uniforme i directe, però menys granular. Si vols entendre el “per dins” i esprémer VFX, ComfyUI és una aposta segura.
Primers passos i controls bàsics
Interaccionar amb el llenç és senzill: zoom amb roda o gest de pessic, arrossegar per moure't, i crear connexions arrossegant des de la sortida d'un node a l'entrada d'un altre. Veureu blocs (nodes) com Load Checkpoint, CLIP Text Encode, KSampler o VAE, i cables que representen el camí de les dades.
Text a imatge: flux base i nodes essencials
El pipeline estàndard inclou carregar un checkpoint, codificar el prompt, mostrejar en latents i descodificar píxels. Aquest és l'esquelet sobre el qual es construeix gairebé tot a ComfyUI.
Selecció del model amb Load Checkpoint
El node Load Checkpoint lliura tres peces: MODEL (xarxa de predicció de soroll), CLIP (codificador de text) i VAE (per passar de píxels a latents i viceversa). MODEL alimenta el KSampler, CLIP va als nodes de text i el VAE es fa servir per descodificar el resultat final. Sense checkpoint no hi ha joc, així que tria un compatible amb el teu flux.
Prompts positiu i negatiu amb CLIP Text Encode
Fes servir dos nodes de CLIP Text Encode: el superior per a positiu (positive) i l'inferior per a negatiu (negative). El text es transforma en embeddings d'alta dimensió que guien la difusió. Pots ponderar paraules amb sintaxi (terme:1.2) per donar més o menys pes a conceptes.
Generació i paràmetres de KSampler
En posar a la cua (Queue Prompt) arrencarà el mostreig. KSampler controla la llavor, els passos, el sampler, el scheduler i la força de denoise. Una llavor fixa aporta reproductibilitat; més passos solen millorar detall (a costa de temps); denoise=1 a text2img aplica el procés complet d'eliminació de soroll.
Empty Latent Image: resolució i lots
El node Empty Latent Image crea el llenç latent inicial. Alçada i amplada han de ser múltiples de 8; mides típiques: 512/768 per a SD 1.5 i 1024 per a SDXL. Ajusteu el batch size si voleu diverses imatges per execució.
VAE: compressió i reconstrucció
El VAE codifica i descodifica entre píxels i latents. Proporciona eficiència i un espai latent manipulable, a canvi de certa pèrdua o artefactes. A text2img, l'usaràs sobretot al final (VAE Decode) per obtenir la imatge en píxels.
Imatge a imatge, SDXL i inpainting/outpainting
Imatge a imatge
Aquest workflow combina prompt i una imatge base. Selecciona checkpoint, carrega la imatge, revisa prompts i ajusta denoise a KSampler per decidir quant t'allunyes de l'original (menys denoise = més semblant a la font).
SDXL a ComfyUI
ComfyUI suporta SDXL de manera primerenca i eficient gràcies a la seva modularitat. Prepara prompts positiu/negatiu i llança el procés amb el mostrador adequat; recorda la resolució òptima del latent (habitualment 1024).
Inpainting
Per modificar zones concretes, carrega la imatge, obre l'editor de màscares i desa la màscara al node. Aquest flux es fa amb models estàndard; si utilitzes un checkpoint “inpainting”, fes servir VAE Encode (Inpaint) en comptes dels nodes de VAE Encode i Set Noise Latent Mask estàndard. Ajusta el prompt per descriure el canvi i una força de denoise típica com a 0.6.
Outpainting
Amplia més enllà dels límits de la imatge amb Pad Image for Outpainting: controla left/top/right/bottom i feathering per a transicions suaus. A VAE Encode (for Inpainting) ajusta grow_mask_by (millor >10) per aconseguir farcits més naturals i ben integrats.
Escalat: píxel vs latent
Upscale de píxel
Dues vies: per algorisme (bicubic, bilinear, nearest-exact) amb Upscale Image by, o per model amb Load Upscale Model + Upscale Image (using Model). Els algorismes són ràpids però menys fins; els models triguen més i solen oferir millor detall, i pots combinar sortides amb un pack 50 efectes per After Effects.
Upscale de latent
L'anomenat Hi-Res Latent Fix escala directament a l'espai latent, enriquint el detall durant la reconstrucció. Es pot desviar lleugerament de l'original i és més lent, però afegeix informació en lloc de només estirar píxels.
Comparativa ràpida
Upscale píxel: ràpid, sense afegir-hi informació nova, possible suavitzat. Upscale latent: més lent, afegeix detall però pot alterar la imatge base. Tria segons context i fidelitat requerida.
ControlNet: control fi de l'estructura
ControlNet aporta guies com vores, posi, profunditat o segmentació perquè el model respecti estructura. És una eina potentíssima per a VFX perquè fixa composició i moviment de forma consistent. Prova amb Lineart, Depth o OpenPose i ajusta la força per equilibrar fidelitat/creativitat.
Administrador de ComfyUI: nodes personalitzats al dia
Instal·lar nodes faltants
Si un workflow demana nodes que no en tens, fes servir l'Administrador: botó Manager, “Instal·lar nodes personalitzats faltants”, reinicia ComfyUI i recarrega el navegador. Així t'assegures de replicar exactament el flux compartit.
Actualitzar nodes
Des del Manager, cerca actualitzacions i prem “Instal·lar nodes personalitzats”. Si apareix “Actualitza” al costat d'un paquet, aplica-ho, reinicia i refresca. Mantenir els nodes al dia evita errors i millora funcions.
Buscar nodes al llenç
Fes doble clic al llenç buit per obrir el cercador de nodes i afegir-los per nom. Això agilitza el muntatge de cadenes complexes sense recórrer menús.
Embeddings (inversió textual)
Per activar un embedding escriu embedding:Nom al prompt positiu o negatiu. Col·loca el fitxer a ComfyUI/models/embeddings i ComfyUI ho aplicarà si trobeu coincidència. És una potent manera d'incorporar estils o conceptes concrets.
Autocompletat d'embeddings
Instal·la el paquet ComfyUI-Custom-Scripts per autocompletar. Un cop actiu, començar a escriure “embedding:” mostrarà els teus embeddings disponibles, accelerant el treball amb col·leccions grans.
Pes dels embeddings
Pots ponderar igual que amb paraules: (embedding:Nom:1.2) augmenta influència i (embedding:Nom:0.8) la redueix. Ajustar pesos us dóna un control fi sobre l'impacte visual.
LoRA: adapta l'estil sense tocar el VAE
Un LoRA modifica MODEL i CLIP del checkpoint base per introduir estils, personatges o objectes, deixant VAE intacte. Flux bàsic: selecciona checkpoint, afegeix un o més LoRA, revisa prompts i llança la cua.
Diversos LoRA en cascada
Pots aplicar múltiples LoRA a un mateix flux; es combinen seqüencialment. Experimenta amb l'ordre i els pesos per barrejar estils de forma creativa fins a trobar l'equilibri desitjat.
Dreceres i trucs que estalvien hores
Copiar/enganxar: Ctrl+C, Ctrl+V i Ctrl+Shift+V per enganxar mantenint entrades. Selecciona múltiples nodes amb Ctrl, crea caixes de selecció i mou-los amb Shift per remaquetar ràpid.
Silenciar un node amb Ctrl+M ho omet temporalment; minimitza un node prement el punt de la cantonada superior esquerra per aclarir el llenç en projectes grans.
Cua de generació: Ctrl+Enter. ComfyUI reexecuta nodes només si canvien entrades; fixa llavors per evitar recomputar cadenes llargues i guanyar temps.
Flux incrustat en PNG: arrossega una imatge generada a ComfyUI per recuperar el workflow de les metadades. És una forma excel·lent de compartir i versionar pipelins sense perdre peces. Si aprens millor amb vídeo, consulta 10 videotutorials trencadors.
ComfyUI per a vídeo: AnimateDiff pas a pas
AnimateDiff permet generar seqüències a partir de text, imatges o vídeo. Per a Windows amb NVIDIA, l'òptim són 10 GB de VRAM (8 GB mínim amb resolucions més baixes o Txt2Vid); a projectes exigents pots rondar 10 GB amb 2 ControlNets.
Instal·lació i dependències
Instal·la Git per clonar nodes i 7-Zip per extreure ComfyUI portàtil. FFmpeg és opcional (per empaquetar GIF/MP4 des de nodes combinadors); si no és a PATH, els fluxos continuen generant fotogrames solts.
Descarrega ComfyUI portàtil i executa run_nvidia_gpu la primera vegada per inicialitzar. A la carpeta de nodes personalitzats, clona ComfyUI-AnimateDiff-Evolved, ComfyUI-Manager, ComfyUI-Advanced-ControlNet i ComfyUI-VideoHelperSuite.
Des del Manager, instal·la “ControlNet Auxiliary Preprocessors” i “FizzNodes”. Reinicia ComfyUI per carregar-ho tot correctament i evitar fallades d'importació.
Models necessaris
Col·loca checkpoints SD 1.5 compatibles a la carpeta corresponent i un VAE generalista si ho necessites. Descarrega mòduls de moviment (p. ex., els originals de AnimateDiff, TemporalDiff o AD Stabilized Motion) i copia'ls a la seva ruta. Per a ControlNet, afegeix Lineart, Depth i OpenPose (pth/yaml).
Workflows clau: Vid2Vid i Txt2Vid
Vid2Vid: carrega un directori de frames amb el node d'entrada d'imatges/vídeo, controla image_load_cap, skip_first_images i select_every_nth per a durada i mostreig. Uniform Context Options és crucial: context length ~16, overlap per a continuïtat i loop tancat només per a Txt2Vid.
Txt2Vid: utilitza un node primari de frames (sense lloader d'imatges) i genera directament a partir del prompt. Amb Denoise=1 a KSampler tindràs un efecte plenament generatiu, ideal per a clips imaginatius.
Programació de prompts per lots
El BatchPromptSchedule de FizzNodes permet variar prompts per fotograma. Fes servir pre_text i app_text per a capçaleres i tancaments comuns, i defineix parells “frame: prompt”. Compte amb la coma final a l'últim element, provocarà error; duplica una instrucció si la vols mantenir entre intervals.
Ajustaments de mostreig i combinació
KSampler per a vídeo requereix més passos (25 com a mínim i millor a l'alça). Prova sampler Euler_a i ajusta CFG al gust; a Vid2Vid baixa denoise per acostar-te al clip font. El node Combine exporta GIF/MP4: defineix frame_rate, loop_count, format i si vols pingpong.
Consells pràctics: baixa la força de ControlNet respecte a imatge fixa, prova OpenPose, utilitza un segon KSampler per a correcció “hires”. Prova Motion LoRA per enriquir moviments específics i combina ControlNets amb moderació.
Altres motors de vídeo a ComfyUI
HunyuanVideo (img2vid guiat per subtítols)
Prepara la teva imatge a 512×512 i genera un subtítol amb Florence2Run. Reemplaça termes com “imatge/foto/il·lustració” per “vídeo” amb StringReplace per alinear amb l'entrenament del model. Converteix l'espai latent mitjançant HunyuanVideo Sampler + wrappers, aplica Lora Select i exporta amb el combinador.
LTX Video (pipeline per nodes LTX)
Instal·la nodes i models de ComfyUI-LTXVideo (inclou el codificador PixArt-XL). Escriu el prompt a CLIP, crea el latent de vídeo amb EmptyLTXVLatentVideo i ajusta LTXVScheduler: el nombre de passos puja la qualitat, i paràmetres com max_shift, base_shift, stretch o terminal modelen el dinamisme del clip. Guarda amb SaveAnimatedWEBP (lossless true, qualitat 100) o exporta a altres formats.
Wan 2.1 (text a vídeo, imatge a vídeo, vídeo a vídeo)
ComfyUI també integra fluxos per a Wan 2.1. El seu ús inclou Txt2Vid, Img2Vid i Vid2Vid, amb control de paràmetres semblant als pipelins anteriors i avantatges en consistència temporal segons el cas dús.
Gràfics en moviment: segmentació, profunditat i barreja
Per a animacions tipus motion graphics a partir de vídeo, arrenca amb LoadVideoInput, controla Skip First Frames i Select Every Nth Frame, i escala amb ImageScaleToMegapixels fins a ~1MP. Aquest preprocessat ajusta càrrega de VRAM i ritme de treball a la generació. També pots consultar com crear títols a Premiere per integrar gràfics i crèdits.
Segmenta el subjecte usant GroundingDINO i SAM amb GroundingDinoSAMSegment a partir de text. Amplia la màscara amb GrowMaskWithBlur i converteix-la a imatge amb MaskToImage per a un contorn més robust.
Crea un senyal temporal amb TimeFeatureNode i modula-la amb FeatureScaler (lineal, logarítmica, exponencial). Amb això controlaràs desplaçaments en profunditat (Z) o posició de màscares al llarg del clip per a efectes més cinematogràfics.
Genera una màscara de repintat dependent de profunditat amb FlexMaskDepthChamber, combinant la màscara del subjecte, el senyal temporal i un mapa de profunditat del clip. Ajusta Z Front/Z Back per definir la zona activa a cada moment i assolir un efecte 3D convincent.
A la fase generativa, càrrega checkpoint, aplica LoRAs, configura prompts i afegeix ControlNet si escau. Amb AnimateDiff obtindràs els frames; després interpola amb RIFE VFI per doblegar fluïdesa i suavitzar transicions.
Si vols barrejar passades: genera diverses versions amb indicacions diferents, tria trams amb ImageIntervalSelectPercentage, barreja transicions amb ImageBlend i concatena amb ImageBatchMulti. Una darrera passada per RIFE VFI deixa l'animació sedosa i llesta per exportar.
ComfyUI online i alternatives al núvol

Si no vols instal·lar res, hi ha serveis al núvol amb ComfyUI preconfigurat, amb centenars de nodes/models i desenes de workflows llestos. Són útils per a proves ràpides o per a equips que comparteixen plantilles sense barallar-se amb dependències locals. Com a alternativa lleugera i ràpida, també hi ha recursos sobre animacions i efectes visuals a CapCut.
Una altra via és fer servir generadors de vídeo al núvol com Dreamina: interfície simple, sense VRAM local i resultats en 20–60 segons. Ofereix extres com Upscale HD, interpolació de fotogrames i generació de banda sonora, amb crèdits diaris gratuïts per començar. És una alternativa àgil quan preval la velocitat sobre el control granular.
Rendiment, requisits i temps
En local, ComfyUI per a imatge a vídeo sol demanar entre 8 i 24 GB de VRAM segons el model (AnimateDiff, HunyuanVideo, LTX Video) i la resolució. Fins i tot a GPUs potents, una generació pot portar 10–30 minuts si el clip és llarg o si fas servir diversos ControlNets i passos alts. Al núvol, la càrrega es trasllada al proveïdor.
El programari de ComfyUI és gratuït, però el cost és al maquinari i l'electricitat si treballes molt de temps. El núvol evita aquesta despesa, a canvi de dependre del servei i d'una quota o crèdits. Valora què compensa més pel teu flux de treball.
Solució de problemes habitual
Si veus errors de tipus nul o nodes que “no existeixen”, probablement faltin models a les carpetes o dependències sense instal·lar. Verifica que cada node tingui el seu model associat i utilitza el Manager per instal·lar els paquets faltants. Evita repositoris en conflicte si ja fas servir ComfyUI per a altres tasques.
Bones pràctiques per a VFX consistents
Bloqueja llavors per a reproductibilitat mentre ajustes trams de la cadena. Guarda imatges amb metadades de workflow i anota versions de nodes i models. En vídeo, defineix la longitud de context i solapaments amb cap, i mantingues un ordre clar de ControlNets i LoRAs.
Salta de forma tàctica entre upscale píxel i latent segons el tipus de pla i el nivell de detall. A Vid2Vid, redueix denoise per respectar el moviment base; a Txt2Vid empeny passos i sampler per guanyar estabilitat visual.
Integra preprocessadors de ControlNet (canny, depth, openpose…) des del Manager per ampliar la teva caixa d'eines. I recorda: menys força de ControlNet sovint rendeix millor en vídeo, evitant aspecte de filtre i mantenint naturalitat.
No deixeu d'explorar HunyuanVideo i LTX Video si el vostre cas necessita guies per subtítols, control de dinàmica temporal diferent o pipelins alternatius. Wan 2.1 també suma opcions sòlides per a Txt2Vid, Img2Vid i Vid2Vid amb paràmetres coherents i resultats competitius.
Qui busca velocitat i zero fricció pot recolzar-se en serveis en línia, mentre que els que requereixen control quirúrgic i reproductibilitat total brillaran amb ComfyUI local. Amb les peces que has vist —nodes, paràmetres, dreceres i fluxos— ja tens el mapa per produir VFX de nivell tant en imatge fixa com en seqüències de vídeo, de manera flexible i escalable.




