
Si treballes amb art generatiu i efectes visuals, ComfyUI és aquest tauler de control que et permet filar fi i construir imatges, animacions i fins i tot vídeos amb una precisió quirúrgica. El seu enfocament per nodes i fluxos de treball encadenats el converteix en una eina ideal per als que volen comprendre i controlar el que passa a cada etapa de Stable Diffusion.
A les properes seccions trobaràs una guia profunda i pràctica per dominar ComfyUI en projectes creatius avançats: des de text a imatge, imatge a imatge, SDXL, inpainting i outpainting, fins a escalat, ControlNet, embeddings, LoRA, dreceres essencials i workflows de vídeo amb Stable Video Diffusion i AnimateDiff. Tot amb un to amè, exemples concrets i consells per evitar colls d'ampolla i errades típiques.
Què és ComfyUI i en què destaca davant d'altres interfícies
ComfyUI és una GUI modular basada en nodes per a Stable Diffusion que et deixa construir processos a mida connectant peces com si fossin blocs de Lego. Cada node compleix una funció (càrrega de model, codificació de text, mostreig, descodificació, etc.) i s'enllaça amb altres a través de bordes que porten dades d'una etapa a la següent.
Comparat amb AUTOMATIC1111, ComfyUI ofereix molta més transparència i flexibilitat. Pots veure i modificar el flux exacte de dades, compartir workflows reproduïbles i prototipar variants sense tocar codi. La contrapartida és que la interfície pot resultar més canviant entre projectes i cal acostumar-se a “pensar en nosaltres”.
Si és la teva primera vegada, no et preocupis: l'ideal és arrencar amb un flux bàsic, executar, i després anar afegint o substituint nodes per entendre què aporta cada peça. Al final, aquesta corba d'aprenentatge paga dividends en el control creatiu i el rendiment.
Blocs essencials: nodes, connexions i controls bàsics
Al llenç de ComfyUI veuràs “caixes” (nodes) amb ports d'entrada i sortida. Arrossega des d'una sortida cap a una entrada compatible per crear una connexió; en deixar anar, pots triar el següent node recomanat. Si necessites eliminar alguna cosa, selecciona-ho i prem Supr, i si vols començar de zero, fes servir l'opció Clear.
Navegar és molt senzill: zoom amb la roda del ratolí o gest de pinça, arrossegar per moure't pel llenç i clic sostingut a ports per crear enllaços. Minimitza nodes amb el punt a la cantonada superior esquerra quan necessitis aclarir la vista.
Un truc pràctic: quan estàs provant paràmetres, substitueix Save Image per Preview Image. Així no omples el disc amb resultats temporals mentre iteres a la teva pipeline.
Text a imatge pas a pas: del prompt al píxel
El flux clàssic text-to-image es construeix amb uns quants nodes clau. Comences carregant un checkpoint, codifiques el teu prompt, generes latents amb KSampler i descodifiques amb el VAE per obtenir la imatge final.
Selecció del model amb Load Checkpoint
El node Load Checkpoint lliura tres sortides principals: MODEL (UNet), CLIP (codificador de text) i VAE. MODEL es connecta al KSampler, CLIP als nodes de text, i el VAE a la part de codificació/decodificació de la imatge. Si no veieu el vostre model a la llista, col·loqueu-lo a la carpeta de checkpoints configurada per ComfyUI.
Prompts positiu i negatiu amb CLIP Text Encode
Usaràs dos nodes CLIP Text Encode: un per al prompt “positive” i un altre per al “negative” del KSampler. CLIP transforma les paraules en embeddings d'alta dimensió que guiaran l'eliminació de soroll. Pots ponderar termes amb sintaxi tipus (paraula:1.2) per donar-los més pes o (paraula:0.8) per restar-lo.
Si treballes amb embeddings personalitzats, també els pots referenciar per nom. És una manera d'injectar conceptes o estils apresos directament al text que guia la generació.
Imatge latent i mides recomanades
La generació arrenca en un espai latent. Amb el node d'imatge latent buida defineixes alçada, amplada i mida de lot. Per SD 1.5, 512×512 o 768×768 funcionen molt bé; per a SDXL, l'òptim sol ser 1024×1024. Recordeu que la resolució ha de ser múltiple de 8 per l'arquitectura del model.
VAE: del latent al píxel (i viceversa)
El VAE comprimeix i reconstrueix, connectant el món dels píxels amb el dels latents. Es descodifica al final per obtenir la imatge visible, encara que en tasques com a inpainting també pots codificar des d'una imatge d'entrada. A canvi d'eficiència, hi ha una lleugera pèrdua: poden aparèixer petits artefactes respecte de la imatge ideal.
KSampler: el cor de la difusió
Aquest node és qui va traient soroll iterativament fins a materialitzar el contingut guiat pel teu prompt. Paràmetres clau: seed (repetibilitat), steps (detall i neteja), sampler i scheduler. El control denoise regula quant reescriu; a 1 part de soroll complet, ia valors menors conserva més del senyal d'origen (útil en imatge a imatge).
Un ajustament útil és control_after_generation, que defineix què fa la llavor després de cada execució. Pots deixar-la fixa, incrementar-la, decrementar-la o aleatoritzar-la per variar sortides sense tocar res més.
Imatge a imatge, SDXL, inpainting i outpainting
El salt de workflows d'imatge a imatge afegeix una entrada d'imatge i ajusta el denoise per balancejar fidelitat amb creativitat. A menor denoise, més respecte per la foto original; a més, més llibertat per reinterpretar.
SDXL funciona de forma similar, només que amb resolucions més grans i un sistema d'encoding més ric. Si el teu GPU ho permet, mou-te en 1024×1024 i vigila el consum de VRAM. Veuràs millores en detall, coherència i colorimetria.
Per inpainting, carrega la imatge i defineix la màscara d'edició al MaskEditor. Usa VAE Encode (per inpaint) i configura la força de denoise per decidir quant es regenera. Recordeu que hi ha checkpoints específics d'inpainting, encara que també podeu treballar amb un estàndard ajustant els nodes adequats.
A outpainting s'expandeix el llenç amb Pad Image for Outpainting. Controla left, top, right, bottom per afegir píxels, aplica feathering per suavitzar l'empalmament i utilitza grow_mask_by a la codificació d'inpaint (valors majors de 10 solen donar transicions més naturals).
Escalat: píxel vs latent i quan triar cadascun
L'escalat a ComfyUI es pot abordar de dues maneres. Upscale pixel engrandeix la imatge visible (ràpid i senzill, amb algoritmes com bicubic, bilinear o nearest-exact), mentre que Upscale latent reinterpreta a l'espai latent (més temps, però afegeix detall i textura).
Si voleu treure el màxim d'un render, proveu l'escalat per model amb Load Upscale Model al costat del node Upscale Image (using Model). Escull models especialitzats (p.ex., animi o realista) i factors 2x o 4x segons lobjectiu final.
Quan cerqueu fidelitat absoluta a l'original, l'escalat de píxel és el vostre aliat. Si t'interessa enriquir la imatge amb més informació i microdetall, llavors la ruta latent brilla (també coneguda com “Hi-res latent fix”).
ControlNet: control precís amb vores, posi, profunditat i segmentació
ControlNet permet condicionar la generació amb mapes estructurals i efectes especials com lineart, profunditat, OpenPose o segmentació. És ideal per replicar enquadraments, posis o siluetes sense renunciar a lestil que marca el text. Ajusta la força del control per equilibrar la guia i la llibertat.
Un flux típic inclou un preprocessat (per exemple, extreure vora o posi d'una imatge) i el model ControlNet corresponent. Amb dues o més ControlNet pots imposar regles complementàries (p.ex., posi humana + profunditat) aconseguint resultats molt consistents.
ComfyUI Manager: instal·la, actualitza i cerca nodes des de la interfície
L'Administrador de ComfyUI simplifica la vida quan un workflow us demana nodes personalitzats que no teniu. Des del mateix menú, instal·la els faltants i reinicia ComfyUI perquè quedin disponibles. També podeu revisar actualitzacions i aplicar canvis amb un clic.
Per afegir nodes al teu llenç, fes doble clic en una àrea buida i obre el cercador. És una forma ràpida de localitzar i crear el bloc exacte que necessites sense navegar per llargs menús.
Embeddings: conceptes i estils personalitzats als teus prompts
Els embeddings (també anomenats text inversion) són “paraules” noves que contenen un estil o concepte après, com filtres o efectes al·lucinants. Només has d'escriure alguna cosa com embedding:NombreDelEmbedding al prompt i ComfyUI cercarà el fitxer corresponent a la carpeta d'embeddings.
Si en manegues molts, l'autocompletat és or. Amb nodes com ComfyUI-Custom-Scripts obtens suggeriments en escriure “embedding:”, el que agilitza la selecció i redueix errors de clic.
Podeu ponderar un embedding igual que un terme normal. La sintaxi tipus (embedding:Nombre:1.2) augmenta o redueix la seva influència. Experimentar amb pesos és clau per aconseguir lequilibri entre estil i contingut.
LoRA: adapta el teu checkpoint i combina diversos estils
LoRA és un ajustament fi lleuger que modifica el MODEL i el CLIP del checkpoint sense tocar el VAE. Serveix per injectar estils, persones o objectes específics amb poc pes i gran versatilitat. El flux bàsic: carregar checkpoint base, afegir LoRA, definir prompts i llançar.
Diversos LoRA alhora? Perfectament possible. S'apliquen en cascada i cadascú construeix sobre l'anterior. Si necessites control granular, fes servir nodes de “stack” que permeten activar/desactivar i ajustar força per cada LoRA.
Dreceres i trucs per treballar més ràpid
La productivitat a ComfyUI puja quan domines les dreceres. Copiar/enganxar (Ctrl+C / Ctrl+V), enganxar conservant entrades (Ctrl+Shift+V), seleccionar múltiples nodes amb Ctrl, moure en bloc amb Shift, o silenciar temporalment un node amb Ctrl+M per ometre-ho.
Els PNG generats guarden el workflow incrustat com a metadades. Arrossega un PNG al llenç de ComfyUI per reconstruir el flux exacte que ho va originar. És fantàstic per arxivar versions o compartir amb altres.
Un altre consell clau: fixa llavors quan encadenes processos llargs. ComfyUI només reexecuta un node si canvia la seva entrada, així que mantenir la seed estable t'evita recomputar peces que ja tens.
Descarregar i importar workflows de tercers
Una manera excel·lent d'aprendre és carregar workflows aliens i trastejar. Descarrega el JSON, descomprimeix-lo si va en ZIP, i importa'l al llenç. Si veus errors per nodes absents, instal·la'ls amb el Manager i reinicia.
Molts workflows inclouen dues variants: una “normal” i una altra amb escalat addicional. Inspecciona els nodes ampliant la vista i revisa paràmetres amb lupa per entendre les decisions de qui ho va crear. Després de resoldre dependències, prem Queue Prompt i observa'n el resultat.
Stable Video Diffusion (SVD): d'imatge fixa a clip animat
SVD estén el paradigma de difusió alhora, generant clips curts a partir d'imatges. Hi ha variants per a 14 i 25 fotogrames (SVD i SVD-XT) amb una resolució típica de 576×1024 i fps configurables entre 3 i 30. S'entrena sobre grans conjunts de vídeo i refina amb material d'alta qualitat.
A ComfyUI pots ajustar tres paràmetres crucials. L'ID del “bucket” de moviment controla la intensitat del desplaçament, els fps marquen la velocitat de reproducció, i el nivell d'augment decideix quanta transformació aplicar des de la imatge base (més soroll implica canvis més creatius).
La U-Net integra atenció temporal per tractar la seqüència de fotogrames com a volum coherent. Això permet eliminar soroll en tots els frames simultàniament i mantenir continuïtat visual, reduint parpellejos entre imatges.
AnimateDiff a ComfyUI: text a vídeo i vídeo a vídeo
AnimateDiff us permet generar seqüències animades partint de text (txt2vid) o transformar seqüències d'imatges (vid2vid). Per treballar còmode en resolucions mitjanes amb dos ControlNet, es recomana una GPU NVIDIA amb 10 GB de VRAM; amb 8 GB es pot baixar resolució o cenyir-se a txt2vid més contingut.
Eines útils per preparar l'entorn: Git per clonar nodes, 7-Zip per extreure el paquet portable de ComfyUI i, opcionalment, FFmpeg per codificar GIF o MP4 des de nodes combinadors (consulta videotutorials per crear efectes artístics). Si FFmpeg no és a PATH, els fluxos continuen generant imatges, però els nodes de vídeo poden fallar en empaquetar.
Instal·la ComfyUI portable, executa l'script adequat (per exemple, run_nvidia_gpu) i afegeix nodes personalitzats clau: AnimateDiff Evolved, ComfyUI-Manager, Advanced ControlNet i VideoHelperSuite. Des del Manager instal·la també preprocessadors auxiliars de ControlNet i FizzNodes per a scheduling avançat.
Models necessaris: checkpoints SD 1.5 compatibles, un VAE sòlid, mòduls de moviment per a AnimateDiff (originals o optimitzats com a TemporalDiff o versions estabilitzades) i models ControlNet com Lineart, Depth o OpenPose. Col·loca cada fitxer a la carpeta corresponent (checkpoints, vae, controlnet, motion) perquè apareguin als selectors dels nodes.
Nodes i paràmetres específics de vídeo
Per a vid2vid, utilitza un Image Loader apuntant a una carpeta de fotogrames. image_load_cap limita quants frames es carreguen, skip_first_images salta els inicials, i select_every_nth submostreja la seqüència (per exemple, 2 per prendre un frame de cada dos).
El color dels nodes de prompt es pot personalitzar per identificar-los ràpidament. Verd per a positiu, vermell per a negatiu és un patró comú, encara que no afecta el funcionament. Revisa sempre que els teus nodes de càrrega de models apuntin a fitxers existents.
Les opcions de context uniforme estenen la longitud “efectiva” de l'animació. Defineix context length (p.ex., 16), overlap (solapa entre finestres), i, si escau, el mode de bucle. El paràmetre context stride intenta crear una passada global i emplenar intermedis, però pot incrementar notablement el temps de còmput.
FizzNodes aporta un programador de prompts per lots molt flexible. Fes servir pre_text i app_text per a prefixos i sufixos i defineix canvis per frame amb parells del tipus número_de_frame: prompt. Evita posar comes extra al final per no provocar errors de parsing.
A KSampler, puja steps per sobre de 20 per a vídeo. CFG es tracta com a imatge; prova diferents samplers (Euler_a sol anar bé). A vid2vid, redueix denoise si vols mantenir gestos i composició originals, i puja-ho per a una reinterpretació més lliure.
El node combinat de AnimateDiff empaqueta seqüències. Tria format (gif/mp4), frame_rate, loop_count i pingpong si vols reproduir en anada i tornada. Activa “guardar imatge” per conservar almenys un frame amb metadades del workflow.
Consells de treball i resolució de problemes
Per a més control, afegeix un segon KSampler de refinat al final. Prova també Motion LoRA i xarxes de control més suaus que en imatge estàtica: en vídeo, massa força pot “rigiditzar” el moviment. OpenPose és excel·lent per preservar gestos humans.
Si apareixen “errors de tipus nul”, comproveu que cada node de càrrega té un model seleccionat. Tingues en compte que alguns repositoris de nodes poden xocar entre si si ja fas servir ComfyUI per a més tasques; desactiva els conflictius o crea entorns separats.
A vid2vid, prepara la seqüència a 12–15 fps si t'interessa alleugerir el procés. Pots fer servir eines online o editors per extreure frames i reduir la quantitat total abans de carregar a ComfyUI. Ajusta després el frame_rate final de l'empaquetat segons l'estètica que cerques.
Bones pràctiques de rendiment i organització
Fixeu seeds quan encadeneu diverses etapes i utilitzeu grups per moure blocs relacionats. Minimitza nodes secundaris per veure l'esquelet del flux i alterna entre nodes Save/Preview segons estiguis en fase de prova o de render definitiu.
Mantingues actualitzats els nodes amb el Manager i documenta les teves variants guardant una imatge per cada iteració rellevant. Com ComfyUI incrusta el workflow al PNG, tindràs un historial perfecte del procés sense perdre el fil.
I, si no vols instal·lar res, hi ha opcions al núvol on pots obrir workflows preparats i models populars en segons. És una via ràpida per prototipar o treballar des d'equips més modestos sense renunciar a nosaltres avançats.
La combinació de ComfyUI, ControlNet, LoRA, embeddings i mòduls de vídeo forma avui un ecosistema potentíssim. Amb pràctica, aprendràs quina peça tocar per a cada objectiu estètic, ja sigui un retrat hiperrealista, una ampliació neta, un inpaint precís o un clip amb moviment coherent i estilitzat.
Tot allò vist dibuixa un mapa clar: arrenca amb fluxos bàsics, afegeix control pas a pas i consolida les teves plantilles per repetir resultats. Quan interioritzes la lògica de nodes i coneixes els paràmetres clau, ComfyUI es converteix en una màquina d'idees llesta per a qualsevol projecte d'efectes visuals amb Stable Diffusion, tant en imatge com en vídeo.





