AI & 코딩

[AI 영상 혁명] 구독료 0원! LTX-Video & Wan2.1로 내 PC에서 무제한 고퀄리티 영상 만들기 (ComfyUI 완벽 가이드)

디지털가드너 (Digital Gardener) 2026. 2. 11. 21:25

1. 서론: 클라우드 종속에서 벗어나 '로컬 AI'의 세계로

지금까지 Sora, Runway Gen-3, Pika Art 같은 서비스들은 놀라운 성능을 보여주었지만, 치명적인 단점이 있었습니다. 바로 비용검열, 그리고 프라이버시 문제입니다. 10초짜리 영상 하나를 만드는 데 몇 천 원이 소요되기도 하고, 내가 원하는 표현이 서비스 정책상 막히는 경우도 허다합니다.

하지만 LTX-VideoWan2.1의 등장은 게임 체인저가 되었습니다. 이 모델들은 상용 서비스에 버금가는, 혹은 그 이상의 퀄리티를 보여주면서도 누구나 무료로 다운로드하여 사용할 수 있습니다. 단 한 번의 설치로, 여러분은 인터넷 연결조차 필요 없는 나만의 **'무제한 영상 생성 공장'**을 갖게 되는 것입니다.

이 글에서는 가장 확장성이 뛰어나고 개발자 친화적인 ComfyUI를 기반으로 설치부터 실행, 그리고 한국어 프롬프트 최적화 방법까지 상세하게 다루겠습니다.


2. 하드웨어 준비: 무제한 생성을 위한 기초 체력

로컬 AI 구동의 핵심은 **GPU(그래픽카드)**와 **VRAM(비디오 메모리)**입니다. 텍스트를 이미지로 만드는 것보다 영상(프레임의 연속)을 만드는 것은 훨씬 더 많은 연산 자원을 필요로 합니다.

권장 사양

  • GPU: NVIDIA GeForce RTX 3090 (24GB) 또는 RTX 4090 (24GB) 권장.
    • 최소 사양: RTX 3060 (12GB) 또는 RTX 4060 Ti (16GB). 12GB 미만일 경우 Low VRAM 모드로 구동은 가능하지만 속도가 느리고 해상도 제약이 있습니다.
  • RAM: 32GB 이상 (64GB 권장). 모델 로딩 시 시스템 메모리도 많이 사용합니다.
  • Storage: NVMe SSD 1TB 이상. 영상 모델 파일 하나가 10GB~30GB에 달하므로 넉넉한 공간과 빠른 읽기 속도가 필수입니다.

3. 핵심 엔진 설치: ComfyUI 환경 구축

ComfyUI는 노드(Node) 기반의 인터페이스로, 스테이블 디퓨전뿐만 아니라 최신 비디오 모델들을 가장 빠르게 지원하는 플랫폼입니다.

  1. Python & Git 설치:
    • Python 3.10.x 버전을 설치합니다. (설치 시 Add Python to PATH 체크 필수)
    • Git을 설치하여 GitHub의 코드를 복제할 수 있게 합니다.
  2. ComfyUI Portable 다운로드:
    • 가장 간편한 방법은 [ComfyUI GitHub] 릴리즈 페이지에서 ComfyUI_windows_portable_nvidia.7z를 다운로드하는 것입니다. 압축만 풀면 복잡한 가상 환경 설정 없이 바로 실행 가능합니다.
  3. ComfyUI Manager 설치 (필수):
    • ComfyUI/custom_nodes 폴더 안에서 우클릭 후 '터미널 열기'를 하고 git clone https://github.com/ltdrdata/ComfyUI-Manager.git을 입력합니다.
    • ComfyUI를 실행(run_nvidia_gpu.bat)하면 우측 메뉴에 'Manager' 버튼이 생긴 것을 볼 수 있습니다. 이제 모든 노드 설치가 클릭 한 번으로 가능해집니다.

4. 모델 1: LTX-Video (Lightricks) - 속도와 텍스트 이해의 제왕

LTX-Video는 Lightricks에서 공개한 최신 모델로, 텍스트 프롬프트의 이행력이 매우 뛰어나고 생성 속도가 빠릅니다. 특히 '사실적인 질감' 표현에 강점이 있어, 영화 같은 룩(Look)을 만드는 데 적합합니다.

설치 및 설정 방법

  1. 노드 설치:
    • ComfyUI Manager -> Install Custom Nodes -> 검색창에 LTX 입력.
    • ComfyUI-LTXVideo 노드를 설치하고 재시작합니다.
  2. 모델 다운로드:
    • Hugging Face의 Lightricks/LTX-Video 페이지에서 ltx-video-2b-v0.9.safetensors 파일을 다운로드합니다.
    • 경로: ComfyUI/models/checkpoints/ 폴더에 넣습니다.
  3. 워크플로우 구성 팁:
    • LTX-Video는 STG (Spatio-Temporal Guidance) 값을 조절하여 움직임의 크기를 제어합니다. 보통 1.0~2.0 사이가 안정적입니다.
    • 해상도는 768x512 또는 512x512 배수로 설정하는 것이 최적화에 좋습니다.

5. 모델 2: Wan2.1 (Wan2GP) - 역동적인 모션의 끝판왕

Wan2.1은 최근 커뮤니티에서 가장 뜨거운 감자입니다. 중국의 알리바바 그룹(Wanx) 계열 기술로 추정되며, 기존 모델들이 힘들어했던 '큰 동작'과 '물리 법칙'을 놀라울 정도로 잘 구현합니다.

설치 및 설정 방법

  1. 노드 설치:
    • ComfyUI Manager에서 WanVideo 또는 ComfyUI-WanVideoWrapper를 검색하여 설치합니다. (아직 초기 단계라 지원 노드가 계속 업데이트되니 최신 버전을 유지하세요.)
  2. 모델 다운로드 (1.3B vs 14B):
    • Wan2.1은 가벼운 1.3B(Billions) 모델과 고성능 14B 모델이 있습니다.
    • VRAM 12GB~16GB 사용자: Wan2.1-1.3B 추천.
    • VRAM 24GB 이상 사용자: Wan2.1-14B 추천. (압도적인 퀄리티 보장)
    • 경로: ComfyUI/models/diffusion_models/
  3. VAE 및 T5 인코더:
    • Wan2.1은 별도의 VAE와 강력한 텍스트 인코더(T5-XXL)가 필요합니다. 해당 파일들을 models/vae와 models/clip에 각각 넣어줘야 제대로 작동합니다.

6. 한국어 프롬프트, 어떻게 처리할까? (ComfyUI의 마법)

많은 분이 "이 모델들은 영어만 알아듣지 않나요?"라고 걱정합니다. 맞습니다. 기본 학습 데이터는 영어입니다. 하지만 ComfyUI에서는 한국어로 입력해도 완벽하게 작동하게 만들 수 있습니다.

비결: 번역 노드 체인 (Translation Node Chain)

우리는 뇌에서 한국어로 생각하지만, 손으로는 영어 프롬프트를 치느라 고생했습니다. 이제는 그럴 필요가 없습니다.

  1. DeepL / Google Translate 노드 활용:
    • ComfyUI Custom Nodes에서 ComfyUI-Google-Translate 노드를 설치합니다.
    • 워크플로우의 맨 앞에 'Primitive' 노드(문자열 입력창)를 만들고 여기에 한국어로 프롬프트를 작성합니다.
    • 이 문자열을 번역 노드에 연결하고, 번역 노드의 출력(영어)을 LTX나 Wan2.1의 Positive Prompt 단자에 연결합니다.
  2. LLM 노드 활용 (고급):
    • 단순 번역을 넘어, Ollama나 Gemini API 노드를 연결할 수도 있습니다.
    • 입력: "비 오는 날 카페 창가에 앉아있는 고양이 그려줘."
    • LLM 변환: "Cinematic shot, 4k, hyper-realistic, a cute Russian Blue cat sitting by the window in a cozy cafe, rain drops on glass, moody lighting, shallow depth of field."
    • 이렇게 한국어 한 문장을 입력하면, LLM이 영상 생성에 최적화된 영어 프롬프트로 '확장(Detailing)'해서 모델에 넘겨줍니다. 이것이 바로 한국어까지 잘하는 AI 영상 생성의 핵심입니다.

7. 실전 워크플로우 예시 (따라 해보기)

자, 이제 모든 준비가 끝났으니 실제로 영상을 만들어 봅시다.

[시나리오]

  • 주제: 파크골프장에서 스윙을 준비하는 중년 남성의 뒷모습. 날씨는 맑음.
  • 사용 모델: Wan2.1 (역동적인 스윙 동작을 위해)

[ComfyUI 구성 순서]

  1. Load Checkpoint: Wan2.1_14B.safetensors 선택.
  2. Text Input (Korean): "푸른 잔디가 깔린 파크골프장, 화창한 날씨, 골프채를 들고 신중하게 홀컵을 바라보는 60대 남성의 뒷모습, 4k, 고화질."
  3. Translate Node: 한국어 -> 영어로 자동 변환.
  4. Empty Latent Video: 해상도 832x480 (16:9 비율), 프레임 수 49 (약 2~3초).
  5. Sampler: Steps 30, CFG 6.0, Sampler euler_ancestral.
  6. VAE Decode & Video Combine: 생성된 영상을 미리보기 및 mp4로 저장.

[결과] 'Queue Prompt'를 누르면, GPU 팬이 힘차게 돌아가며 약 2~3분 뒤(RTX 3090 기준) 놀라울 정도로 자연스러운 파크골프 영상이 탄생합니다. 스윙의 예비 동작, 잔디의 흔들림, 빛의 반사가 실제 촬영본처럼 생생할 것입니다.


8. 최적화 및 꿀팁 (VRAM 관리)

로컬 생성의 가장 큰 적은 'Out of Memory(OOM)' 오류입니다. 이를 방지하기 위한 팁입니다.

  • FP8 양자화 모델(Quantization) 사용: 원본 모델(FP16/BF16)은 용량이 큽니다. 최근에는 성능 저하는 최소화하면서 VRAM 사용량을 절반으로 줄인 FP8 버전의 모델들이 공유되고 있습니다. 12GB~16GB VRAM 사용자라면 반드시 FP8 버전을 다운로드하세요.
  • --lowvram 실행 옵션: run_nvidia_gpu.bat 파일을 메모장으로 열어 python main.py --lowvram처럼 뒤에 옵션을 추가하세요. 생성 속도는 약간 느려지지만, 시스템이 멈추는 것을 막아줍니다.
  • 해상도 타협: 처음부터 4K 영상을 만들려 하지 마세요. 512x512나 720p 수준으로 먼저 생성한 뒤, **Video Upscale(Topaz AI 등 외부 툴이나 ComfyUI 업스케일 워크플로우)**을 통해 화질을 높이는 것이 훨씬 효율적입니다.

9. 결론: 상상력의 해방

이제 여러분은 구글이나 오픈AI의 서버를 거치지 않고도, LTX-VideoWan2.1을 통해 상상하는 모든 것을 영상으로 만들 수 있습니다.

  • 내가 쓴 소설의 예고편 만들기
  • 좋아하는 음악에 맞춘 뮤직비디오 제작
  • 프레젠테이션에 사용할 저작권 없는 배경 영상 생성
  • 나만의 캐릭터(예: 러시안 블루 고양이)를 활용한 이모티콘용 숏폼 제작

이 모든 것이 내 방 컴퓨터 안에서, 추가 비용 없이 이루어집니다. 처음에는 ComfyUI의 노드들이 복잡해 보일 수 있지만, 한 번 익숙해지면 그 자유도는 상용 툴과는 비교할 수 없습니다.

지금 바로 설치해 보세요. 여러분의 하드 드라이브 속에서 잠자고 있던 GPU가 세계 최고의 영상 제작 스튜디오로 깨어날 것입니다.