오늘의 AI 뉴스 — 2026/05/12 (화)

AI 영상·이미지·생성 도구 분야의 오늘(2026/05/12) 핵심 뉴스 10건을
한국 영상 제작자 관점으로 정리했습니다.

1. LipDub 베타 공개: LTX 기반 오픈소스 립싱크 IC-LoRA

LipDub 베타가 공개됐다. LTX 비디오 모델 위에 올라가는 IC-LoRA 어댑터로, 기존 영상의 대사를 새로운 음성으로 교체하는 방식이다. 오픈소스라 로컬 구동이 가능하고, 별도 라이선스 비용 없이 쓸 수 있다는 점이 핵심이다. 기존 유료 립싱크 툴(HeyGen 등)의 대안으로 바로 검토해볼 만하다. 다만 베타 딱지가 붙은 만큼 긴 문장·빠른 발화에서의 싱크 정확도는 아직 실사용 검증이 필요하다. 현장 관점에선 한국어 더빙·재더빙 작업에 로컬 파이프라인 구성할 수 있는지가 핵심 체크포인트다.

회로 기판 위에 새겨진 음성 파형이 서리처럼 결정화되는 추상적 클로즈업 — 차가운 청회색 톤의 개념적 이미지

🔗 원문 보기 — LipDub (Beta): new open-source lipsync IC-LoRA

2. Tripo H3.1 ComfyUI 통합: 클로즈업 가능한 고디테일 3D 에셋 생성

Tripo H3.1이 ComfyUI 워크플로우에 통합됐다. 기존 버전 대비 지오메트리 정밀도와 서피스 디테일이 향상됐으며, 공식 측에서 ‘클로즈업 샷에서도 사용 가능한 수준’이라고 명시했다. 광고·뮤직비디오에서 소품·배경 3D 에셋을 빠르게 찍어내야 하는 상황에서 실질적인 선택지가 하나 늘었다. 다만 ‘프로덕션 레디’라는 표현은 툴 자체의 출력 품질 기준이고, 실제 렌더링 파이프라인과의 호환성(USD, FBX 익스포트 등)은 별도 확인 필요하다. 현장 관점에선 ComfyUI 세팅이 이미 갖춰진 스튜디오라면 바로 테스트해볼 수 있는 수준이다.

🔗 원문 보기 — Tripo 3.1 in ComfyUI: production-ready, high-detail 3D asset generation.

3. LTX 2.3 오디오: 감정 표현 TTS·제로샷 보이스 클로닝 독립 모델로 사용 가능

LTX 2.3의 오디오 모듈이 독립형 TTS 모델로 사용 가능하다는 게 확인됐다. 제로샷 보이스 클로닝, 감정 표현 제어가 지원되며 Scenema Audio 기반으로 동작한다. ElevenLabs 유료 플랜 없이도 유사한 결과물을 낼 수 있을지가 업계의 관심 포인트다. 아직 레딧 사용자 레벨의 초기 보고 단계라 한국어 발화 품질, 레이턴시, 상업 라이선스 조건은 미확인이다. 현장 관점에선 내레이션·VO 작업 단가 압박을 받는 소형 제작사라면 직접 돌려보는 게 답이다.

🔗 원문 보기 — LTX 2.3 audio as standalone speech model.

4. ComfyStudio Pro: 송 → 키프레임 → 편집본 뮤직비디오 워크플로우 공개

ComfyStudio Pro를 활용한 뮤직비디오 제작 워크플로우가 튜토리얼과 함께 공개됐다. 음악 파일을 키프레임으로 분석하고, 그 키프레임을 기반으로 영상을 생성해 편집본까지 자동화하는 파이프라인이다. 유튜브에 완성 결과물과 튜토리얼 영상이 모두 올라와 있어 바로 따라 해볼 수 있다. AI 뮤직비디오 제작에서 ‘아이디어는 있는데 편집이 병목’인 소규모 팀에게 실질적인 가이드가 될 수 있다. 현장 관점에선 결과물 품질보다 파이프라인 구성 방식 자체가 배울 점이 많은 케이스다.

🔗 원문 보기 — Music video Workflow in ComfyStudio Pro: Song to Keyframes to Generated Edit

5. Flux Kl·ein 4b + Inpaint 크롭 노드 워크플로우: 실전 인페인팅 조합 공유

Flux Klein 4b 모델에 Klein 4b Outpaint LoRA, Inpaint Crop 노드, Florence2·SAM2 마스크를 조합한 워크플로우가 공유됐다. 마스크 반전으로 특정 오브젝트만 유지하거나 제거하는 방식, 직접 마스크 드로잉 모드까지 지원한다. 구글 드라이브 링크로 워크플로우 파일이 바로 제공된다. 기존 Inpaint 작업 속도와 정밀도 모두 잡으려는 시도로, 합성·보정 작업이 잦은 광고 제작팀에게 참고할 만하다. 현장 관점에선 SAM2 세그멘테이션 정확도가 한국어 자막·로고 영역 제거 작업에도 쓸 수 있는지 테스트해볼 가치가 있다.

🔗 원문 보기 — I’ve been having so much fun with this Inpaint workflow I wanted to share. Flux Klien 4b, Klein 4b outpaint lora, Inpaint crop node…

6. 디퓨전 트랜스포머 비디오 생성, 토큰별 스텝 수 달리해 연산 비용 절감

arXiv 논문(2605.06892)에서 디퓨전 트랜스포머 기반 영상 생성 시 모든 토큰에 동일한 디노이징 스텝(보통 40스텝)을 적용하는 게 비효율적이라는 걸 수치로 증명했다. 토큰별로 필요한 스텝 수를 다르게 할당하면 품질 저하 없이 연산량을 대폭 줄일 수 있다는 것이다. 당장 상용 툴에 적용된 건 아니지만, Runway·Kling·Veo 같은 DiT 기반 서비스들의 속도·비용 개선에 직접 영향을 줄 수 있는 연구다. 현장 관점에선 이 방식이 상용화되면 동일 크레딧으로 더 긴 클립 생성이 가능해지는 구조라 주시할 필요가 있다.

🔗 원문 보기 — Not All Tokens Need 40 Steps: Heterogeneous Step Allocation in Diffusion Transformers for Efficient Video Generation

7. 3D Gaussian Splatting 적응형 분할로 지오메트리 탐색 속도 향상

arXiv 논문(2605.06876)이 3D Gaussian Splatting의 고질적 병목인 ‘밀도 제어 단계’를 개선하는 AdpSplit 방식을 제안했다. 기존 고정 분할 방식 대신 오차 기반으로 분할 수를 동적으로 결정해 지오메트리 탐색을 빠르게 한다. 3DGS는 실사 배경 스캔·세트 디지털화에 영상 제작 현장에서 이미 쓰이기 시작한 기술이라 관련 파이프라인 최적화에 직결된다. 논문 레벨이라 즉시 적용은 어렵지만, ComfyUI·Blender 플러그인 형태로 빠르게 이식되는 경향이 있어 주시할 만하다. 현장 관점에선 촬영 세트를 3DGS로 캡처하는 팀이라면 처리 시간 단축 효과를 직접 체감할 수 있는 연구다.

🔗 원문 보기 — AdpSplit: Error-Driven Adaptive Splitting for Faster Geometry Discovery in 3D Gaussian Splatting

8. 긴 영상 일관성 문제: A²RD 오토리그레시브 디퓨전으로 내러티브 붕괴 완화

arXiv 논문(2605.06924)이 긴 영상 생성에서 발생하는 의미 드리프트·내러티브 붕괴 문제를 오토리그레시브 디퓨전 구조(A²RD)로 완화하는 방법을 제안했다. 현재 Kling·Runway·Sora 등 상용 툴에서 30초 이상 영상 생성 시 등장인물 외형이나 스토리 흐름이 깨지는 문제가 공통 단점으로 지목돼 왔다. 이 연구가 실제 서비스에 반영되기까지는 시간이 걸리지만, 문제 해결의 방향성 자체는 영상 제작자가 이해해둘 필요가 있다. 현장 관점에선 지금 당장은 긴 클립 단일 생성보다 숏 클립 조합 편집이 현실적인 대안이라는 걸 이 논문도 간접적으로 확인해주는 셈이다.

🔗 원문 보기 — A²RD: Agentic Autoregressive Diffusion for Long Video Consistency

9. Suno AI로 곡 만들고 뮤직비디오까지: 2026년 무료 툴 중심 실전 가이드

Suno AI로 곡을 생성하고 영상으로 만들어 유튜브에 업로드하는 전 과정을 무료 툴 중심으로 정리한 튜토리얼이 공개됐다. 가사 프롬프트 작성법, 영상 생성 연동, 업로드까지 단계별로 다루고 있다. 한국에서도 인디 뮤지션·1인 제작자들이 Suno를 이미 쓰고 있는 만큼 실용적인 참고 자료가 될 수 있다. 다만 Suno의 상업적 사용 조건(유료 플랜 가입 여부에 따른 저작권 귀속)은 반드시 사전 확인해야 하고, 한국 음악 저작권법과의 충돌 가능성도 무시할 수 없다. 현장 관점에선 완성도보다 빠른 데모·피칭용 소재 제작에 가장 현실적인 용도다.

🔗 원문 보기 — How To Create Songs & Music Videos Using Suno AI (Full Free Guide 2026)

10. NVIDIA CUDA, 하드웨어 아닌 소프트웨어 해자(垓子)가 진짜 경쟁력

CUDA 생태계가 NVIDIA의 실질적 진입 장벽이라는 분석이 재조명됐다. AI 영상 생성 툴 대부분이 CUDA 최적화 기반으로 개발돼 있어, AMD·인텔 GPU로의 전환이 스펙 대비 실제 성능에서 여전히 격차를 보이는 이유가 여기 있다. 로컬 ComfyUI 세팅을 AMD GPU로 시도했다가 고생한 경험이 있다면 이 구조적 이유를 이해하는 게 도움이 된다. 단기간에 바뀔 구조가 아니라는 점에서 GPU 구매·업그레이드 결정 시 CUDA 호환성을 최우선 기준으로 두는 게 현실적이다. 현장 관점에선 ‘성능 좋고 저렴한 AMD’라는 스펙시트 비교는 AI 워크플로우에서 그대로 통하지 않는다.

🔗 원문 보기 — CUDA Proves Nvidia Is a Software Company


📱 매일 AI 관련 뉴스 받고 싶으시면 텔레그램 팔로우해주세요!

👉 https://t.me/reelai_kr

매일 오전 9시 발행 · 영상 제작 현장이 알아야 할 핵심만

댓글 남기기