오늘의 AI 뉴스 — 2026/05/07 (목)

AI 영상·이미지·생성 도구 분야의 오늘(2026/05/07) 핵심 뉴스 10건을
한국 영상 제작자 관점으로 정리했습니다.

1. 텐센트 애니메이션 특화 영상 모델 AniMatrix 공개 임박

텐센트가 애니메이션 영상 생성 특화 모델 AniMatrix를 arXiv 논문(2605.03652)과 함께 공개 예고했다. 모델 가중치와 추론 코드를 전면 오픈소스로 공개할 예정이며, 논문에 따르면 다양한 애니메이션 스타일의 일관성 유지에 초점을 맞췄다. 릴리즈 시점은 미정이나 논문이 이미 올라온 만큼 수주 내 배포 가능성이 높다. 뮤직비디오나 애니메이션 스타일 광고 제작에 Kling·Wan과 비교 테스트할 가치가 있고, 오픈소스라면 로컬 구동 비용 부담도 없다. 현장 관점에선 텐센트발 오픈소스 모델이 실제로 약속대로 나온 전례가 있으니 이번에도 지켜볼 만하다.

회로 기판 위 구리 패턴과 납땜 포인트를 극단적으로 클로즈업한 차갑고 단색에 가까운 블루 톤의 매크로 추상 이미지

🔗 원문 보기 — Tencent is about to release an anime video model (AniMatrix).

2. LTX 2.3, RTX 3060 12GB로 실사용 가능한 수준 확인

ComfyUI 유저들이 LTX Video 2.3을 RTX 3060(12GB VRAM)·32GB DDR5 환경에서 구동해 8초 클립 생성에 성공한 작업물을 공유했다. Kijai 워크플로 기준으로 실제 스토리 주도 판타지 프로젝트와 키프레임 기반 장면 전환에도 활용 중이며, ID LoRA + 프롬프트 릴레이 조합 워크플로는 Civitai(모델 ID 2553704)에 공개돼 있다. 고가 GPU 없이도 캐릭터 일관성과 씬 연속성을 어느 정도 잡을 수 있다는 점이 확인된 것. 현장 관점에선 3060급 로컬 환경에서 클라우드 비용 없이 반복 수정이 가능하다는 게 핵심이고, 워크플로가 공개돼 있어 진입 장벽도 낮다.

🔗 원문 보기 — Kijai LTX 2.3 WIth 12 GB of VRam demo reel

3. ComfyUI 캐릭터 컴포저 노드, 하룻밤에 다운로드 3,000건 돌파

ComfyUI용 캐릭터 일관성 유지 노드 ‘Character Composer’가 공유 직후 하루 만에 160건에서 3,000건 이상으로 다운로드가 급등했다. 개발자가 버그 수정 및 기능 통합 버전을 Hugging Face에 업로드했으며, 내일 ‘Reference Latent Plus’ 노드(자동 마스킹·이미지별 타임스텝 설정 지원)도 GitHub에 추가 공개된다. 두 노드 모두 여러 레퍼런스 이미지에서 원하는 부분만 추출해 캐릭터를 합성하는 용도로, 광고나 시리즈 콘텐츠의 캐릭터 고정에 실질적으로 쓸 수 있다. 현장 관점에선 Flux·LTX 워크플로에 끼워 넣는 방식이라 기존 파이프라인 교체 없이 테스트 가능하다는 점이 메리트다.

🔗 원문 보기 — Thanks to the sub my silly node and workflow got 3k downloads overnight, therefore I fixed some bugs, unified some features, and uploaded the latest and the greatest version to HF.

4. 인터랙티브 영상 생성 ‘Causal Forcing’, RTX 3060서 2초 영상 11초 만에 출력

Causal Forcing 기반 인터랙티브 영상 생성 모델이 공개됐다. RTX 3060 환경에서 848×480 해상도 2초 영상을 4스텝(ar_sampler+simple)으로 11초 만에 생성한다고 명시됐다. 코드·모델(원본 및 safetensors 포맷) 모두 공개 상태이며, 사용자 입력에 반응하는 인터랙티브 영상 제작 가능성을 보여준다. 아직 실험적 단계이나 반응 속도 자체는 실시간 프리뷰 수준에 근접한다. 현장 관점에선 인터랙티브 광고나 라이브 이벤트 연동 콘텐츠 프로토타입용으로 탐색해볼 만한 속도이고, 로컬 구동이라 반복 실험 비용이 없다.

🔗 원문 보기 — Interactive Video Generation (Causal Forcing) – High Speed!

5. Google, Flow Music·Lyria 3 Pro를 실제 아티스트 배포망에 연결

구글이 음악 배급사 Believe 및 TuneCore와 파트너십을 맺고 AI 음악 생성 툴 Flow Music과 Lyria 3 Pro를 아티스트·프로듀서·송라이터에게 직접 제공하기로 했다. Flow Music은 기존 ProducerAI에서 리브랜딩된 서비스로, TuneCore 네트워크를 통해 인디 아티스트까지 접근 가능해진다. 구체적인 요금 구조는 아직 미공개다. 뮤직비디오 제작 과정에서 레퍼런스 트랙 제작이나 사운드 베드 생성에 Suno·Udio 대신 선택지가 하나 더 생긴 셈이다. 현장 관점에선 배급망과 연동된다는 점이 저작권 리스크 측면에서 상업 프로젝트에 더 안전한 옵션이 될 수 있다.

🔗 원문 보기 — Google Is Bringing Flow Music and Lyria 3 Pro to Real Artists

6. ElevenLabs 에이전트, 이미지·PDF·오디오 멀티모달 지원으로 확장

ElevenLabs가 ElevenAgents에 이미지, PDF, 오디오 노트, 연락처, 위치 정보 처리 기능을 추가했다. 기존 음성·채팅 전용에서 멀티모달 고객 지원 에이전트로 포지셔닝을 바꾸는 업데이트다. 영상 제작사 입장에선 클라이언트 브리프(PDF)를 에이전트에 직접 던지고 나레이션 스크립트나 사운드 방향을 뽑아내는 식의 워크플로 자동화에 활용 가능하다. 요금 변화는 별도 공지되지 않았다. 현장 관점에선 기능 확장 자체보다 실제 API 안정성과 한국어 음성 품질이 여전히 관건이라 바로 프로덕션에 투입하기 전 테스트가 필수다.

🔗 원문 보기 — ElevenLabs Is Turning ElevenAgents Into Multimodal Customer Support Agents

7. Stable Diffusion 암기 현상, CLIP 임베딩이 핵심 원인으로 지목

arXiv 논문(2605.02908)에서 Stable Diffusion 계열 모델의 학습 데이터 암기(memorization) 현상이 UNet이 아닌 CLIP 텍스트 임베딩 단계에서 주로 발생한다는 분석이 나왔다. 이는 상업 광고·뮤직비디오 제작 시 특정 프롬프트로 원본 이미지가 재현될 수 있다는 저작권 리스크와 직결된다. 특히 Flux 등 CLIP 기반 텍스트 인코더를 사용하는 파생 모델에도 동일하게 적용될 가능성이 있다. 현장 관점에선 클라이언트 납품용 결과물에 Stable Diffusion 계열을 쓴다면 동일 프롬프트로 결과물의 출처를 확인하는 습관이 법적 방어선이 될 수 있다.

🔗 원문 보기 — Memorization In Stable Diffusion Is Unexpectedly Driven by CLIP Embeddings

8. VEBench: 실제 영상 편집 능력 평가 벤치마크 공개

영상 편집 특화 멀티모달 LLM 평가 프레임워크 VEBench가 arXiv(2605.03276)에 공개됐다. 단순 생성 품질이 아니라 촬영 기법 이해, 멀티모달 추론, 편집 판단력을 종합 평가하는 구조다. 현재 상용 모델들이 실제 영상 편집 맥락에서 어느 수준인지 수치로 비교할 수 있는 기준이 생겼다는 점에서 의미가 있다. AI 어시스턴트를 편집 보조로 도입 검토 중인 포스트 프로덕션 팀이라면 이 벤치마크 결과를 도구 선정 기준으로 활용할 수 있다. 현장 관점에선 벤치마크 수치가 실제 한국어 컷 편집 지시에서 동일하게 나오는지는 별도로 확인해야 한다.

🔗 원문 보기 — VEBench:Benchmarking Large Multimodal Models for Real-World Video Editing

9. AI 뮤직비디오 채널, 월 $10K+ 수익 구조 분석 나와

2026년 기준 유튜브 AI 페이스리스 뮤직비디오 채널들이 월 1,000만 원 이상 수익을 올리고 있다는 운영자 분석이 공유됐다. 미스터리·트루크라임·브레인롯 등 포화 니치를 피하고 AI 오케스트레이션 기반 뮤직비디오 포맷이 상대적으로 경쟁이 낮다고 분석한다. 다만 수익 수치는 상위 채널 기준이며, 유튜브 수익화 정책상 AI 생성 콘텐츠 라벨링 의무가 강화되는 추세여서 국내 적용 시 플랫폼 정책 변수를 반드시 확인해야 한다. 현장 관점에선 수익 구조보다 콘텐츠 포맷의 차별화 전략 자체가 뮤직비디오 제작사의 부업 채널 기획에 참고할 만하다.

🔗 원문 보기 — AI Music Video Channels Are Making $10K+ Per Month | Ultimate Step by Step Guide (2026)

10. Houdini·UE5 조합 프로시저럴 파괴 파이프라인 워크플로 공개

Lea Seiler와 Vishwaas Khare가 Houdini로 프랙처 로직을 설계하고 Unreal Engine 5의 Chaos Physics와 연동하는 프로시저럴 파괴 프레임워크 워크플로를 공개했다. 확장성과 퍼포먼스를 동시에 잡기 위해 Houdini에서 파괴 단위를 파라미터화한 뒤 UE5에 임포트하는 방식이다. 국내 광고·게임 시네마틱에서 폭발·붕괴 시퀀스를 매번 수동으로 시뮬레이션하는 팀에게 반복 작업 비용을 줄일 수 있는 구체적인 레퍼런스가 된다. 현장 관점에선 Houdini 라이선스 비용(연간 수백만 원대)이 진입 장벽이지만, Apprentice 버전으로 파이프라인 구조 자체는 먼저 익혀둘 수 있다.

🔗 원문 보기 — Building a Procedural Destruction Pipeline with Houdini and Unreal Engine 5


📱 매일 AI 관련 뉴스 받고 싶으시면 텔레그램 팔로우해주세요!

👉 https://t.me/reelai_kr

매일 오전 9시 발행 · 영상 제작 현장이 알아야 할 핵심만

댓글 남기기