AI 영상·이미지·생성 도구 분야의 오늘(2026/05/13) 핵심 뉴스 10건을
한국 영상 제작자 관점으로 정리했습니다.
1. Alice v1: 140억 파라미터 오픈소스 영상 생성 모델, 클로즈드소스 추월 주장
mirage-video 팀이 공개한 Alice v1은 14B MoE 구조의 오픈소스 텍스트-투-비디오 모델로, HuggingFace에서 가중치가 공개됐다. 개발팀은 벤치마크 기준 일부 클로즈드소스 모델을 앞선다고 주장하며 GitHub에 코드도 함께 배포했다. 14B급 모델인 만큼 소비자 GPU로는 무리가 있을 수 있고, ‘추월’ 주장은 직접 돌려보기 전까진 액면 그대로 받아들이지 말 것. 현장 관점에선 오픈소스 진영의 T2V 모델이 이 수준까지 올라왔다는 사실 자체가 프리 프로덕션 레퍼런스 생성 워크플로에 변수가 된다.

🔗 원문 보기 — Alice v1: Distillation-Enhanced Video Generation Surpassing Closed-Source Models
2. LTX-2.3 추론 속도, RTX 3080Ti에서 300초→45초로 단축한 최적화 사례
RTX 3080Ti 사설 서버 환경에서 LTX-2.3 영상 생성 추론 시간을 기존 300초에서 45초까지 줄인 구체적인 방법이 공유됐다. 로컬 인퍼런스 비용을 낮추고 싶은 제작사 입장에서 클라우드 API 의존을 줄일 수 있는 실질적 레퍼런스다. 3080Ti는 현재 국내 중고 시장에서 40~50만 원대로, 상업 AI 영상 작업용 서버 구성 비용 계산에 직접 참고할 수 있다. 현장 관점에선 속도 개선 방법론이 구체 수치와 함께 공개된 드문 사례라 벤치마크 기준점으로 쓸 만하다.
🔗 원문 보기 — Optimizing LTX-2.3 Inference Speed: from 300s to 45s on an RTX 3080Ti
3. Runway·Seedance·Suno 조합으로 만든 AI 뮤직비디오 실제 사례 공개
Runway, Seedance, Imagen 2, Suno를 조합해 제작한 ‘Paper Bag Crown’ AI 뮤직비디오가 공개됐다. 현재 실무에서 많이 회자되는 멀티툴 파이프라인을 실제 완성물로 확인할 수 있는 케이스다. 특히 Seedance 2.0을 Whiskas 광고 제작에도 활용한 사례가 같은 날 올라와, Seedance의 광고·뮤직비디오 양쪽 적용 가능성을 동시에 확인할 수 있다. 현장 관점에선 어떤 장면에 어떤 툴을 배분했는지가 핵심인데, 원문 댓글 스레드에서 제작자가 직접 설명하고 있으니 그쪽을 먼저 읽는 게 낫다.
🔗 원문 보기 — Checkered Future – “Paper Bag Crown” [AI Music Video] (Runway, Seedance, Imagen 2, Suno)
4. HiDream-O1, AI-Toolkit에서 LoRA 트레이닝 지원 시작
Ostris의 ai-toolkit이 HiDream-O1 모델의 LoRA 학습을 공식 지원하기 시작했다. 텍스트 임베딩 캐싱을 비활성화해야 한다는 주의사항이 있으며, 토큰이 모델에 직접 입력되는 구조라 기존 FLUX 학습 설정을 그대로 쓰면 오류가 난다. HiDream-O1은 저 VRAM 환경에서도 4개 레퍼런스 이미지 기반 편집이 가능하다는 점에서 광고 제품 일관성 유지 작업에 쓸 수 있다. 현장 관점에선 커스텀 캐릭터·제품 LoRA를 직접 뽑을 수 있는 파이프라인이 하나 더 생긴 셈이니, FLUX LoRA 이미 돌리고 있는 스튜디오라면 테스트 가치는 있다.
🔗 원문 보기 — Ostris/AI-Toolkit Supports HiDream O1 Training
5. Chroma1-HD + Flux.2 Dev로 캐릭터 전이 워크플로, ComfyUI에서 구현
ComfyUI 기반 Chroma1-HD와 Flux.2 Dev를 결합한 캐릭터 트랜스퍼 워크플로가 공개됐다. 텍스트-투-이미지 파이프라인에 멀티모달 기능을 더하는 방식으로, 오픈소스 이미지 모델에서 캐릭터 일관성 문제를 다루는 실질적 해법 중 하나다. 별도 파인튜닝 없이 레퍼런스 이미지의 캐릭터를 새 장면에 이식할 수 있다는 점에서 광고 모델 지속성 유지에 응용 가능하다. 현장 관점에선 아직 얼굴 일치 정확도에 한계가 있을 가능성이 높으니, 클로즈업 컷보다는 분위기·스타일 전이 용도로 먼저 테스트해 보길 권한다.
🔗 원문 보기 — Chroma1-HD Character Transfer with Flux.2 Dev
6. FLUX Fill + ControlNet 결합 인페인팅, 구조 제어 가능해졌다
FLUX.1-Fill-dev 모델에 ControlNet 신호(뎁스 맵 등)를 동시에 주입하는 방식이 실험적으로 구현됐다. 기존 Fill 모델은 마스크 영역 편집은 강하지만 구조 제어 채널이 없어 결과물의 공간 일관성이 떨어지는 문제가 있었다. 이 접근법은 제품 합성이나 배경 교체 작업에서 원본 레이아웃을 유지하면서 인페인팅을 걸어야 할 때 특히 유효하다. 현장 관점에선 광고 영상의 제품 CG 합성 사전 컨셉 이미지 작업에 바로 써먹을 수 있는 조합이고, 워크플로 파일도 함께 공유됐으니 바로 테스트 가능하다.
🔗 원문 보기 — I combined FLUX Fill with ControlNet for structured inpainting
7. Blender Studio, 첫 4K HDR 단편 ‘Singularity’ 공개 — 수채화 스타일 + 생성 시뮬레이션
Blender Studio가 수채화 풍 비주얼과 생성형 시뮬레이션을 결합한 4K HDR 단편 애니메이션 ‘Singularity’를 공개했다. 우주에서 길을 잃은 작은 생명체 이야기로, Blender 오픈소스 파이프라인이 HDR 포맷까지 커버할 수 있음을 실증한 레퍼런스 작품이다. 생성 시뮬레이션 기법과 수작업 스타일을 어떻게 혼합했는지가 기술적으로 눈여겨볼 포인트다. 현장 관점에선 고예산 툴 없이 Blender만으로 4K HDR 납품 파이프라인을 구성할 수 있다는 방증이라 OTT 콘텐츠 제작팀에게 참고할 만한 케이스다.
🔗 원문 보기 — Blender Studio Releases Its First 4K HDR Short Film, Singularity
8. MULTITEXTEDIT 논문: AI 텍스트-인-이미지 편집, 비영어권에서 성능 급락 확인
arXiv에 공개된 MULTITEXTEDIT 벤치마크 논문은 기존 텍스트-인-이미지 편집 모델들이 영어 이외 언어에서 성능이 크게 저하된다는 것을 실증적으로 측정했다. 한국어를 포함한 비영어권 텍스트 편집 작업에서 오류율이 유의미하게 높아지는 패턴이 확인됐다. 한국어 카피나 로고 텍스트를 이미지 안에 직접 삽입·편집해야 하는 광고 작업에서는 AI 자동화 의존도를 낮추고 후보정 단계를 반드시 확보해야 한다는 근거가 생긴 셈이다. 현장 관점에선 ‘한국어 프롬프트로 잘 된다’는 경험담과 ‘벤치마크 수치’는 다른 얘기이므로, 납품 전 한국어 텍스트 결과물은 무조건 사람이 검수해야 한다.
🔗 원문 보기 — MULTITEXTEDIT: Benchmarking Cross-Lingual Degradation in Text-in-Image Editing
9. Suno AI 음악, TuneCore 거절 속출 — 유통사 대안 찾기 시작
Suno AI로 생성한 곡들이 TuneCore에서 일괄 거절되는 사례가 늘고 있으며, 제작자들이 대안 유통사를 공개적으로 모색 중이다. AI 생성 음악에 대한 디지털 유통 플랫폼의 정책이 강화되는 추세가 수면 위로 올라온 시점이다. 뮤직비디오·광고용 배경음악을 Suno로 제작 후 상업 배포까지 고려하는 경우라면 유통 단계에서 병목이 생길 수 있다. 현장 관점에선 AI 음악을 클라이언트에게 납품하는 라이선스 구조 자체를 계약서에 명시해두지 않으면 사후에 분쟁 소지가 있으니, 사용 범위와 귀속 조항을 지금 정리해두는 게 낫다.
🔗 원문 보기 — Which distributor are you using now for Suno AI music after TuneCore rejections?
10. SenseNova U1: 이해·생성 통합 멀티모달 아키텍처 공개
SenseTime이 공개한 SenseNova U1은 이미지 이해와 이미지 생성을 단일 아키텍처(NEO-Unify)로 처리하는 통합 멀티모달 모델이다. 기존 모델들이 인식과 생성에 별도 시스템을 쓰는 한계를 하나의 파이프라인으로 해결하려는 시도다. 광고 제작 레퍼런스 이미지를 분석하면서 동시에 유사 이미지를 생성하는 단일 API 흐름이 가능해질 경우 프리프로덕션 속도에 영향을 줄 수 있다. 현장 관점에선 SenseTime 제품 특성상 중국 서버 기반이라 데이터 보안 민감 클라이언트 프로젝트에 쓰기 전 계약 조건 확인이 선행돼야 한다.
🔗 원문 보기 — SenseNova U1: Unified Multimodal Generation with NEO-Unify Architecture
📱 매일 AI 관련 뉴스 받고 싶으시면 텔레그램 팔로우해주세요!
매일 오전 9시 발행 · 영상 제작 현장이 알아야 할 핵심만