AI 영상·이미지·생성 도구 분야의 오늘(2026/05/06) 핵심 뉴스 10건을
한국 영상 제작자 관점으로 정리했습니다.
1. Luma Uni-1, 파트너 노드 통해 정식 공개 — 추론 후 그리는 이미지 모델
Luma가 자사의 신규 오토리그레시브 이미지 모델 ‘Uni-1’을 파트너 노드를 통해 공개했다. 텍스트-이미지 생성과 편집을 단일 모델로 통합했으며, 비주얼 리즈닝 벤치마크에서 최상위 수준을 기록했다고 밝혔다. 기존 디퓨전 방식과 달리 ‘먼저 추론하고 그린다’는 구조로, 복잡한 장면 구성이나 다단계 편집 지시에 더 강한 일관성을 보일 가능성이 있다. 다만 현재 접근 경로가 파트너 노드 한정이라 일반 사용자가 바로 쓰기엔 진입 장벽이 있고, 한국 내 API 연동 비용과 레이턴시는 아직 미확인이다. 현장 관점에선 광고 시안 단계에서 레이아웃 확정용으로 써볼 만한 모델인지 실 테스트가 먼저다.

🔗 원문 보기 — Luma Uni-1 is now available via Partner Nodes
2. Blender → AI 영상 생성 연동 워크플로 상세 공개
한 제작자가 Blender를 레이아웃·카메라 컨트롤 도구로 활용해 AI 영상 생성의 불확실성을 줄이는 풀 워크플로를 공개했다. 오브젝트 위치, 카메라 앵글, 모션 타이밍을 Blender에서 먼저 확정한 뒤 AI 모델에 레퍼런스로 넣는 방식으로, ‘프롬프트 블라인드’ 문제를 구조적으로 우회한다. 별도 비용 없이 기존 Blender 환경을 그대로 쓴다는 점이 실용적이며, 특히 카메라 무빙을 정밀하게 제어해야 하는 광고·뮤직비디오 작업에 직접 적용 가능한 수준의 내용이다. 현장 관점에선 AI 영상 품질보다 ‘내가 원하는 걸 정확히 나오게 하는 방법’이 더 급한 문제인데, 이 방향이 현재로선 가장 현실적인 해법이다.
🔗 원문 보기 — I used Blender as a layout tool for AI video generation — here’s the full workflow
3. LTX 2.3, RTX 3060 8GB VRAM에서 구동 가능한 ComfyUI 워크플로 공개
RTX 3060 Ti(8GB VRAM) 환경에서 LTX 2.3을 돌리는 ComfyUI 워크플로가 공개됐다. 고사양 장비 없이도 로컬 AI 영상 생성이 가능하다는 점을 실증한 사례로, 워크플로 파일도 함께 배포됐다. 다만 같은 LTX 2.3 기반 V2V 확장 시도에서 10초 영상을 1분으로 늘릴 때 시간이 갈수록 화질이 저하되는 문제가 별도로 보고됐다 — 장편 콘텐츠 제작에는 아직 한계가 명확하다. 현장 관점에선 시안 단계나 숏폼 클립 제작용으로는 쓸 수 있지만, 롱폼 품질 일관성은 기대를 낮추고 시작해야 한다.
🔗 원문 보기 — LTX2.3 8GB VRAM WorkFlow
4. Flux Klein 9b + Wan 2.2 조합 실사 테스트 — RTX 5060 Ti 16GB 첫 구동
RTX 5060 Ti 16GB를 처음 받아 Flux Klein 9b, Z-Image Turbo, Wan 2.2를 조합한 ‘GTA 70년대 스타일’ 티저를 제작한 사례가 공개됐다. 워크플로 파일이 Google Drive로 배포됐으며, 신형 GPU 성능을 실제 크리에이티브 작업에서 검증한 첫 사례 중 하나다. 같은 세션에서 ‘Wireframe’ 스타일 LoRA도 함께 공개됐는데, Flux.2 Klein 9b 증류 모델 전용으로 트리거 워드는 ‘dvr_wf_style’, Huggingface에서 무료 다운로드 가능하다. 현장 관점에선 RTX 5060 Ti 구입을 고민 중인 제작자라면 이 워크플로가 실제 성능 판단 기준이 될 수 있다.
🔗 원문 보기 — GTA 70s – Teaser Trailer: Z-Image Turbo – Flux Klein 9b – Wan 2.2
5. Kling AI로 4분짜리 누아르 단편 제작 — 캐릭터 일관성 한계 직접 검증
한 제작자가 Kling AI를 사용해 4분 분량의 누아르 단편 영화를 제작하며 캐릭터 일관성 유지 가능 여부를 실험한 결과를 공개했다. 제목 그대로 ‘캐릭터 일관성에 도전’하는 프로젝트로, 현재 AI 영상 툴의 가장 큰 약점 중 하나를 실전 제작 환경에서 테스트한 사례다. 4분이라는 러닝타임은 현재 AI 영상 툴 기준으로 상당히 긴 편이며, 씬 전환과 반복 등장 인물 관리가 어느 수준까지 가능한지 가늠할 수 있는 레퍼런스가 된다. 현장 관점에선 뮤직비디오나 광고 시안에서 동일 인물이 계속 등장해야 하는 작업이라면 이 결과물을 먼저 확인하고 툴 선택을 결정하는 게 시간 낭비를 줄이는 길이다.
6. Pruna 신규 립싱크 모델로 뮤직비디오 제작 — 속도·품질 실사용 후기
Pruna의 신규 립싱크 모델을 뮤직비디오 제작에 적용한 실사용 후기가 공개됐다. 제작자는 ‘super fast and quite good’이라고 평가했으며, The Go Hards 곡에 맞춰 실제 결과물을 함께 공개했다. Pruna는 기존 모델 대비 추론 속도를 높이는 데 특화된 플랫폼으로, 립싱크 특화 모델을 별도 출시한 것은 이번이 처음이다. 립싱크 품질과 처리 속도 양쪽 모두를 실제 뮤직비디오 제작 맥락에서 확인할 수 있는 드문 사례다. 현장 관점에선 ElevenLabs나 Wav2Lip 계열 외에 선택지가 하나 더 생긴 셈이니, 납기 빠듯한 작업 전에 속도 벤치마크를 직접 돌려봐야 한다.
🔗 원문 보기 — Music Video (The Go Hards) using new lip sync model from Pruna – super fast and quite good
7. 미국 저작권청, 사진 등록 비용 55% 인상 추진 — AI 생성물 등록 비용 영향 주목
미국 저작권청(US Copyright Office)이 사진 저작권 등록 비용을 55% 인상하는 안을 제안했다. 인플레이션과 운영비 증가를 이유로 들었으며, 청은 ‘여전히 미미한 비용’이라고 주장하지만 업계 비판이 나오고 있다. 한국 시장에 직접 적용되는 규정은 아니지만, AI 생성 이미지·영상의 저작권 등록 논의가 미국에서 먼저 제도화될 경우 국내 기준 수립에도 영향을 미칠 수 있다. 특히 AI 생성물의 저작권 인정 여부 자체가 아직 미확정 상태에서 등록 비용 논의가 먼저 진행되는 상황이다. 현장 관점에선 지금 당장 지갑이 얇아지는 이슈는 아니지만, AI 생성 소재를 상업적으로 쓰는 제작자라면 국제 저작권 동향을 무시하면 나중에 후회한다.
🔗 원문 보기 — US Copyright Office Wants to Increase Cost to Register Photos by 55%
8. ElevenLabs, 블랙록·제이미 폭스 등 신규 투자 유치 — ARR 5억 달러 돌파
음성 AI 기업 ElevenLabs가 블랙록, 배우 제이미 폭스, 에바 롱고리아 등을 신규 투자자로 공개하며 연간 반복 매출(ARR) 5억 달러(약 6,800억 원) 달성을 선언했다. 엔터테인먼트 업계 유명인이 직접 투자자로 참여한 것은 보이스 AI가 단순 기술 도구를 넘어 콘텐츠 산업 인프라로 자리잡고 있다는 신호다. 한국에서도 더빙·나레이션·광고 VO 작업에 ElevenLabs를 쓰는 제작자가 빠르게 늘고 있는 상황에서, 기업 규모가 커질수록 API 안정성과 가격 정책 변동 가능성도 함께 커진다. 현장 관점에선 지금 당장 쓰고 있다면 가격 플랜 잠금 옵션을 미리 검토해두는 게 낫다.
🔗 원문 보기 — ElevenLabs lists BlackRock, Jamie Foxx, and Eva Longoria as new investors
9. Inworld AI, 실시간 음성 AI 모델 ‘TTS-2’ 공개 — 에이전트용 저레이턴시 특화
실시간 음성 AI 전문 기업 Inworld AI가 TTS-2 모델을 공개하며 r/InworldAI 커뮤니티를 함께 론칭했다. 에이전트 및 실시간 인터랙션에 최적화된 저레이턴시 TTS 모델로, 기존 ElevenLabs·Nari Labs 계열과 직접 경쟁 구도를 형성한다. 인터랙티브 콘텐츠, 실시간 라이브 방송, AI 캐릭터 보이스 등 레이턴시가 중요한 영상 제작 환경에서 실질적인 대안이 될 수 있다. 현재 한국어 지원 여부와 한국 서버 레이턴시는 미확인 상태로, 국내 라이브 콘텐츠 제작에 쓰려면 실측 테스트가 선행돼야 한다. 현장 관점에선 TTS 시장이 빠르게 분화되고 있는 만큼, 하나에 락인되기 전에 후보군을 넓혀두는 게 유리하다.
🔗 원문 보기 — Welcome to r/InworldAI. We build realtime voice AI — and we just launched TTS-2!
10. 페이스 스와핑 기술 종합 서베이 및 신규 벤치마크 논문 공개
GAN과 디퓨전 모델 기반 페이스 스와핑 기술의 최신 동향을 정리한 종합 서베이 논문(arXiv:2605.00883)이 공개됐다. 고충실도 얼굴 교체 기술의 현재 수준과 한계를 체계적으로 정리하고 새로운 벤치마크도 함께 제안했다. 학술 논문이지만, 광고·엔터테인먼트 업계에서 딥페이크·페이스 스와핑 기술의 실제 품질 한계를 파악하는 데 실용적인 레퍼런스가 된다. 특히 한국에서는 초상권·딥페이크 관련 법적 리스크가 점점 현실화되고 있어, 기술 수준 파악과 법적 리스크 관리를 동시에 고려해야 하는 시점이다. 현장 관점에선 ‘어디까지 됩니까’를 클라이언트에게 설명할 때 이런 벤치마크 데이터가 근거가 된다.
🔗 원문 보기 — Towards High Fidelity Face Swapping: A Comprehensive Survey and New Benchmark
📱 매일 AI 관련 뉴스 받고 싶으시면 텔레그램 팔로우해주세요!
매일 오전 9시 발행 · 영상 제작 현장이 알아야 할 핵심만