오늘의 AI 뉴스 — 2026/05/20 (수)

AI 영상·이미지·생성 도구 분야의 오늘(2026/05/20) 핵심 뉴스 10건을
한국 영상 제작자 관점으로 정리했습니다.

1. Google I/O 2026: Gemini Omni, 대화만으로 영상 생성·편집

Google I/O 2026에서 공개된 Gemini Omni는 텍스트·이미지·오디오·영상을 동시에 처리하는 멀티모달 모델로, 일반 대화 방식으로 영상을 생성하고 편집할 수 있다. 우선 Omni Flash 버전부터 순차 출시 예정이며, 구체적인 해상도·길이 스펙은 아직 공개되지 않았다. Gemini 3.5 Flash는 에이전트 자율 실행에 초점을 맞춰 단순 챗봇이 아닌 작업 자동화 플랫폼으로 포지셔닝됐다. Google Pics라는 별도 이미지 생성·편집 툴도 Workspace에 통합 예정이다. 현장 관점에선 스펙 공개가 없는 발표는 절반짜리 뉴스지만, Workspace 통합이 실현되면 후반 작업 협업 파이프라인에서 무시하기 어려운 변수가 된다.

서리 낀 유리 표면에 새겨진 디지털 워터마크를 아래에서 올려다보는 차가운 블루-그레이 톤의 추상적 매크로 클로즈업 이미지

🔗 원문 보기 — Google’s Gemini Omni turns images, audio, and text into video — and that’s just the start

2. OpenAI, C2PA + SynthID 도입으로 AI 생성 이미지 출처 표기 의무화

OpenAI가 자사 모델로 생성된 이미지에 C2PA 표준 Content Credentials와 Google SynthID를 동시 적용한다고 발표했다. 두 방식 모두 메타데이터 또는 워터마크 형태로 ‘AI 생성’ 여부를 기록하며, 별도 검증 툴도 함께 제공된다. 광고·뮤직비디오 납품 시 클라이언트 또는 플랫폼이 AI 생성 여부를 기술적으로 확인할 수 있는 시대가 본격화된다는 의미다. 국내 방송·OTT 플랫폼이 이 기준을 납품 규정에 반영할 경우 제작 파이프라인 전반을 재검토해야 할 수 있다. 현장 관점에선 ‘몰래 쓰는 AI’의 시대가 서서히 끝나가고 있으니, 클라이언트와의 계약서 AI 사용 조항을 미리 정비해두는 게 낫다.

🔗 원문 보기 — Advancing content provenance for a safer, more transparent AI ecosystem

3. ElevenLabs, 이미지·영상 생성까지 확장—풀스택 미디어 플랫폼 선언

음성 AI 플랫폼 ElevenLabs가 이미지 및 영상 생성 기능으로 서비스 범위를 공식 확장한다고 밝혔다. NYT·HarperCollins·Epic Games·Cisco 등 대형 클라이언트를 보유한 ElevenLabs가 오디오 단일 플랫폼에서 ‘풀스택 미디어 컴퍼니’로 전환을 선언한 것이다. 현재 음성 더빙·SFX 용도로 ElevenLabs를 쓰는 제작사 입장에서는 같은 플랫폼 안에서 비주얼 에셋까지 처리할 수 있는 가능성이 열린 셈이다. 다만 실제 영상 품질과 출시 일정은 아직 불명확하다. 현장 관점에선 오디오 퀄리티로 신뢰를 쌓은 회사가 비주얼로 넘어오는 것은 반가운 일이지만, 두 마리 토끼를 잡으려다 둘 다 놓치는 전례가 업계에 적지 않다.

🔗 원문 보기 — ElevenLabs is expanding into image and video generation.

4. Mozart AI, $600만 시드 투자 유치—DAW 스타일 AI 음악 스튜디오 구축

Mozart AI가 Balderton Capital 주도로 600만 달러 시드 투자를 유치했다. 이 플랫폼은 서드파티 생성 오디오 모델을 DAW 방식 워크스페이스로 감싸며, 스템 분리·MIDI·이펙트·자동 템포 스트레칭·변주 생성·뮤직비디오 출력을 하나의 프로젝트 단위로 묶는다. 뮤직비디오 제작자 입장에서는 음악 시안 단계부터 영상 연동 레퍼런스를 생성할 수 있는 파이프라인이 가능해질 수 있다. 현재 베타 단계이며 정식 가격 정책은 미공개다. 현장 관점에선 투자 규모보다 ‘DAW 안에서 뮤직비디오 출력’이라는 콘셉트가 실제로 구현되는지 여부가 핵심이고, 베타 접근권을 미리 확보해두는 것이 유리하다.

🔗 원문 보기 — Mozart AI just closed a $6M seed led by Balderton to build an editable music studio on top of generative audio.

5. AI 영상 플랫폼 6종 14컷 캐릭터 일관성 비교—프로덕션 스케일 실험 결과

소규모 스튜디오 프로덕션 매니저가 6개월간 6개 AI 영상 플랫폼을 대상으로 14컷 분량의 캐릭터 일관성을 테스트한 결과를 공개했다. 단일 클립 품질이 아닌 ‘멀티 컷 시퀀스에서 동일 캐릭터가 유지되는지’를 기준으로 평가한 점이 기존 리뷰와 다르다. 구체 수치와 플랫폼별 순위는 원문에서 확인 가능하며, 어떤 툴도 14컷 내내 완벽한 일관성을 유지하지 못했다는 것이 핵심 결론이다. 현장 관점에선 광고·뮤직비디오처럼 캐릭터 연속성이 필수인 작업에서 아직 AI 영상을 단독 파이프라인으로 쓰기에는 무리가 있다는 걸 수치로 확인해주는 자료다.

🔗 원문 보기 — Character consistency across 14 shots: testing six AI video platforms at production scale

6. ComfyUI LTX 2.3 LipDub LoRA—6GB VRAM으로 다국어 립싱크 더빙

Lightricks가 공개한 ic-lora LipDub를 활용한 ComfyUI 튜토리얼이 공개됐다. RTX 급 6GB VRAM, 16GB RAM 환경에서 실행 가능하며, 기존 영상의 립무브먼트를 다른 언어 오디오에 맞게 재합성하는 더빙 워크플로우다. 한국어 더빙 적용도 이론상 가능하나, 실제 한국어 음소 매핑 정밀도는 별도 검증이 필요하다. VRAM 요건이 낮아 엔트리급 작업 환경에서도 테스트해볼 수 있다는 점이 실용적이다. 현장 관점에선 해외 콘텐츠 한국어 더빙 또는 한국 광고의 다국어 버전 제작 비용을 줄일 수 있는 실질적인 툴로, 당장 파일럿 테스트할 가치가 있다.

🔗 원문 보기 — ComfyUI Tutorial: Realistic AI Lip Sync Dubbing with LTX 2.3 LORA Low Vram workflow (6 Gb Vram,16 Gb of Ram)

7. LTX Director로 로컬 I2V ‘이미지 흔들기’ 탈출—샷 디렉션 수준 제어 가능

LTX 2.3 기반 LTX Director 워크플로우를 활용하면 기존 로컬 I2V의 고질적 문제인 ‘같은 앵글에서 미세하게 흔들리는’ 현상에서 벗어나 카메라 무브먼트 방향을 의도적으로 제어할 수 있다는 사용자 실험 결과가 공개됐다. 단, 반대 사례로 ‘LTX 2.3 GGUF에서 카메라가 프롬프트를 무시하고 계속 인 줌을 반복한다’는 버그 리포트도 같은 커뮤니티에서 동시에 올라왔다. 즉 모델 버전과 워크플로우 구성에 따라 결과가 크게 갈린다. 현장 관점에선 로컬 I2V를 진지하게 파이프라인에 넣으려면 Director 워크플로우를 먼저 테스트하되, GGUF 버전 카메라 버그는 반드시 확인하고 시작해야 한다.

🔗 원문 보기 — Local I2V finally feels less like image wiggle and more like shot direction with LTX Director

8. NVIDIA RTX 2-Pass 업스케일러—4GB VRAM·8GB RAM으로 AI 영상 업스케일

LTX 2.3 모델 작업 중 개발된 NVIDIA RTX 2-Pass 업스케일러가 커뮤니티에 공개됐다. VRAM 4GB, 일반 RAM 8GB라는 극히 낮은 사양에서 동작하도록 설계된 것이 핵심으로, 저사양 장비로 AI 영상을 생성한 후 별도 업스케일 단계를 추가하는 2단계 파이프라인에 적합하다. 구체적인 처리 속도와 최대 출력 해상도는 원문에서 확인 가능하다. RTX 미지원 GPU 환경에서는 적용 불가라는 제약이 있다. 현장 관점에선 풀 사양 워크스테이션 없이 AI 영상 제작을 시도하는 1인 제작자에게 실질적으로 가장 유용한 툴 중 하나가 될 수 있다.

🔗 원문 보기 — Nvidia RTX 2 pass Upscaler (4GB VRAM + 8GB RAM)

9. LumiPic—SDR 이미지를 HDR EXR로 변환하는 LoRA, Kling Base 4·9 지원 예정

LTX LoRA 제작자 Oumoumad가 개발한 LumiPic은 단일 SDR 이미지를 HDR EXR 파일로 변환하는 LoRA다. 출력 파일이 float 값으로 8비트 SDR 범위를 초과하는 하이다이나믹레인지를 가지며, 현재 Qwen 기반 모델을 지원하고 조만간 Kling Base 4·9 지원도 추가될 예정이다. 광고·뮤직비디오의 컬러그레이딩 소스 퀄리티를 높이거나, AI 생성 이미지를 합성 파이프라인에 넣을 때 다이나믹레인지 문제를 해결하는 데 직접 활용 가능하다. 현장 관점에선 AI 생성 이미지의 SDR 한계를 후반 합성 단계에서 보완하는 실용적 접근이며, Kling 지원 시 국내 사용자 적용 범위가 크게 넓어진다.

🔗 원문 보기 — LumiPic: Oumoumad’s (LTX lora fame) SDR->HDR conversion LoRAs for Qwen, soon Kline Base 4 & 9

10. ComfyUI Anima 캐릭터 생성 v1.3—풀바디 일관성 대폭 개선

ComfyUI용 캐릭터 생성 워크플로우가 v1.3으로 업데이트되며 Anima-Base 모델이 통합됐다. 풀바디 캐릭터 생성 시 디테일 일관성이 이전 버전 대비 개선됐으며, 듀얼 RTX 5060 Ti 환경(16GB VRAM×2)에서 Anima + Turbo LoRA 조합으로 컷당 약 4초 생성 속도가 확인됐다. 5060 Ti 듀얼 구성의 실제 벤치마크가 부족했던 상황에서 구체적인 수치가 나온 점이 의미 있다. 광고·뮤직비디오용 고정 캐릭터 에셋 제작에 바로 적용 가능한 워크플로우다. 현장 관점에선 캐릭터 일관성이 여전히 AI 영상의 약점인 만큼, 스틸 에셋 단계에서 먼저 일관성을 잡고 영상으로 넘기는 이 방식이 현실적인 대안이다.

🔗 원문 보기 — Update Characters generator – v1.3 Now with Anima! | Generation of detailed сharacter for full body


📱 매일 AI 관련 뉴스 받고 싶으시면 텔레그램 팔로우해주세요!

👉 https://t.me/reelai_kr

매일 오전 9시 발행 · 영상 제작 현장이 알아야 할 핵심만

댓글 남기기