AI 영상·이미지·생성 도구 분야의 오늘(2026/05/21) 핵심 뉴스 10건을
한국 영상 제작자 관점으로 정리했습니다.
1. Stable Audio 3 출시 — 6분 음악 생성, 소형 모델은 온디바이스 구동
Stability AI가 Stable Audio 3을 공개했다. 최대 6분 길이의 음악과 효과음을 텍스트로 생성할 수 있으며, 소형(small) 모델은 클라우드 없이 기기 내에서 직접 구동된다. HarmonAI 디스코드를 통해 오픈 웨이트 버전도 함께 배포됐다. 기존 Stable Audio 2가 45초~90초 수준에 머물렀던 것과 비교하면 실질적인 업그레이드다. 광고·숏폼 영상의 BGM을 외부 라이선스 없이 자체 생성하려는 제작자라면 지금 바로 테스트해볼 가치가 있다. 단, 상업 라이선스 조건은 공식 문서에서 반드시 확인해야 하며 ‘오픈 웨이트’가 곧 ‘자유 상업 이용’을 의미하지 않는다는 점을 간과하면 안 된다. 현장 관점에선 납품용 BGM 비용을 줄이려는 1인 제작사에게 가장 먼저 실익이 닿을 툴이다.

🔗 원문 보기 — Announcing the release of Stable Audio 3!
2. OpenAI, ChatGPT 생성 이미지에 C2PA + SynthID 워터마크 의무 삽입
OpenAI가 ChatGPT, Codex, API로 생성된 이미지 전체에 C2PA 메타데이터와 Google DeepMind의 SynthID 워터마크를 동시 적용한다고 발표했다. C2PA는 파일 메타데이터에, SynthID는 픽셀 레벨에 삽입되는 방식으로 두 업계 표준을 병용한다. 이번 조치는 AI 생성 이미지의 출처 추적을 의무화하는 방향으로 업계가 빠르게 수렴하고 있음을 보여준다. 한국 광고·뮤직비디오 납품물에 AI 생성 이미지를 혼용하는 제작팀이라면 클라이언트나 방송사 측에서 이 메타데이터를 근거로 AI 사용 여부를 확인할 수 있다는 점을 미리 인지해야 한다. 현장 관점에선 ‘AI인지 모르게 납품’하는 시대가 기술적으로 좁아지고 있다는 신호다.
🔗 원문 보기 — OpenAI Gets Serious About Detecting Fake Images
3. Sony a7 V 펌웨어 2.00 — 오디오·FTP·프로덕션 툴 대거 추가
Sony가 a7 V 펌웨어 버전 2.00을 출시했다. 주요 변경 사항은 전문가용 오디오 워크플로우 강화, FTP 기능 추가, 하이브리드 슈터를 위한 프로덕션 도구 확대로 요약된다. 구체적으로 현장 무선 전송 및 스튜디오 연동 기능이 보완됐으며, 하이브리드 촬영 환경에서 사진-영상 전환 편의성도 개선됐다. 바디 추가 구매 없이 기존 a7 V 사용자가 무료로 적용할 수 있다는 점에서 실질 비용 절감 효과가 있다. 광고 현장에서 a7 V를 주력 카메라로 쓰는 팀이라면 펌웨어 업데이트 후 오디오 라우팅 변경 사항을 반드시 점검해야 한다. 현장 관점에선 카메라 교체 없이 워크플로우를 한 단계 올릴 수 있는 드문 업데이트다.
🔗 원문 보기 — New Firmware Gives Sony a7 V a Major Filmmaking Upgrade
4. ComfyUI Angelo — 손 보정·인페인팅·리파이너 통합 노드 공개
사진작가 출신 개발자가 ComfyUI용 통합 노드 ‘Angelo’를 오픈소스로 공개했다. 기존에는 이미지 생성 후 손 보정 하나를 위해 마스크 에디터나 Photoshop을 거쳐야 했던 워크플로우를 단일 노드에서 샘플링·인페인팅·리파이닝까지 처리하도록 통합한 것이 핵심이다. GitHub에서 무료로 내려받을 수 있다. Flux 기반 워크플로우에서 손 비틀림 문제로 재생성을 반복하던 제작자에게 직접적인 시간 절감 효과를 기대할 수 있다. 단, 현재 ComfyUI 0.9.2 업데이트 이후 충돌 보고가 커뮤니티에서 올라오고 있으니 버전 호환성을 먼저 확인하고 설치하는 것을 권한다. 현장 관점에선 손 고치느라 허비하는 30분이 사라질 수도 있는 노드다.
🔗 원문 보기 — Angelo – A Unified Sampler / Inpainter / Refiner (fix hands etc) for ComfyUI
5. AsymFLUX.2 Klein 9B — 픽셀 공간 비대칭 모델 ComfyUI 공개
Flux.2 Klein 9B 기반의 비대칭 구조 모델 ‘AsymFLUX.2 klein’이 ComfyUI 익스텐션과 워크플로우 세트로 공개됐다. HuggingFace에서 모델 웨이트를 내려받을 수 있으며, SFT(Supervised Fine-Tuning) 변형 버전도 함께 배포됐다. 픽셀 공간에서 직접 작동하는 방식으로 기존 Klein 대비 디테일 보존과 편집 유연성에서 차이를 보인다는 것이 개발자 측 설명이다. 현재 Klein 9B 기반 LoRA 실험이 커뮤니티에서 활발하게 이뤄지고 있는 시점에, 두 개의 LoRA를 결합해 극사실주의 결과물을 얻었다는 사용자 보고도 동시에 올라오고 있다. 현장 관점에선 광고 스틸 보조 생성용으로 Klein 계열을 쓰고 있다면 AsymFLUX.2가 다음 테스트 대상이다.
🔗 원문 보기 — Pixel-space AsymFLUX.2 klein ComfyUI release & SFT variants
6. Anthropic, xAI 컴퓨트 비용 월 12.5억 달러 — AI 인프라 비용 현실 확인
Anthropic이 Elon Musk의 xAI로부터 컴퓨트를 임차하며 월 12억 5천만 달러(약 1조 7천억 원)를 지불하는 계약을 체결했다고 밝혀졌다. SpaceX IPO 서류에서 드러난 수치로, 연간 150억 달러에 달하는 규모다. 이 숫자가 영상 제작자에게 직접 관련 있는 이유는 하나다. AI 영상·이미지 생성 서비스의 API 단가와 구독료가 이 인프라 비용 구조를 반영해 장기적으로 오를 수밖에 없다는 현실을 보여주기 때문이다. ‘저렴한 AI 구독’이 영구적일 것이라는 기대는 이 수치 앞에서 순진한 가정이 된다. 현장 관점에선 지금 저렴할 때 로컬 모델 셋업에 투자해두는 것이 중장기적으로 현명한 선택일 수 있다.
🔗 원문 보기 — Anthropic will pay xAI $1.25B per month for compute
7. Clouted, 숏폼 바이럴 클리핑 스타트업 700만 달러 시드 유치
숏폼 영상의 바이럴 가능성을 분석하고 클리핑을 자동화하는 스타트업 Clouted가 Slow Ventures 주도로 700만 달러 시드 투자를 받았다. 핵심 기능은 긴 영상에서 바이럴 가능성이 높은 구간을 자동 추출하는 것으로, 크리에이터 이코노미와 브랜드 콘텐츠 팀을 주요 타깃으로 한다. 국내에서도 유사한 수요는 존재하지만, 한국어 콘텐츠 최적화 여부는 현재 미확인이다. 바이럴 예측 AI의 실효성은 플랫폼 알고리즘 변화에 따라 급격히 달라지므로 과대 기대는 금물이다. 현장 관점에선 유튜브 롱폼을 숏츠·릴스용으로 쪽쪼개는 작업을 대행하는 팀이라면 경쟁 툴로 주시할 만하다.
🔗 원문 보기 — Clouted wants to take the guesswork out of making short videos go viral
8. Artifact-Bench — AI 영상 아티팩트 자동 평가 벤치마크 논문 공개
arXiv에 AI 생성 영상의 아티팩트를 자동으로 탐지·평가하는 벤치마크 ‘Artifact-Bench’가 공개됐다. 시간적 불일치, 물체 왜곡, 텍스트 깨짐 등 현재 Veo·Kling·Sora 계열 영상에서 반복적으로 나타나는 결함 유형을 MLLM이 얼마나 정확히 잡아내는지를 체계적으로 측정한다. 학술 논문이지만 영상 제작자에게 실용적인 시사점이 있다. 어떤 아티팩트 유형이 현 모델들의 공통 약점인지를 분류해놓았기 때문에, 납품 전 QC 체크리스트로 활용할 수 있는 참고 자료가 된다. 현장 관점에선 ‘왜 이 부분이 어색한지’를 설명하는 언어를 갖추는 데 도움이 되는 논문이다.
9. Google I/O 2026 — 영상·이미지 관련 100개 발표 항목 총정리
Google이 I/O 2026에서 발표한 100개 항목을 공식 정리했다. Gemini 브랜드 아래 이미지·영상 생성 관련 업데이트가 다수 포함된 것으로 알려졌으며, Veo 계열 영상 모델의 기능 확장도 포함된 것으로 보인다. 현재 원문 전체 내용은 공식 블로그에서 확인 가능하다. 항목 수가 많아 영상 제작 관련 내용만 추려내는 데 시간이 필요하지만, Veo·Imagen 관련 업데이트는 광고·콘텐츠 제작 파이프라인에 직결될 수 있으므로 우선 확인 대상이다. 현장 관점에선 발표 분량에 압도되기 전에 ‘Veo’와 ‘Imagen’ 키워드만 먼저 검색해서 추려 읽는 것이 시간을 아끼는 방법이다.
🔗 원문 보기 — 100 things we announced at I/O 2026
10. Wan 2.1 멀티 레퍼런스(얼굴·의상·배경) ComfyUI 워크플로우 수요 급증
Venice.ai에서 가능한 얼굴·의상·배경 레퍼런스 이미지 다중 입력 기능을 ComfyUI + Wan 2.1(VACE 포함) 환경에서 재현하려는 시도가 커뮤니티에서 급격히 늘고 있다. 현재까지 완성된 오픈소스 워크플로우는 없으며, 사용자들이 직접 구성 방법을 탐색 중인 단계다. 이 기능이 안정화되면 인물 일관성을 유지한 숏폼 시리즈 제작, 광고 버전별 캐릭터 유지 작업 등에서 실질적인 생산성 향상이 가능하다. 클로즈드 서비스인 Venice.ai에 의존하지 않고 로컬에서 동일 기능을 구현하려는 수요 자체가 시장의 방향을 보여준다. 현장 관점에선 워크플로우가 공개되는 시점을 예의주시해야 할 기능이고, 지금 당장 쓰려면 Venice.ai 구독이 현실적인 선택이다.
📱 매일 AI 관련 뉴스 받고 싶으시면 텔레그램 팔로우해주세요!
매일 오전 9시 발행 · 영상 제작 현장이 알아야 할 핵심만