AI 영상·이미지·생성 도구 분야의 오늘(2026/05/10) 핵심 뉴스 10건을
한국 영상 제작자 관점으로 정리했습니다.
1. HiDream-O1-Image: VAE 없는 8B 픽셀 공간 이미지 모델 공개
HiDream-ai가 HiDream-O1-Image를 HuggingFace에 공개했다. 8B 파라미터 규모의 픽셀 공간 네이티브 모델로, VAE 인코딩·디코딩 단계가 없어 구조적으로 기존 Flux·SD계열과 다르다. 풀 모델은 50스텝, Dev 버전은 28스텝으로 동작하며 두 체크포인트 모두 무료로 내려받을 수 있다. 내부 prompt.py에서 시스템 프롬프트가 발견됐고 커뮤니티에서 이미 번역·공유 중이다. 현장 관점에선 VAE 병목이 없다는 점은 이론상 매력적이지만, ComfyUI 기존 파이프라인과 호환 노드가 아직 부족하므로 즉시 투입보다 테스트 단계로 접근하는 게 현실적이다.

🔗 원문 보기 — HiDream-O1-Image – A pixel space model , no need for VAE, , 8B parameters.
2. Flux.2 Klein: 1:1 캐릭터 유지 이미지 편집 모델, 오픈소스 작업 중
Flux.2 Klein이 이미지 편집 시 원본 캐릭터를 1:1로 유지하는 능력이 커뮤니티에서 주목받고 있다. 현재 개발자가 더 유연한 편집 시스템을 추가 작업 중이며, 고해상도 LoRA와 함께 사용하면 씬 컷 간 얼굴 일관성이 Wan 2.2 수준까지 올라온다는 실사용 보고가 나왔다. LTX 2.3이 얼굴 일관성에서 약점을 보이는 것과 대조적이다. 스타일 LoRA인 ‘Teal Dark’도 별도 HuggingFace 릴리즈로 공개됐다. 현장 관점에선 광고·뮤직비디오에서 특정 모델의 얼굴을 씬 간 고정해야 할 때, 지금 당장은 Flux Klein + 고해상도 LoRA 조합이 가장 안정적인 선택지로 보인다.
🔗 원문 보기 — Flux.2Klein Best open source image edit – work in progress
3. Wan 2.2 + LTX 2.3 ID-LoRA 결합 워크플로우, ComfyUI에서 공개
Wan 2.2 이미지-투-비디오 워크플로우와 LTX 2.3 ID-LoRA 워크플로우를 하나로 합친 ComfyUI 파이프라인이 공유됐다. 순서는 Wan 2.2로 초기 영상을 생성한 뒤 LTX 2.3으로 후처리하는 방식이다. 두 모델의 장점을 단계적으로 활용할 수 있지만 VRAM 요구량이 두 모델을 순차 로딩해야 하므로 24GB 이하 환경에서는 모델 언로딩 설정이 필수다. 현장 관점에선 인물 동일성을 유지하면서 영상 품질을 끌어올려야 하는 단편·광고 작업에 실험 가치는 있지만, 렌더 시간이 두 배로 늘어나는 건 감안해야 한다.
🔗 원문 보기 — Wan 2.2 with LTX 2.3 ID-LoRA
4. SenseNova U1 ComfyUI 노드: 8스텝 LoRA + GGUF VRAM 최적화 업데이트
SenseNova U1의 ComfyUI 노드가 업데이트됐다. 핵심 변경은 8스텝 LoRA 지원으로 추론 스텝을 줄이면서 성능을 유지한다. GGUF 포맷을 활용한 VRAM/RAM 분산 최적화 팁도 함께 공개됐으며, 인포그래픽 생성과 이미지-텍스트 혼합(Interleaved) 출력에 강점을 보이는 모델이다. 한국어 텍스트가 포함된 인포그래픽이나 자막 합성 이미지 제작에 테스트해볼 여지가 있다. 현장 관점에선 8스텝 추론이면 상업 작업 중 빠른 시안 확인용으로 쓸 수 있는 속도지만, 한국어 타이포그래피 정확도는 별도로 검증이 필요하다.
🔗 원문 보기 — SenseNova U1 ComfyUI Node: 8-step LoRA support and GGUF VRAM/RAM optimization tips
5. Z-Image-Turbo, RTX 2060에서 사실적 이미지 생성 가능 확인
Z-Image-Turbo가 RTX 2060(VRAM 6~8GB) 환경에서도 고사실적 이미지를 생성할 수 있다는 실사용 결과가 공유됐다. 일부 이미지는 Z-Image-Base를 통한 업스케일링 노드 템플릿을 추가로 거쳐 완성도를 높였다. LoRA와 프롬프트 정보도 함께 공개됐다. RTX 2060은 현재 국내 중고 시장에서 10~15만 원대에 구할 수 있는 보급형 카드로, 고가 장비 없이 로컬 이미지 생성 파이프라인을 구성하려는 소규모 제작사에 진입 장벽이 낮다. 현장 관점에선 썸네일·시안 제작용 로컬 파이프라인을 저비용으로 시작하려는 팀에게 실질적인 선택지가 될 수 있다.
6. SmartGallery DAM: ComfyUI 생성물 관리·클라이언트 납품까지 무료 오픈소스
SmartGallery DAM은 ComfyUI 생성 폴더를 구조화된 프로덕션 라이브러리로 전환해주는 로컬 기반 디지털 에셋 매니저(DAM)다. 프롬프트·워크플로우·노드 메타데이터를 보존한 채 클라이언트 리뷰 포털로 공유할 수 있으며, 완전 무료 오픈소스다. 수백 장의 생성 이미지를 납품 단계에서 정리하고 클라이언트에게 보여주는 과정이 현재 대부분 수작업인 점을 감안하면 실용적인 도구다. 현장 관점에선 외주 제작 팀이 클라이언트에게 중간 시안을 공유할 때 프롬프트 유출 없이 결과물만 선택적으로 노출할 수 있는지 보안 설정을 먼저 확인해야 한다.
7. Veo 3.1 + Flux1-dev 결합 뮤직비디오 제작 사례 공개
커뮤니티 제작자가 Flux1-dev로 이미지를 생성하고 Veo 3.1로 영상화한 뒤 Premiere Pro로 편집한 바이오메카니컬 콘셉트 뮤직비디오를 공개했다. Veo 3.1이 실제 뮤직비디오 후반 파이프라인에 투입된 사례로, Flux 이미지 품질과 Veo의 모션 품질을 조합하는 워크플로우가 현실적으로 작동함을 보여준다. Veo 3.1은 현재 Google AI Studio를 통해 접근할 수 있으나 한국 결제·크레딧 구조는 별도 확인이 필요하다. 현장 관점에선 Runway·Kling 대비 Veo의 모션 스타일이 어떤 장르에 유리한지 비교 테스트를 먼저 해두는 게 실질적인 선택 기준이 된다.
🔗 원문 보기 — ANATA WA — Biomechanical Porcelain Synthesis Robotics
8. Suno 5.5로 제작한 신스웨이브 팬송 사례, AI 오디오 완성도 점검
Suno 5.5를 사용해 게임 ‘Genshin Impact’ 캐릭터 앰버를 주제로 한 신스웨이브 팬송이 공개됐다. 영상 클립은 AI 처리된 인게임 스크린샷을 초기 이미지로 활용했다. Suno가 5.5 버전으로 업그레이드되면서 장르 재현 정밀도가 높아졌다는 실사용 평가가 나오고 있으며, 뮤직비디오 배경음악이나 광고 사운드 시안 제작에 검토할 만한 수준이다. 한국어 가사 생성 품질은 여전히 영어 대비 제한적이라는 점은 변수다. 현장 관점에선 저예산 뮤직비디오의 BGM 초안 제작용으로는 충분히 쓸 수 있지만, 멜로디 저작권 이슈는 납품 전에 반드시 확인해야 한다.
🔗 원문 보기 — [Synthwave] Outrider on the Wind
9. Nvidia, 2026년 AI 지분 투자 이미 400억 달러 집행
Nvidia가 2026년 들어 현재까지 AI 생태계 지분 투자에 400억 달러(약 55조 원)를 집행했다는 보도가 나왔다. 단순 칩 판매를 넘어 AI 스타트업 지분을 직접 확보하는 전략으로, 이는 영상·이미지 생성 도구를 만드는 업스트림 기업들의 자금 흐름과도 직결된다. Kling, Runway, Pika 등 영상 생성 툴의 인프라 비용 구조와 서비스 지속성에 Nvidia의 투자 방향이 간접적으로 영향을 준다. 현장 관점에선 당장 워크플로우가 바뀌는 뉴스는 아니지만, 지금 쓰는 클라우드 영상 생성 서비스가 어떤 GPU 생태계에 묶여 있는지 파악해두는 것이 장기 도구 선택에 도움이 된다.
🔗 원문 보기 — Nvidia has already committed $40B to equity AI deals this year
10. LTX 2.3 NVFP4 포맷, RTX 5090 워크플로우 수요 확인
LTX 2.3의 공식 ComfyUI I2V 템플릿이 FP8 기반인 가운데, RTX 5090 사용자를 중심으로 NVFP4 모델 활용 워크플로우 수요가 커뮤니티에서 확인됐다. NVFP4는 RTX 50시리즈에 최적화된 포맷으로 동일 VRAM 대비 처리 속도가 빠르다. 아직 공식 NVFP4 워크플로우는 배포되지 않았으며 커뮤니티에서 자체 제작 중이다. 국내에서 RTX 5090을 보유한 스튜디오는 아직 소수지만, 고사양 로컬 렌더 환경을 구축 중인 곳이라면 FP8 대신 NVFP4 전환 시 속도 이득을 기대할 수 있다. 현장 관점에선 공식 지원이 나오기 전까지 FP8로 안정적으로 운영하고 NVFP4는 테스트 환경에서만 먼저 검증하는 게 맞다.
🔗 원문 보기 — LTX 2.3 NVFP4 5090 Workflow
📱 매일 AI 관련 뉴스 받고 싶으시면 텔레그램 팔로우해주세요!
매일 오전 9시 발행 · 영상 제작 현장이 알아야 할 핵심만