AI 영상·이미지·생성 도구 분야의 오늘(2026/05/18) 핵심 뉴스 10건을
한국 영상 제작자 관점으로 정리했습니다.
1. LTX 2.3, ComfyUI-Mesh서 멀티GPU·이더넷 분산 지원 — VRAM 한계 돌파
LTX 2.3이 ComfyUI-Mesh 노드에서 공식 지원되며, 여러 GPU를 이더넷으로 연결하거나 멀티GPU 머신에서 모델을 분산 실행할 수 있게 됐다. Nvenc 코덱 지원도 추가됐고, Flux2·LTX 구현의 주요 VRAM 버그도 함께 수정됐다. LoRA를 LTX에 쓸 경우 용량이 큰 건 서버 앱에서 로드하는 게 낫다는 팁도 공식 README에 명시됐다. RTX 5070 Ti(16GB) 기준으로 19초 클립 생성에 약 10분이 걸린다는 현장 보고도 있어, 단일 카드 한계를 분산으로 우회하려는 소규모 스튜디오에 실질적인 선택지가 생긴 셈이다. 현장 관점에선 이더넷 분산이 실제로 안정적인지 레이턴시 테스트를 직접 돌려보기 전까지는 프로덕션 투입을 보류하는 게 맞다.

2. Flux.2-Klein 실시간 스트리밍 파이프라인 대규모 업데이트
Flux.2-Klein 기반 실시간 스트리밍 파이프라인이 출시 1주 만에 커뮤니티 피드백을 반영해 대규모 업데이트를 발표했다. 구체적인 개선 사항은 원본 포스트 대비 스트리밍 안정성 및 파이프라인 연결 방식이 보강된 것으로, Flux Klein 9B 모델을 실시간 프리뷰 용도로 쓰려는 수요에 직접 대응한다. Klein 9B는 Qwen3 8B 텍스트 인코더를 쓰며 히든 레이어 [9, 18, 27]을 스태킹해 컨디셔닝하는 구조라, 프롬프트 작성 방식이 기존 Flux.1과 다르다는 점을 먼저 숙지해야 한다. 현장 관점에선 실시간 프리뷰가 된다는 건 광고 콘티 검토 속도를 실질적으로 높일 수 있다는 뜻이지만, 프롬프트 포맷부터 새로 익혀야 하는 러닝커브가 존재한다.
🔗 원문 보기 — A lot of major updates on Flux Real-Time pipeline
3. GTX 1060 6GB로 최신 AI 이미지 모델 돌리기 — 실증 가이드
2026년 5월 기준 GTX 1060 6GB(Pascal 아키텍처)에서 ComfyUI로 최신 이미지 모델을 구동하는 실증 가이드가 공개됐다. ‘SD 1.5만 6GB에서 돌아간다’는 통념을 정면으로 반박하며, Flux 계열 포함 다수 모델의 실행 가능 여부와 설정법을 구체적으로 정리했다. 중고 GTX 1060은 국내에서 5~10만 원대에 구할 수 있어, 신규 진입자나 보조 렌더링용 세컨드 머신을 고려하는 팀에게 참고할 만하다. 다만 Pascal 아키텍처는 FP16 연산 효율이 Ampere 이후 세대보다 현저히 낮고, 일부 최신 커스텀 노드가 아예 지원하지 않는 경우도 있다. 현장 관점에선 ‘돌아간다’와 ‘쓸 수 있다’ 사이의 간극이 크니, 속도 벤치마크 수치를 먼저 확인해야 한다.
4. Flux Klein·Qwen·Wan 모델 JSON 구조 프롬프팅 — 실용 팁 정리
Flux.2-Klein, Qwen, Wan 계열 모델이 훈련 시 JSON 계층 구조 데이터를 기반으로 학습됐다는 점을 활용한 프롬프팅 방법론이 공유됐다. Klein 9B의 경우 프롬프트가 Qwen 채팅 템플릿으로 래핑되고, Qwen2 토크나이저와 Qwen3 8B 텍스트 인코더를 거쳐 히든 레이어 [9, 18, 27]이 스태킹되는 방식으로 처리된다. 기존 Flux.1용 자연어 프롬프트를 그대로 쓰면 품질이 떨어지는 이유가 여기에 있다. 국내 광고·뮤직비디오 제작 현장에서 레퍼런스 이미지를 자동화로 뽑아내는 용도로 Klein을 도입하려 한다면 프롬프트 포맷 전환이 필수다. 현장 관점에선 프롬프트 컨버터 자동화 스크립트가 없으면 대량 생성 시 반복 작업이 상당히 늘어난다.
🔗 원문 보기 — Best Way to Prompt Qwen, Klein, Zit…You’re Welcome
5. Klein KV Edit Web UI — ComfyUI 위에서 프롬프트 빌더 WIP 공개
Klein 2의 KV Edit 기능을 ComfyUI 위에서 쓸 수 있는 웹 UI 및 프롬프트 빌더가 WIP(작업 중) 상태로 공개됐다. KV Edit는 이미지의 특정 영역을 키-값 구조로 편집하는 방식인데, 퀄리티 유지를 위해 정형화된 프롬프트가 필요해 이를 생성·저장·재사용할 수 있는 빌더를 함께 제공하는 게 핵심이다. 광고 제작에서 제품 패키지나 배경만 교체하는 반복 편집 작업에 적용 가능성이 있다. 아직 WIP 단계라 프로덕션 투입은 이르고, ComfyUI 숙련도가 낮은 팀에게는 진입 장벽도 존재한다. 현장 관점에선 프롬프트 저장·재사용 기능이 실제로 잘 동작한다면 반복 광고 소재 제작 효율을 꽤 높일 수 있는 도구다.
🔗 원문 보기 — [WIP] Klein 2 KV Edit Web UI / Prompt Builder
6. LTX 2.3 + RTX 5070 Ti, 19초 클립에 10분 — 최적화 여지는?
RTX 5070 Ti(VRAM 16GB)에서 LTX 2.3 기반 I2V 워크플로우(10Eros LikenessGuideHelper I2V v3.2)로 1000×1744 해상도 19초 클립을 생성하는 데 약 10분이 소요된다는 현장 보고가 올라왔다. 최신 GPU임에도 클립 한 개에 10분이면 상업 프로젝트 납기를 고려할 때 병목이 될 수 있다. 커뮤니티에서는 배치 설정, 스텝 수 조정, 증류(distilled) 버전 활용 등의 최적화 방향이 논의됐다. 국내 후반 작업 스튜디오가 RTX 5070 Ti 도입을 검토 중이라면 이 수치를 기준선으로 삼을 수 있다. 현장 관점에선 19초 클립 10분은 테스트 단계엔 참을 수 있어도, 30초 광고 분량을 여러 컷 뽑으려면 멀티 GPU 환경이 사실상 필수다.
🔗 원문 보기 — ltx 2.3 10Eros on RTX 5070 Ti (16GB) — ~10min per clip, any way to speed this up?
7. ZIT + LTX 2.3으로 80~90년대 아날로그 애니 스타일 재현 시도
ZIT으로 키프레임 이미지를 생성하고 LTX 2.3 I2V에 LoRA를 결합해 1980~90년대 셀 애니메이션 질감을 재현하는 워크플로우가 공유됐다. 제작자는 ‘decent result’라고 표현했으나 아직 개선 여지가 있다고 밝혔다. 뮤직비디오나 레트로 콘셉트 광고에서 아날로그 애니 질감을 요구하는 클라이언트가 국내에도 꾸준히 있는 만큼 실험 가치가 있는 접근이다. ZIT → LTX 2.3의 I2V 체인은 첫 프레임 컨트롤이 가능하다는 점에서 캐릭터 일관성 유지에 유리하다. 현장 관점에선 LoRA 선택과 스텝 튜닝이 결과물 품질을 좌우하는 변수인데, 이 부분의 레시피가 아직 공개되지 않아 직접 실험해봐야 한다.
🔗 원문 보기 — Recreating 80s and 90s anime style with ZIT and LTX 2.3
8. Flux.2 Klein 등 4개 GenAI 시스템 캐릭터 렌더 일관성 비교 — 6가지 발견
캐릭터 아티스트가 Arnold 렌더러로 제작한 팔라스고양이 레퍼런스 이미지를 Flux.2 Klein, Flux.1 + Depth LoRA, IC-Light FBC, ByteDance Doubao 4개 시스템에 동일 조건으로 넣어 7가지 테스트를 진행하고 6개의 구체적 발견과 공통적 아키텍처 한계를 정리했다. 가장 주목할 점은 4개 시스템 모두 특정 구조적 한계를 공유한다는 것으로, 3D 레퍼런스를 AI 이미지 파이프라인에 연결할 때 어느 툴을 써도 동일한 벽에 부딪힌다는 의미다. 국내 광고 캐릭터 제작에서 AI 이미지 툴 도입 여부를 검토 중인 팀에게 실질적인 비교 데이터가 된다. 현장 관점에선 툴 선택보다 그 공통 아키텍처 한계가 무엇인지를 먼저 파악하는 게 도입 전 필수 체크포인트다.
9. SDXL 캐릭터 → 게임용 3D 에셋, 로컬 워크플로우 전 과정 공개
SDXL로 생성한 캐릭터 이미지를 클라우드 API나 무거운 ComfyUI 플러그인 없이 로컬에서 게임용 3D 메시로 변환하는 전체 파이프라인이 공개됐다. 클린한 메시를 로컬에서 얻기 어렵다는 현장 불만을 해소하는 데 초점을 맞췄으며, 비용 절감과 데이터 외부 유출 방지 측면에서 국내 게임·광고 스튜디오에도 적용 검토 가치가 있다. 구체적인 툴 체인과 각 단계별 설정이 포함돼 있어 재현 난이도가 상대적으로 낮은 편이다. 다만 SDXL 출력물의 품질이 3D 변환 결과에 직접적인 영향을 미치므로 초기 이미지 퀄리티 관리가 전제조건이다. 현장 관점에선 외부 API 없이 로컬로 완결되는 파이프라인이라는 점이, 클라이언트 IP를 다루는 상업 프로젝트에서 특히 매력적인 선택지다.
🔗 원문 보기 — My local workflow for turning SDXL character generations into game-ready 3D assets
10. Suno로 뮤지컬 작곡 — 수천 번 생성 끝에 나온 결과물의 현실
뮤지컬 ‘Lemonade’ 제작에 참여 중인 Jesse Corbin이 Suno로 AI 생성 음악을 작곡 과정에 활용했다는 사실이 알려졌고, Suno로 음악을 만드는 개인 제작자는 곡당 수천 번의 생성을 반복해야 원하는 결과물이 나온다고 밝혔다. ‘AI가 퍼포먼스를 한다’는 방식으로 크레딧을 표기했으며, 완성도에는 만족한다고 했다. 뮤직비디오 제작 시 음원 수급 대안으로 Suno를 고려하는 팀이 늘고 있는데, 수천 번 생성이 전제라면 시간 비용이 만만치 않다. 현장 관점에선 Suno 음원의 저작권 귀속 문제가 한국 음저협 기준으로 아직 불명확한 상황이라, 상업 뮤직비디오에 그대로 쓰기 전에 법적 검토가 선행돼야 한다.
🔗 원문 보기 — New Musical ‘Lemonade’ Using Ai Generated music for their writing
📱 매일 AI 관련 뉴스 받고 싶으시면 텔레그램 팔로우해주세요!
매일 오전 9시 발행 · 영상 제작 현장이 알아야 할 핵심만