AI TTS 도입을 고민하는 영상 제작자들이 늘고 있지만, 실제 현장에서는 ‘쓸 만하다’와 ‘못 쓰겠다’ 사이의 간극이 생각보다 크다. 책을 직접 쓰는 한 창작자가 ElevenLabs로 씬 애니메이션 작업을 시도하다 캐릭터 대사의 감정 표현에서 막혔다고 토로한 사례는, 사실 광고·단편 VO 작업자들이 이미 일상적으로 마주치는 문제다.
발음은 되는데 연기는 안 된다
ElevenLabs의 한국어 발음 품질은 10점 만점에 9점 수준이다. 단어 하나하나의 발음은 거의 사람과 구분이 안 된다. 문제는 억양이다. 억양 점수는 6점—합격선이라고 보기 어렵다. 문장 단위 억양이 자연스럽지 않고, 감정의 미세한 결이 필요한 대목에서 특히 무너진다. 분노나 슬픔처럼 뚜렷한 감정도 아니고, 설득 톤이나 내레이션 안에서 미묘하게 올라오는 감정의 디테일—그걸 TTS로 뽑아내는 건 현재 기술로는 어렵다.

2025년 6월 ElevenLabs는 Eleven v3(Alpha)를 출시하면서 [laughs], [whispers], [sarcastic] 같은 audio tags를 통한 감정 제어 기능을 공식 추가했다. 방향성은 맞다. 그러나 태그 단위로 감정을 ‘지정’하는 방식은 연기가 아니라 레이블링에 가깝다. 실제 성우가 호흡 하나로 만들어내는 뉘앙스를 파라미터 몇 개로 재현하려는 시도는, 아직은 그 간극이 좁혀지지 않았다.
비용 계산, 생각만큼 단순하지 않다
‘AI TTS가 성우보다 싸다’는 전제는 조건부로만 맞다. ElevenLabs 유료 플랜 기준으로 프로젝트 한 편 VO를 뽑을 때, A급 성우와 비교하면 당연히 AI가 싸다. 그런데 저가 성우 시장과 비교하면 오히려 사람 쪽이 나을 수 있다. 디테일 컨트롤에 들어가는 수정 비용, 프롬프트 재시도 횟수, 그리고 결과물이 마음에 안 들 때의 기회비용까지 합산하면—저예산 프로젝트에서는 저가 성우를 쓰는 게 더 마음 편하고 결과도 예측 가능하다는 결론이 나온다.

납품 가능 여부는 더 솔직하게 봐야 한다. 실제로 대형 전자 브랜드 프로젝트에 AI TTS 결과물을 납품한 사례가 있다. 가능은 하다. 다만 그건 ‘얻어걸린’ 케이스다. AI 컷 영상, 생성 이미지, 생성 음악과 마찬가지로 TTS도 원하는 결과가 나올 때까지 돌려야 하는 소스다. 재현성이 낮다는 뜻이고, 그게 현재 AI 소스 전반의 공통 한계다.
LTX 2.3 기반 ID-LoRA, 대안이 될 수 있나
LTX 2.3 기반 ID-LoRA를 활용한 음성 클로닝이 대안으로 거론된다. ComfyUI의 ‘LTXV Reference Audio’ 노드를 통해 텍스트 프롬프트와 참조 음성 샘플을 함께 입력하면 zero-shot 방식으로 화자의 음색과 감정을 재현하는 방식이다. 단, 여기서 명확히 해둘 것이 있다. 이건 LTX 2.3의 네이티브 기능이 아니라 별도 LoRA 패키지(ID-LoRA)를 얹은 구조다. ‘플랫폼이 지원하는 기능’과 ‘커뮤니티가 만들어낸 워크플로’ 사이의 차이는 실제 작업 안정성과 유지보수 측면에서 의미가 있다.
현재 기준으로 이 워크플로를 직접 테스트한 결과물이 공개되어 있고, 데모 수준에서는 인상적이다. 다만 광고·단편 VO 납품 파이프라인에 실전 투입하려면 안정성 검증이 더 필요하다. 아직은 ‘들어봤다’ 단계에서 판단을 보류하는 게 맞다.
대체가 아니라 양극화
“AI 보이스가 성우를 완전히 대체할 것”이라는 프레임은 현실과 다르다. 이미 양극화는 시작됐다. 톱 클래스 성우의 수요는 오히려 올라갈 것이고, 중간 가격대의 범용 내레이션 작업은 1년 안에 AI로 상당 부분 대체될 가능성이 높다. 애매한 포지션—저가도 아니고 감정 연기가 필요한 고급도 아닌 그 중간 어딘가—이 가장 빠르게 잠식된다.
결국 현장 질문은 하나로 좁혀진다. 지금 내 프로젝트의 VO가 ‘얻어걸려도 되는’ 작업인지, 아니면 재현성과 감정 컨트롤이 필요한 작업인지. 그 구분을 먼저 하지 않고 AI TTS 도입을 논하는 건 순서가 틀렸다.