
AI 음향 효과 생성 기능 출시
- 카테고리
- 제품
- 날짜
이 글에서는 ElevenLabs의 AI 보이스오버와 음향 효과를 활용해 Google의 Veo 2 실사 영상에 몰입감을 더하고, 진짜 같은 시청 경험을 만드는 방법을 소개합니다.
Google의 Veo 2로 실사 같은 영상을 그 어느 때보다 쉽게 만들 수 있습니다. 이제 Gemini 웹 앱에서도 사용할 수 있어요. 프롬프트만 입력하면 Gemini가 직접 8초짜리 영상을 만들어주고, 간편하게 편집할 수 있습니다.
하지만 시각적인 요소만으로는 충분하지 않습니다. 소리는 무성한 장면을 완전히 몰입할 수 있는 경험으로 바꿔줍니다. 바로 여기서 ElevenLabs가 빛을 발합니다. ElevenLabs를 사용하면 다양한 언어로 AI 보이스오버를 생성하거나 음향 효과를 추가해 단순한 영상을 매력적인 이야기로 바꿀 수 있습니다.
저도 Google DeepMind의 Veo 2를 사용해 '잠들지 않는 도시' 이야기를 만들어봤습니다. 약 5~8초 길이의 클립 18개를 생성했고, 도시의 다양한 풍경에 집중했습니다. 네온사인, 비, 기차, 여러 거리 풍경이 등장하죠. 이 조각난 순간들을 하나로 잇기 위해 ElevenLabs로 보이스오버와 음향 효과를 추가했습니다.

잘 만들어진 AI 보이스오버는 영상에 구조와 감정 깊이를 더해줍니다. Veo 2가 사실적인 영상 생성에는 최고지만, 클립마다 장면이나 캐릭터의 일관성이 부족할 수 있어 내레이션이 전체를 하나로 묶어주는 역할을 합니다.
조각난 영상만 남겨두기보다는, 세심하게 설계된 보이스오버로 시청자가 이야기를 쉽게 따라갈 수 있도록 안내할 수 있습니다. 먼저 보이스오버 대본을 작성한 뒤 그에 맞는 클립을 만들거나, 스토리보드에서 장면을 먼저 만든 뒤 대본을 쓸 수도 있습니다. 저는 이번 도시 영상에서는 프롬프트를 먼저 만들었습니다.
보이스오버를 생성하기 전에, 내레이션이 영상과 어떻게 어울릴지 미리 계획하는 것이 중요합니다. 저처럼 Veo 2로 도시의 분위기를 담은 몽타주를 만든다면, 보이스오버로 배경을 설명하거나, 시적인 느낌을 더하거나, 분위기를 강화할 수 있습니다.
예를 들어, 제 영상에는 네온 불빛이 비추는 거리와 깜빡이는 간판 장면이 있습니다. 그래서 이렇게 썼어요: "도시는 결코 잠들지 않는다 — 눈도 거의 감지 않는다. 배기가스를 들이마시고 네온빛을 내뿜는, 백만 명의 불면 영혼이 발걸음을 옮기는 강철과 유리의 짐승." 이 문장이 여러 장면을 자연스럽게 이어줍니다.
내레이션의 큰 틀을 잡았다면, 이제 전체 영상에 맞는 대본을 작성할 차례입니다. 잘 짜인 대본은 보이스오버가 각 클립의 타이밍과 잘 맞도록 도와줍니다. Veo 2의 장면은 보통 5~8초 정도이므로, 내레이션도 간결하고 템포 있게 써야 합니다. 5초 클립에는 약 12~15단어, 8초 클립에는 20~25단어 정도가 적당합니다.
내레이션의 톤은 영상 분위기에 맞춰야 합니다. 분위기 있는 영상에는 시적인 톤, 정보 전달이 목적이라면 다큐멘터리 스타일, 에너지가 넘치는 스토리에는 영화 같은 톤이 어울립니다. 예를 들어, 맨홀에서 김이 천천히 올라오는 장면에는 "도시는 숨을 내쉰다, 김이 차가운 밤공기 속으로 비틀거리며 퍼진다."라고 내레이션할 수 있고, 기차가 역에 들어오는 장면에는 "바람이 분다. 금속이 긁히는 소리. 또 한 대의 기차가 들어온다, 이전 수백 대처럼."이라고 할 수 있습니다.
.webp&w=3840&q=95)
대본이 완성되면, 이제 ElevenLabs에서 AI 보이스오버를 생성할 차례입니다. ElevenLabs 앱의 텍스트 음성 변환(TTS) 페이지로 이동하세요. 여기서 대본을 붙여넣거나 직접 입력할 수 있습니다. 오른쪽에서 목소리를 선택하고, 속도, 안정성 등 다양한 옵션도 조절할 수 있습니다. 저는 스타일을 10~20% 정도 더 강조하면 캐릭터가 더 살아난다고 느꼈어요.
도시의 드라마틱한 장면에는 깊고 영화 같은 목소리가 잘 어울리고, 시적인 내레이션에는 부드럽고 차분한 목소리가 좋습니다. 빠른 영상에는 에너지 넘치는 전달이 리듬감을 살려줍니다. 제 영상에서는 Lamar Lincoln이라는 프리미엄 보이스를 사용해 이야기의 자연스러움을 살렸습니다. 누군가 소중한 것을 회상하는 듯한 느낌을 주고 싶었어요.
대본을 입력한 후에는 영상 분위기에 맞게 보이스오버의 속도와 감정을 미세하게 조정하세요. 느리고 신중한 톤은 드라마틱한 순간에, 좀 더 대화체에 가까운 톤은 에너지 넘치는 몽타주에 잘 어울립니다. 결과가 마음에 들면 오디오 파일을 다운로드해 영상과 싱크를 맞출 준비를 하세요.
저는 한두 문장만으로 목소리를 미세 조정한 뒤 전체 대본으로 생성하는 방식을 선호합니다. 이번에는 대본이 세 단락뿐이라 전체 대본을 사용해도 문제없었고, 처음부터 결과가 잘 나왔습니다.
.webp&w=3840&q=95)
AI 보이스오버를 Veo 2 클립과 싱크 맞추는 과정은 Adobe Premiere Pro, DaVinci Resolve, Final Cut Pro, CapCut 같은 편집 소프트웨어로 간단하게 할 수 있습니다.
.webp&w=3840&q=95)
보이스오버가 완성됐다면, 이제 음향 효과로 영상을 한층 더 풍부하게 만들어보세요. AI로 생성한 음향 효과는 현실감과 질감을 더해줍니다. 영상만으로도 스마트폰으로 촬영한 것처럼 사실적으로 보일 수 있지만, 소리가 없으면 뭔가 허전한 느낌이 들 수밖에 없습니다.
ElevenLabs의 텍스트 음향 효과 생성기를 사용하면 도시의 배경 소음부터 미묘한 환경음까지 원하는 오디오 요소를 직접 만들 수 있습니다. 복잡한 프롬프트로 전체 사운드스케이프를 묘사하거나, 각각의 소리를 따로 생성해 영상 편집기에서 여러 파일을 레이어링할 수도 있습니다.
음향 효과를 만들려면 ElevenLabs SFX 생성기로 이동하세요. 라이브러리에서 미리 만들어진 음향 효과를 둘러보거나, 텍스트 음향 효과 생성기로 직접 원하는 소리를 만들 수 있습니다. 또는 비디오 음향 변환 실험 기능을 사용해도 됩니다. 클립 하나만 업로드하면 4가지 음향 효과를 바로 다운로드할 수 있습니다.
소리를 더 세밀하게 조정하고 싶다면 음향 효과 생성기로 이동하세요. 여기서 프롬프트를 입력하고 '생성'을 클릭하면 됩니다. 설정 버튼을 눌러 0.5초에서 22초까지 클립 길이도 직접 지정할 수 있습니다.
더 빠르게 오디오를 둘러보고, 미리 듣고, 바로 모으고 싶다면 사운드보드를 활용해보세요. 프롬프트 없이도 다양한 음향 효과를 실시간으로 테스트하고 믹스할 수 있는 인터랙티브한 인터페이스입니다.
전체 사운드스케이프를 자세히 설명하는 복잡한 프롬프트도 쓸 수 있지만, 저는 여러 개의 프롬프트로 나눠서 각각을 레이어링하는 방식이 더 효과적이었습니다. 이렇게 하면 영상 내용에 따라 각 소리가 나오는 시점을 세밀하게 조절할 수 있습니다.
적절한 음향 효과 하나만으로도 장면이 훨씬 현실적으로 느껴집니다. 골목길에 울리는 발소리, 멀리서 들려오는 자동차 경적, 빗방울이 바닥에 떨어지는 규칙적인 소리 등. 이런 소리들을 영상과 함께 배치하면 몰입감이 크게 높아집니다.
영상에 네온사인이 깜빡이는 장면이 있다면, 배경에 희미한 전기 소리를 추가해 존재감을 살릴 수 있습니다. 지하철이 멈춰서는 장면에는 금속이 마찰하는 소리를 레이어링해 현실감을 더하세요.
프롬프트 예시:
이렇게 만든 소리들을 영상 편집기에서 겹쳐서 사용할 수 있습니다.
모든 소리를 레이어링하고 각 클립의 볼륨을 조절해 완벽한 결과물을 만들었다면, 영상을 내보내고 공유하세요.
시네마틱 몽타주, 시적인 도시 묘사, 다큐멘터리 스타일의 단편 등 어떤 영상을 만들든 AI 오디오가 여러분의 상상을 현실로 만들어줍니다. 지금 ElevenLabs를 체험해보고, Veo 2 영상에 목소리와 소리의 힘으로 완전히 새로운 몰입감을 더해보세요.


.webp&w=3840&q=80)
