최신 기사에서는 Brask의 머신러닝 책임자인 디마 비피라일렌코의 안내를 받아 Rask AI의 립싱크 기술의 흥미로운 세계를 살펴봅니다. 이 혁신적인 AI 도구가 콘텐츠 제작과 배포에 어떤 변화를 일으키고 있는지 직접 확인할 수 있는 기술 우수 센터인 Brask ML Lab의 비하인드 스토리로 여러분을 초대합니다. 유니티의 팀에는 세계적인 수준의 ML 엔지니어와 VFX 합성 아티스트들이 미래를 적응하는 데 그치지 않고 미래를 만들어가고 있습니다.
이 기술이 어떻게 크리에이티브 산업을 혁신하고 비용을 절감하며 크리에이터가 전 세계 시청자에게 도달할 수 있도록 지원하는지 알아보세요.
립싱크 기술이란 무엇인가요?
비디오 로컬라이제이션의 주요 과제 중 하나는 입술의 부자연스러운 움직임입니다. 립싱크 기술은 입술의 움직임을 다국어 오디오 트랙과 효과적으로 동기화할 수 있도록 설계되었습니다.
최근 기사에서 배운 것처럼 립싱크 기법은 타이밍만 맞추는 것보다 훨씬 더 복잡하며 입의 움직임도 제대로 맞춰야 합니다. 말하는 모든 단어는 화자의 얼굴에 영향을 미치게 되는데, 예를 들어 "O"는 분명히 타원형의 입 모양을 만들어 "M"이 되지 않으므로 더빙 과정이 훨씬 더 복잡해집니다.
더 나은 화질의 새로운 립싱크 모델을 소개합니다!
저희 ML 팀은 기존 립싱크 모델을 개선하기로 결정했습니다. 이러한 결정을 내린 이유는 무엇이며 베타 버전과 비교하여 이번 버전에서 달라진 점은 무엇인가요?
모델을 개선하기 위해 다음과 같은 상당한 노력을 기울였습니다:
- 정확도 향상: 음성 언어의 음성 세부 사항을 더 잘 분석하고 일치시키기 위해 AI 알고리즘을 개선하여 여러 언어의 오디오와 밀접하게 동기화된 입술 움직임을 더 정확하게 구현했습니다.
- 자연스러움 향상: 더욱 진보된 모션 캡처 데이터를 통합하고 머신러닝 기술을 개선하여 입술 움직임의 자연스러움을 크게 개선하여 캐릭터의 말이 더욱 유동적이고 생생하게 표현되도록 했습니다.
- 속도와 효율성 향상: 품질 저하 없이 동영상을 더 빠르게 처리할 수 있도록 모델을 최적화하여 대규모 로컬라이제이션이 필요한 프로젝트의 처리 시간을 단축할 수 있습니다.
- 사용자피드백 통합: 베타 버전 사용자들의 피드백을 적극적으로 수집하고 그들의 인사이트를 개발 프로세스에 반영하여 특정 문제를 해결하고 전반적인 사용자 만족도를 향상시켰습니다.
AI 모델은 입술의 움직임을 번역된 오디오와 정확히 어떻게 동기화하나요?
Dima: "당사의 AI 모델은 번역된 오디오의 정보와 프레임 속 인물의 얼굴 정보를 결합한 다음 이를 최종 출력에 병합하는 방식으로 작동합니다. 이러한 통합을 통해 입술의 움직임이 번역된 음성과 정확하게 동기화되어 매끄러운 시청 경험을 제공합니다."
프리미엄 립싱크가 고품질 콘텐츠에 이상적인 특별한 기능은 무엇인가요?
Dima: "프리미엄 립싱크는 멀티스피커 기능과 고해상도 지원 등 고유한 기능을 통해 고품질 콘텐츠를 처리하도록 특별히 설계되었습니다. 최대 2K 해상도까지 동영상을 처리할 수 있어 화질을 저하 없이 유지할 수 있습니다. 또한 멀티 스피커 기능을 사용하면 동일한 동영상 내에서 여러 화자 간에 정확한 립싱크가 가능하므로 여러 캐릭터 또는 화자가 등장하는 복잡한 프로덕션에 매우 효과적입니다. 이러한 기능 덕분에 프리미엄 립싱크는 전문가 수준의 콘텐츠를 지향하는 크리에이터에게 최고의 선택이 될 것입니다."
립싱크 멀티 스피커 기능이란 무엇인가요?
멀티 스피커 립싱크 기능은 여러 사람이 등장하는 동영상에서 입술 움직임을 음성 오디오와 정확하게 동기화하도록 설계되었습니다. 이 고급 기술은 단일 프레임에서 여러 얼굴을 식별하고 구분하여 각 개인의 입술 움직임이 말한 단어에 따라 올바르게 애니메이션되도록 합니다.
멀티스피커 립싱크 작동 방식:
- 프레임 내 얼굴 인식: 이 기능은 처음에 비디오 프레임에 있는 모든 얼굴을 숫자에 관계없이 인식합니다. 정확한 립싱크를 위해 중요한 각 개인을 식별할 수 있습니다.
- 오디오매칭: 동영상 재생 중에 오디오 트랙을 말하는 사람에 맞춰 오디오 트랙을 정렬하는 기술입니다. 이 정밀한 매칭 프로세스를 통해 목소리와 입술 움직임이 동기화됩니다.
- 입술움직임 동기화 : 말하는 사람이 식별되면 립싱크 기능이 말하는 사람의 입술 움직임만 다시 그립니다. 프레임에서 말하지 않는 사람은 입술 움직임이 변경되지 않고 동영상 전체에서 자연스러운 상태를 유지합니다. 이 동기화는 활성 화자에게만 적용되므로 화면 밖의 음성이나 장면에 여러 명의 얼굴이 있는 경우에도 효과적입니다.
- 입술의 정적 이미지 처리: 흥미롭게도 이 기술은 비디오 프레임에 입술의 정적 이미지가 나타나면 입술 움직임을 다시 그릴 수 있을 정도로 정교하여 다재다능한 기능을 보여줍니다.
이 멀티 스피커 립싱크 기능은 말하는 사람의 입술만 오디오에 따라 움직이도록 하여 여러 명의 화자가 등장하는 장면이나 복잡한 비디오 설정에서 사실감을 높이고 시청자의 몰입도를 높입니다. 이 표적화된 접근 방식은 활성 화자에게 초점을 맞추고 비디오에서 그룹 상호 작용의 자연스러운 역학을 유지하는 데 도움이 됩니다.
하나의 동영상으로 다양한 혜택이 포함된 수백 개의 맞춤형 동영상을 여러 언어로 제작할 수 있습니다. 이러한 다목적성은 마케터가 다양한 글로벌 오디언스와 소통할 수 있는 방법을 혁신적으로 개선하여 프로모션 콘텐츠의 영향력과 도달 범위를 향상시킵니다.
새로운 프리미엄 립싱크에서 화질과 처리 속도 사이의 균형을 어떻게 맞출 수 있을까요?
Dima: "프리미엄 립싱크에서 고품질과 빠른 처리 속도의 균형을 맞추는 것은 어려운 일이지만, 모델 추론을 최적화하는 데 상당한 진전을 이루었습니다. 이러한 최적화를 통해 적절한 속도로 최상의 품질을 출력할 수 있게 되었습니다."
모델을 훈련하는 동안 발견한 흥미로운 결함이나 놀라운 점이 있나요?
또한 입 주변의 오클루전 작업은 매우 어려운 것으로 입증되었습니다. 이러한 요소는 립싱크 기술에서 사실적이고 정확하게 표현하기 위해 디테일에 세심한 주의를 기울이고 정교한 모델링을 거쳐야 합니다.
ML 팀은 동영상 자료를 처리할 때 사용자 데이터 프라이버시 및 보호를 어떻게 보장하나요?
Dima: 저희 ML 팀은 사용자 데이터 프라이버시와 보호를 매우 중요하게 생각합니다. Lipsync 모델의 경우, 고객 데이터를 학습에 사용하지 않기 때문에 신원 도용의 위험이 없습니다. 적절한 라이선스와 함께 제공되는 오픈 소스 데이터만을 사용하여 모델을 학습시킵니다. 또한 이 모델은 각 사용자에 대해 별도의 인스턴스로 작동하므로 최종 비디오가 특정 사용자에게만 전달되고 데이터가 얽히는 것을 방지할 수 있습니다.
Facebook은 법적 권리와 윤리적 투명성에 중점을 두고 콘텐츠 제작 시 책임감 있게 AI를 사용할 수 있도록 크리에이터의 역량을 강화하는 데 최선을 다하고 있습니다. 사용자의 동영상, 사진, 음성, 초상화는 명시적인 허가 없이 절대 사용되지 않도록 보장하여 사용자의 개인 데이터와 창작 자산을 보호합니다.
유니티는 디지털 시대의 콘텐츠 무결성과 진위성에 대한 헌신을 반영하여 콘텐츠 출처 및 진위성 연합(C2PA)과 콘텐츠 진위성 이니셔티브의 자랑스러운 회원입니다. 또한, 창립자이자 CEO인 마리아 치미르는 윤리적 AI 관행에 대한 리더십을 강조하는 Women in AI Ethics™ 디렉토리에 등재되었습니다.
립싱크 기술 발전의 미래 전망은 어떻게 되나요? 특히 흥미를 끄는 특정 분야가 있나요?
Dima: 저희는 립싱크 기술이 디지털 아바타를 향한 발전의 토대가 될 수 있다고 믿습니다. 누구나 동영상 제작 비용 없이 콘텐츠를 제작하고 로컬라이즈할 수 있는 미래를 상상하고 있습니다.
단기적으로는 향후 2개월 이내에 모델의 성능과 품질을 개선하기 위해 최선을 다하고 있습니다. 4K 동영상에서 원활한 작동을 보장하고 아시아 언어로 번역된 동영상을 통해 기능을 개선하는 것이 목표입니다. 이러한 발전은 기술의 접근성과 사용성을 확대하여 디지털 콘텐츠 제작에 혁신적인 애플리케이션을 적용할 수 있는 기반을 마련하는 데 매우 중요하며, 언어 장벽을 허무는 것이 그 어느 때보다 가까워졌습니다! 향상된 립싱크 기능을 사용해 보시고 피드백을 보내주세요.
자주 묻는 질문
립싱크는 크리에이터 프로, 아카이브 프로, 비즈니스 및 엔터프라이즈 요금제에서 사용할 수 있습니다.
립싱크가 1분 생성되면 총 분량에서 1분만큼 차감됩니다.
립싱크 시간은 동영상에 더빙할 때와 마찬가지로 차감됩니다.
립싱크는 더빙과 별도로 요금이 부과됩니다. 예를 들어 1분짜리 동영상을 1개 언어로 번역하고 립싱크하려면 2분이 필요합니다.
립싱크를 생성하기 전에 무료 1분으로 테스트하여 기술 품질을 평가할 수 있습니다.
립싱크 생성 속도는 동영상의 화자 수, 동영상 길이, 화질 및 크기에 따라 달라집니다.
예를 들어, 다음은 다양한 동영상에 대한 대략적인 립싱크 생성 속도입니다:
화자가 한 명인 동영상
- 4분 동영상 1080p ≈ 29분
- 10분 1080p ≈ 2시간 10분
- 10분 4K 동영상 ≈ 8시간
스피커가 3개인 동영상:
- 10분 1080p ≈ 5시간 20분
- YouTube, Google 드라이브의 링크를 통해 동영상을 업로드하거나 기기에서 직접 파일을 업로드합니다. 대상 언어를 선택하고 번역 버튼을 클릭합니다.
- "더빙 비디오" 버튼을 통해 Rask AI에서 동영상에 음성 더빙을 추가합니다.
- 동영상이 립싱크와 호환되는지 확인하려면 '립싱크 확인' 버튼을 클릭합니다.
- 호환되는 경우 립싱크 버튼을 탭하여 계속 진행합니다.
- 그런 다음, 동영상에 원하는 얼굴 수(1 또는 2+)를 선택한 다음 '립싱크 시작'을 탭합니다. 참고로, 이것은 화자가 아닌 얼굴의 수에 관한 것입니다.