Audio Driven Real-Time Facial Animation for Social Telepresence
본 연구는 오디오 신호를 실시간으로 사실적인 3D 얼굴 아바타로 변환하는 시스템을 제시합니다. 온라인 트랜스포머와 증류 파이프라인을 통해 15ms 이하의 GPU 시간으로 실시간 성능을 달성하며, 기존 방식 대비 100~1000배 빠른 추론 속도를 보입니다. VR 환경에서의 다중모달 응용과 다국어 음성 등 다양한 시나리오에서 검증되었습니다.