MIT Technology Review Features IRIS Lab’s Work on Voice Unlearning for Zero-Shot TTS
최근 MIT Technology Review에 고종환 교수님과 김진주 석사과정 연구원의 인터뷰가 실렸습니다 ( https://www.technologyreview.com/2025/07/15/1120094/ai-text-to-speech-programs-could-one-day-unlearn/ ). 이번 인터뷰는 피터 홀(Peter Hall) 편집자와 함께 최근 ICML 2025에서 발표한 논문 *“Do Not Mimic My Voice: Speaker Identity Unlearning for Zero-Shot Text-to-Speech”*을 중심으로 진행되었는데요. 기사에서는 AI 음성 합성(Text-to-Speech) 시스템이 특정 화자의 목소리 모방 능력을 “잊을(unlearn)” 수 있는 가능성과, 이를 통해 오디오 딥페이크로부터 사용자를 보호할 수 있는 새로운 방향을 다루고 있습니다.
인터뷰에서는 Meta의 Voicebox와 같은 최신 zero-shot TTS 모델이 단 몇 초의 음성만으로도 화자의 목소리를 그대로 복제할 수 있다는 점을 지적하며, 이로 인한 프라이버시와 윤리적 문제를 짚었습니다. 저희 논문은 이런 문제를 해결하기 위해 특정 화자의 목소리만 선택적으로 제거하면서도 다른 화자에 대한 성능은 유지할 수 있는 Teacher-Guided Unlearning (TGU) 기법을 제안했습니다. 또 모델이 실제로 화자를 얼마나 잘 “잊었는지” 평가할 수 있도록 speaker-Zero Retrain Forgetting (spk-ZRF)이라는 새로운 지표를 도입했으며, 실험을 통해 특정 화자의 목소리 복제 능력을 크게 줄이면서도 전체 음성 품질은 유지할 수 있음을 확인했습니다.
저희 연구는 단순히 기술적 호기심을 넘어서, 앞으로는 사용자가 “내 목소리를 복제하지 마라(Do not mimic my voice)”라고 요구하면 시스템 차원에서 이를 존중할 수 있는 미래를 열 수 있음을 보여줍니다. 목소리 복제와 오디오 딥페이크 기술이 점점 정교해지는 지금, 이러한 기능은 필수적인 프라이버시 보호 장치가 될 수 있음을 인터뷰에서 강조합니다.
Recently, MIT Technology Review published an interview with Prof. Jong Hwan Ko and M.S. student Jinju Kim ( https://www.technologyreview.com/2025/07/15/1120094/ai-text-to-speech-programs-could-one-day-unlearn/ ). The interview with editor Peter Hall focused on our ICML 2025 paper, “Do Not Mimic My Voice: Speaker Identity Unlearning for Zero-Shot Text-to-Speech.” The article explores the possibility that AI text-to-speech systems could “unlearn” their ability to imitate specific speakers, opening a new direction for protecting users from audio deepfakes.
In the interview, we note that state-of-the-art zero-shot TTS models such as Meta’s Voicebox can replicate a speaker’s voice from just a few seconds of audio, raising serious privacy and ethical concerns. Our paper proposes Teacher-Guided Unlearning (TGU), a technique that selectively removes a targeted speaker’s voice while maintaining performance on others. We also introduce speaker-Zero Retrain Forgetting (spk-ZRF) to quantify how well the model “forgets,” and we show experimentally that targeted voice cloning can be greatly reduced without degrading overall speech quality.
Our research goes beyond technical curiosity, pointing toward a future in which users can say “Do not mimic my voice” and have that respected at the system level. As voice cloning and audio deepfakes become increasingly sophisticated, this capability can serve as an essential safeguard for voice privacy.