뉴스

딥마인드, TTS 시스템 웨이브넷을 구글 어시스턴트에 적용

작성자
suzisoft
작성일
2017-10-17 11:58
조회
17
딥마인드는 1년 전 논문으로 발표했던 딥러닝 기반의 TTS(text-to-speech synthesis) 시스템, 웨이브넷(WaveNet)을 영어와 일본어를 사용하는 모든 플랫폼에서 구글 어시스턴트의 음성으로 공식 사용하게 되었다고 블로그를 통해 발표했다.

WaveNet은 텍스트로부터 음성을 생성해내는 딥러닝 네트워크로서 기존의 방법들보다 좀 더 사람의 목소리나 억양등이 자연스럽게 들리도록 음성을 생성해낸다. 기존의 TTS 시스템들은 사람이 녹음한 짧은 발음이나 단어 단위의 오디오 파일을 이어붙이는 방식으로 음성을 생성해내는데에 반해 WaveNet과 같은 Deep Generative Model은 거대한 텍스트와 음성 데이타셋을 기반으로 학습해서 문맥에 따른 억양이나 발음과 같은 점을 반영해 문장 전체에 대해 하나의 오디오 파일을 만들어낸다는 점이 다르다. 1년 전, 논문으로 발표된 WaveNet은 연구 목적의 프로토타입이었고 실제 사용자가 쓸 수 잇는 제품으로 출시되기에는 필요한 연산량이 너무 많았다. 딥마인드는 그 후, 1년간의 개발 과정을 거쳐 WaveNet이 일반 사용자의 스마트폰 기기 등에서 작동될 수 있도록 개선되었다고 블로그를 통해 말한다. 블로그에 따르면 실제 사용자의 기기에서 빠르게 오디오파일이 생성될 수 잇도록 하기 위해 많은 노력을 했고(1초의 음성 파일을 생성해내는데 50ms가 걸린다고 한다.) 특히 구글의 클라우드 TPU를 이용해 많은 사용자들이 사용할 때도 잘 작동할 수 있었으며 첫 번째로 구글 클라우드 TPU를 통해 런칭되는 제품이라고 한다.

기사본문 URL
http://techneedle.com/archives/32403