[IT] 딥마인드, 사람 목소리 내는 인공지능 개발 기술IT

artificial-intelligence-503593_960_720.jpg » 구글의 딥마인드가 사람 목소리를 흉내내는 인공지능 웨이브넷을 개발했다.

 

인공신경망 훈련으로 처음 본 단어도 거뜬

 

이세돌 9단을 물리친 인공지능 알파고 개발업체인 구글의 딥마인드가 이번엔 사람과 아주 흡사한 목소리를 흉내낼 수 있는 인공지능 기술을 선보였다.
웨이브넷’(WaveNet)이라는 이름의 이 기술은 인공 신경망을 이용해 처음 본 단어도 읽을 수 있다. 또 컴퓨터가 내는 목소리도 이전의 문자-음성변환(TTS) 기술에 비해 50% 더 좋아졌다고 딥마인드는 밝혔다.
​​딥마인드가 영어와 중국어에 대한 음성 테스트 결과를 비교한 내용을 보면, 실험 참석자들은 구글 문자-음성변환 시스템(TTS)에 비해 웨이브넷의 목소리가 훨씬 더 자연스럽다고 평가했다. 다만 사람 수준에는 아직 미치지 못한다고 덧붙였다.

 

BlogPost-Fig1-Anim-160908-r01.gif


현재 컴퓨터에서 만들어내는 음성은 방대한 분량의 사람 목소리를 녹음해 놓고 이 데이터를 잘게 쪼개 조합하는 방식이다. 따라서 음절간의 연결이 부자연스럽다. 이를 조각연결(concatenative TTS) 방식이라 한다. 실제 사람 목소리 대신 전자적으로 소리를 만들어내는 방식도 있다. 하지만 이는  앞의 방식보다 목소리가 더 부자연스럽다. 이를 파라메트릭(parametric TTS) 방식이라 한다.
반면 딥마인드가 개발한 '웨이브넷'은 목소리 데이터를 기반으로 하기는 하지만, 각각의 데이터를 분석해 문장 패턴에 맞게 훈련하는 방식이다. 따라서 이를 발전시키면 로봇 웅변가, 로봇 성우도 만들어낼 수 있다. 목소리 변장도 가능하다. 사람 목소리가 아닌 악기 연주 소리도 모방이 가능한 것은 물론이다. 딥마인드는 100개 문장에 대해 평가단이 내린 점수를 평균평점(MOS) 방식으로 취합한 결과, 웨이브넷이 기계 음성과 사람 음성 사이의 갭을 50% 이상 좁힌 것으로 드러났다고 밝혔다. 

 

mos.jpg » 웨이브넷은 기존 기계 음성과 사람 음성과의 간격을 절반 이상 좁혔다. 딥 마인드


그러나 훈련을 제대로 소화해내려면 대용량 컴퓨터가 필요하기 때문에 단기간에 상용화하기는 어렵다고 딥마인드는 밝혔다.
SF 영화 <허>(HER)에는 인공지능 운영체제인 사만다가 섹시한 음성으로 사람과 이야기를 나누는 장면이 나온다. 얼마나 자연스럽고 매혹적인지 테오도르는 자신도 모르는 사이에 그만 사랑의 감정에 빠지고 만다. 실제 영화에서 사만다의 목소리는 세계에서 가장 요염한 스타 가운데 하나로 꼽히는 스칼렛 요한슨의 음성이었다. 웨이브넷의 등장은 이런 SF 영화의 상상이 실제가 될 수도 있음을 시사한다.

wih1jwvgy1mhf9oaanxc.jpg » 영화 <허>에서 주인공 테오도르는 요염한 목소리의 인공지능 사만다와 사랑의 감정을 갖는다. 사진은 영화의 한 장면.

 

출처

https://deepmind.com/blog/wavenet-generative-model-raw-audio/

http://www.sciencealert.com/google-s-deepmind-ai-just-made-a-machine-sound-like-a-human

https://www.technologyreview.com/s/602343/face-of-a-robot-voice-of-an-angel/

개발 논문 보기

https://drive.google.com/file/d/0B3cxcnOkPx9AeWpLVXhkTDJINDQ/view


곽노필 한겨레신문 선임기자 nopil@hani.co.kr
페이스북 페이지 '미래가 궁금해'
트위터 '곽노필의 미래창'
TAG

Leave Comments


profile한겨레신문 선임기자. 미래의 창을 여는 흥미롭고 유용한 정보 곳간. 오늘 속에서 미래의 씨앗을 찾고, 선호하는 미래를 생각해봅니다. 광고, 비속어, 욕설 등이 포함된 댓글 등은 사양합니다.