[AI]인공지능, 사람 목소리를 훔치다 로봇AI

spec.jpg » 영화 <허>에서 주인공 테오도르가 인공지능 목소리와 대화를 하고 있는 장면.

 

구글 딥마인드 ’태코트론2’

숙련된 사람 목소리와 흡사

발성 점수 4.53-4.58 엇비슷 

문장부호 맞춰 액센트 넣기도


인공지능이 사람의 목소리까지 완벽한 수준으로 구현하기에 이르렀다.
구글이 최근 온라인 논문공유집 <아카이브>(arXiv)에 발표한 연구보고서에 따르면, 알파고를 개발한 딥마인드의 문자-음성 변환 시스템 '태코트론2'(Tacotron 2)가 사람과 구분할 수 없을 정도로 자연스런 발성 능력을 확보했다. 이 보고서는 아직 동료검토를 마치지는 않은 상태다.
이 태코트론은 두 개의 신경망으로 구성돼 있다. 첫번째 신경망은 글을 스펙토그램으로 변환한다. 스펙토그램이란 음파를 시간 흐름에 따라 시각적으로 표현한 것을 말한다. 소리의 진폭을 흑색의 농담 차이로 구분해 나타내는데 농담이 짙으면 진폭이 큰 것이고, 엷으면 진폭이 작은 것이다. 이 스펙토그램을 구글 인공지능 연구랩 딥마인드가 만든 음성 합성 소프트웨어 '웨이브넷'에 넣으면 웨이브넷이 이를 분석해 사람 목소리로 읽어낸다.
태코트론2의 평균 발성 점수(MOS)는 4.53점으로, 숙련된 사람의 녹음 목소리 4.58점에 근접한다는 평가를 받았다. 이는 지난해 4.21점보다 크게 높아진 것으로 사람 목소리와의 간극이 사실상 사라졌다.

 

specto.jpg » ’워’(whoa)라는 단어를 스펙토그램으로 표시한 것. (Lorenzo Tlacaelel /CC BY 2.0)

구글 연구진은 또 태코트론2가 발음하기 어려운 단어들도 능숙하게 처리해내는 모습도 보여준다고 밝혔다. 문장부호를 읽고 그에 맞춰 발음할 줄도 안다. 예컨대 대문자로 쓰인 단어는 더 강조해서 읽는다. 사람들이 어떤 문장에서 중요한 부분이라는 걸 표시하고 싶을 때 이런 방식을 쓴다는 걸 학습해 놓았기 때문이다.

이제 실제 샘플 문장으로 인공지능의 목소리 흉내 실력을 알아보자. 샘플 문장은 “George Washington was the first President of the United States.”이다. 아래 두 개의 음성 샘플 중 위의 것이 인공지능 목소리이고, 아래 것이 실제 사람 목소리이다.

 

 


두 목소리에 어떤 차이가 있는지 구별해내기가 어렵다. 오히려 인공지능의 목소리가 더 자연스럽게 들린다고 생각할 사람도 있을 법하다.

이 기술의 장점은 당장 써먹을 수 있다는 점이다. 지난해 처음 공개된 웨이브넷은 현재 인공지능 스피커인 구글 어시스턴트에 적용돼 쓰이고 있다. 이번에 소개된 2.0버전이 어시스턴트에 쓰이면 더욱 자연스러운 음성 서비스가 가능해질 것이다.
SF영화 <허>(HER)에서 인공지능 운영체제인 사만다는 매혹적인 목소리로 주인공 데오도르와 대화를 한다. 그 목소리에 빠져 테오도르는 인공지능에 사랑의 감정을 느낀다. 구글의 태코트론2는 이런 영화의 상상력이 실제 현실이 될 수도 있음을 시사한다.
이 시스템의 한계는 아직까지 한 여성의 목소리만 흉내낼 줄 안다는 점이다. 그렇게 훈련받았기 때문이다. 남성이나 아니면 다른 여성의 목소리처럼 말하려면 처음부터 다시 훈련을 시켜야 한다.

 

출처

논문 보기

태코트론2와 사람 목소리 음성 비교 파일 출처

https://google.github.io/tacotron/publications/tacotron2/index.html

 

TAG

Leave Comments


profile한겨레신문 선임기자. 미래의 창을 여는 흥미롭고 유용한 정보 곳간. 오늘 속에서 미래의 씨앗을 찾고, 선호하는 미래를 생각해봅니다. 광고, 비속어, 욕설 등이 포함된 댓글 등은 사양합니다. 

Recent Trackback