[IT] 성대모사 인공지능이 가짜뉴스를 만든다면? 기술IT

sound-856770_960_720.png » 사람의 목소리를 똑같이 흉내내는 인공지능 알고리즘이 개발됐다. 픽사베이

 

반겨야 할까, 부숴버려야 할까

 

인공지능이 나와 똑같은 목소리를 낸다면? 반겨야 할까, 아니면 부숴버려야 할까?

인공지능은 인간에게 이로우면서 동시에 해를 끼칠 수도 있는 두 얼굴의 기술이다. 영화 <아이언맨>에서 주인공의 손과 발이 돼주는 인공지능 비서 ‘자비스’가 전자의 예라면, 영화 <터미네이터>에서 주인공 존 코너를 없애려 미래에서 날아온 로봇 킬러는 후자의 예다. 잠재적 위험을 안고 있는 또 하나의 인공지능 알고리즘이 고개를 내밀고 있다. 특정인의 목소리를 똑같이 모사해내는 인공지능이다.
 

lyrbird_in_scrub.jpg » 한 번에 20가진 안팎의 다양한 소리를 흉내내는 라이어버드(금조). 호주에 사는 커다란 참새목의 일종이다. 위키미디어 코먼스

1분 음성데이터만 있으면 어떤 목소리도 재현

 

캐나다 몬트리올의 신생기업 라이어버드(Lyrebird)가 개발한 이 알고리즘은 단 1분간의 음석녹음 데이터만으로 사람의 목소리를 재현해낸다. 특히  화가 났거나 짜증이 났을 때 등 여러 감정 상태를 담은 목소리 재현까지 가능하다. 수십초짜리 음성데이터만 있으면 어떤 텍스트가 주어지더라도 당사자의 목소리로 표현할 수 있는 성대모사 인공지능이다. 차 경적 소리 등 주변의 소리를 들으면 그대로 흉내낼 줄 아는 오스트레일리아의 라이어버드(금조)를 회사 이름으로 쓴 이유를 알 만하다.
라이어버드 알고리즘은 몬트리올대의 몬트리올학습알고리즘연구소(MILA)에서 수행한 연구의 결과물이다.  음성 데이터만 확보되면 0.5초 안에 1000개의 새로운 문장을 생성할 수 있다고 한다. 성대모사 인공지능이 등장한 것이 이번이 처음은 아니다. 지난해 9월엔 포토샵으로 유명한 어도비가 ‘프로젝트 보코’(Project VoCo)라는 이름의 음성 모방 기술을 선보여 관심을 끌었다. 어도비는 당시 사진을 자르고 변조하고 합성하는 포토샵의 기능을 음성에 적용한 것이라고 해서 음성편집 기술이라고 설명했다. 이 소프트웨어 역시 음성 녹음 데이터와 텍스트만 있으면 당사자가 하지 않은 말이라도 실제 말한 것처럼 재현해내는 능력을 갖고 있다. 다만 보코는 음성 데이터가 적어도 20분 분량은 있어야 제 기능을 발휘한다. 또 구글의 인공지능 개발업체인 딥마인드도 실제 사람이 말하는 것처럼 자연스러운 음성으로 합성할 수 있는 기술인 웨이브넷(WaveNet)을 지난해 9월 공개한 바 있다.

 

 

 


몇년 안에 진짜와 구별 못할 수준으로

 

라이어버드는 버락 오바마, 도널드 트럼프 등 전, 현직 미국 대통령의 목소리를 다양한 톤으로 흉내낸 오디오 샘플을 웹사이트에 올려놓았다. 아직까지 목소리 재현 수준이 완벽한 것은 아니다. 금속성 쇳소리나 잡음도 섞여 들린다. 하지만 누구의 목소리인지는 알아챌 수 있다. 개발자인 몬트리올대 박사과정 학생 알렉상드르 브레비송(Alexandre de Brebisson)은 “몇년 안에 진짜 목소리와 구별할 수 없는 수준에 이를 것”이라고 말했다. 그 때가 되면 영화 <스니커즈>(1992)에서 등장했던 음성인식 보안장치와 같은 기기는 무용지물이 될 것이다.

 

lyre2.jpg » 영화 <스니커즈>에서 등장했던 음성인식 보안장치 화면. 유튜브 갈무리

 

범죄 등에 악용 우려…판도라의 상자 되려나

 

성대모사 인공지능은 과연 어디에 쓸모가 있을까? 라이어버드쪽은 말을 못하는 장애인들의 음성 보조도구나 개인 비서용, 유명인의 목소리로 듣는 오디오북, 애니메이션이나 비디오 게임의 내레이션 등 다양한 용도로 쓸 수 있을 것이라고 주장한다. 유명인들이 자신의 목을 보호하기 위해, 자신의 목소리 아바타로 활용하는 것도 생각해 볼 수 있다.
 그러나 이런 선의의 용도보다 더 먼저 떠올려지는 건 악용 가능성이다. 실제 완벽한 목소리 재현 수준에 도달한다면 사기, 증거조작 등 다양한 범죄에 이용될 여지가 커 보인다.  자칫 위험천만한 판도라의 상자가 되는 것 아니냐는 우려가 일 만하다. 특히 요즘처럼 가짜뉴스가 판치는 세상에선 가짜뉴스를 생성하는 도구로 악용될 소지도 있어 논란이 불가피해 보인다.

 


라이어버드도 웹사이트를 통해 “악용 가능성을 우려하는 목소리를 잘 알고 있다”고 인정했다. 이 업체는 이에 대한 대응 방안으로 자신들의 기술을 아예 공개해 누구나 이용할 수 있도록 할 계획이라고 한다. 자신들이 아니라도 누군가는 이런 기술을 개발할 것이기 때문에, 자신들이 앞장서서 그런 기술의 존재와 내용을 만천하에 공개하겠다는 것. 이들은 그렇게 되면 음성녹음 자료는 법적으로 증거 능력을 점차 잃어버리게 될 것으로 전망했다. 라이어버드는 개발작업이 완료되는 대로 API(프로그래머를 위한 운영체제나 프로그램의 인터페이스)를 개발자들에게 공개할 계획이다.
 

 출처
 https://techcrunch.com/2017/04/25/lyrebird-is-a-voice-mimic-for-the-fake-news-era/
 https://www.theregister.co.uk/2017/04/24/voice_stealing_lyrebird/
 http://www.theverge.com/2017/4/24/15406882/ai-voice-synthesis-copy-human-speech-lyrebird
 https://techxplore.com/news/2017-04-lyrebird-tech-voice.html
 https://techxplore.com/news/2016-11-voco-demo-intriguing-tech-word.html
 https://www.youtube.com/watch?v=I3l4XLZ59iw
 https://lyrebird.ai/
 구글 웨이브넷
 http://techholic.co.kr/archives/60333
 http://www.theverge.com/2016/9/9/12860866/google-deepmind-wavenet-ai-text-to-speech-synthesis


곽노필 한겨레신문 선임기자 nopil@hani.co.kr
페이스북 페이지 '미래가 궁금해'
트위터 '곽노필의 미래창'
TAG

Leave Comments


profile한겨레신문 선임기자. 미래의 창을 여는 흥미롭고 유용한 정보 곳간. 오늘 속에서 미래의 씨앗을 찾고, 선호하는 미래를 생각해봅니다. 광고, 비속어, 욕설 등이 포함된 댓글 등은 사양합니다.