곽노필의 미래창

[언어] 언어 습득에 필요한 정보량은? 사회경제

2019.04.02 16:45 곽노필 Edit

» 18세가 될 때까지 습득하는 모국어 정보량은 1.5메가바이트로 추정됐다. 픽사베이

1.5메가바이트…`플로피 디스크' 한 장 분량

연구진 "첫 계량화 시도...생각보다 적은 양"

한 언어를 막힘없이 구사하는 수준으로 습득하려면 얼마나 많은 정보량이 필요할까? 흥미롭긴 하지만 선뜻 손대기가 어려울 법한 연구 과제다.

프랜시스 몰리카(Francis Mollica) 미 로체스터대 뇌인지과학과 교수가 이끄는 연구진이 수학의 정보이론을 이용해 영어를 대상으로 이에 도전했다. 정보이론이란 확률분석을 토대로 정보의 양을 측정하는 응용수학의 한 분야다. 연구진은 태어나서부터 18세까지를 언어 습득 과정으로 가정하고 이 기간중 언어 정보를 얼마나 뇌 속에 저장하는지 추정했다. 결론은 1.5메가바이트다. 이는 과거 대표적 휴대용 저장장치였던 3.5인치 플로피 디스크 한 장에 담을 수 있는 정보(1.44메가바이트)보다 조금 더 많은 양이다. 1분에 약 2비트씩 습득하는 격이다. 물론 이는 어디까지나 수학적 추정일 뿐, 검증된 것은 아니다. 연구진은 "이번 연구는 언어를 완전히 습득하기 위해 배워야 하는 언어정보의 양을 계량화한 첫 시도"라며 "도출된 결과는 생각했던 것보다는 적은 양"이라고 말했다.

연구진에 따르면, 사람의 뇌는 알고 있는 단어를 들으면 그 단어를 이해하는 데 도움이 될 모든 정보에 접근한다. 예컨대 단어를 구성하는 소리, 단어의 뜻, 문장 속의 맥락, 동사의 시제 등등을 따진다. 연구진은 수학의 정보이론을 이용해, 언어 습득 과정을 몇가지 국면으로 나눠 언어 습득에 필요한 데이터가 얼마나 되는지 분석했다.

» 3.5인치 플로피 디스크 한 장에 담을 수 있는 데이터보다 조금 많은 수준이었다. 픽사베이

음소, 단어, 구문 등 단계별 필요 정보량 분석

18년간 하루 평균 1900비트씩 저장하는 셈

연구진은 우선 음소 습득에 필요한 데이터 크기부터 시작했다. 음소란 단어를 구성하는 최소 단위로, 자음, 모음이 대표적인 음소다. 영어에는 약 50개의 음소가 있다. 각 음소의 정보량은 15비트다. 따라서 음소 전체의 정보량은 750비트가 된다.

그러나 음소를 익히는 건 언어 습득의 극히 초보단계일 뿐이다. 시작이 반이라지만, 진짜 언어습득은 그 다음부터다. 단어를 익히는 것이 첫 관문이다. 영어를 모국어로 쓰는 사람들의 평균 어휘는 4만 단어다. 연구진은 이를 습득하는 데는 40만 비트가 필요하다는 걸 알아냈다. 영어 단어 하나에 평균 10비트가 필요한 셈이다.

단어들의 뜻을 이해하는 데는 더 많은 데이터가 필요하다. 각 단어에는 여러 뜻을 가진 정보가 들어있기 때문이다. 몰리카 박사는 과학미디어 `뉴 사이언티스트'와의 인터뷰에서 이를 어휘 의미론(lexical semantics)이라고 불렀다. "나는 칠면조(turkey)라는 단어를 언급하고, 당신은 틸면조에 대해 정보를 알고 있다고 치자. 그러면 당신은 그 정보를 갖고 터키가 날 수 있는지, 걸을 수 있는지 아닌지 대답할 수 있다." 연구진은 4만 단어의 뜻을 이해하는 데는 모두 1200만 비트가 필요하다는 계산 결과가 나왔다고 밝혔다.

» 연구진은 언어 습득 과정을 몇가지 국면으로 나눠 분석했다. 픽사베이

특정 단어가 얼마나 자주 등장하는지를 아는 것도 언어 습득에 중요하다. 빈번하게 쓰는 단어 정보를 저장하는 데는 8만 비트가 필요하다. 마지막으로 구문, 즉 문장의 규칙이 있다. 구문을 구성하는 데는 적어도 약 700비트가 소요된다. 이 모든 걸 합친 결과는 1.56메가바이트였다. 3.5인치 플로피디스크 한 장, 또는 3분 분량의 MP3 음악파일 용량과 비슷한 수준이다.

확률분포상 한 사람이 하루에 습득하는 언어 정보량의 상한선은 6000비트, 하한선은 120비트, 최적치는 1000~2000비트로 나타났다. 120비트의 정보량을 2진법 비트로 표현하면 ` 0110100001101001011001000110010001100101011011100110000101100011/01100011011011110111001001100100011010010110111101101110'이다. 물론 이는 뇌가 습득하는 언어 정보량을 눈으로 보여주기 위한 것일 뿐이다. 뇌는 다른 방식으로 저장한다. 18세까지 1.5메가바이트의 언어 정보를 습득하려면 하루 평균 1900비트를 습득해야 한다. 하한선보다 16배 더 많은 정보량이다.

언어 습득에 필요한 영역별 정보량(단위:비트)

영역	추정 최적치
음소	750
단어형태	400,000
어휘 의미	12,000,000
단어 빈도	80,000
구문	697
총 습득 정보량	12,481,447
1일 습득 정보량	1900

습득 정보의 절대량은 단어의 뜻...학습 초점 잘못돼 있어

연구진은 이번 연구에서 우리가 습득하는 언어 정보의 대부분은 문법으로 대별되는 문장 구조가 아니라 단어의 뜻이라는 걸 확인했다고 강조했다. 논문 공동저자인 스티븐 피안타도시(Steven Piantadosi) UC버클리 심리학과 조교수는 "언어 습득에 관한 연구들의 다수가 어순과 같은 구문론에 초점을 맞고 있지만, 이번 연구는 구문론은 언어 학습의 작은 일부일 뿐이며 언어학습의 관건은 단어들의 뜻을 습득하는 데 있음을 보여준다"고 말했다.

이는 인간 학습과 로봇 학습의 차이이기도 하다고 그는 설명했다. "기계는 어떤 단어들이 함께 쓰이는지, 그 단어들이 문장 속에서 어디에 위치하는지는 알지만, 단어의 뜻은 거의 알지 못한다." 그는 단어의 뜻은 여러 언어 사이에 비슷할 수 있기 때문에 이중언어를 구사하는 사람들이 언어정보를 꼭 두배 저장할 필요는 없다고 덧붙였다. 몰리카 박사는 이번 계산은 영어에만 적용해본 것이지만, 다른 언어에도 확대해 볼 수 있을 것이라고 말했다.

이번 연구는 공개 저널 `왕립학회 오픈 사이언스'(Royal Society Open Science) 3월27일치에 실렸다.

출처

https://www.newscientist.com/article/2197652-all-the-info-our-brain-needs-for-language-nearly-fits-on-a-floppy-disc/

https://www.dailymail.co.uk/sciencetech/article-6855661/The-information-brain-needs-learn-language-fit-floppy-disk.html

https://www.livescience.com/65108-brain-megabyte-storage-for-language.html

https://www.eurekalert.org/pub_releases/2019-03/uoc--ks1032719.php

논문보기

https://royalsocietypublishing.org/doi/10.1098/rsos.181393