구글 번역기 작동법 -확률-

외국어를 배운 적이 있다면 번역도 해봤을 거야.외국어를 배우는 학생들은 사전과 문법 규칙에 관한 지식으로 무장한 뒤 단어가 의미하는 바를 알려고 씁쓸하게 문장을 분석한다. 그리고 문맥의 실마리를 잡는다. 두 언어를 모두 유창하게 구사하는 사람이 아니라면 번역 과정은 단편적으로 진행되는 힘든 작업이다

구글 번역기는 이런 과정을 모두 건너뛰는다.대신 이 번역 프로그램은 통계학을 이용해 제1언어로 쓰여진 문헌과 제2언어로 된 문헌을 비교한다. 유엔에서 장기적으로 6개 언어(영어 프랑스어 러시아어 스페인어 중국어 아랍어)로 글을 발표하지만 구글 번역 프로그램은 그 문헌을 방탕하게 방대한 언어용 예 데이터베이스를 구축했다. 구글 번역기 데이터베이스는 현재 80여 종의 언어에 대한 정보를 담고 있다. 이 프로그램은 수억 건의 문헌을 살펴보고 패턴을 찾아 단어를 어떻게 번역할 때가 가장 많은지 알아본다.단어의 정의나 문법에 전혀 의존하지 않는 이러한 과정을 통계적 기계번역이라고 한다.이러한 번역 방식은 확률에 의존한다는 점에서 수학과 관련이 있다. A언어로 한 문장이 주어졌을 때 B언어 한 문장이 그 첫 문장을 번역했을 가능성은 얼마나 될까?

통계적 기계 번역은 정보 이론에 뿌리를 두고 있다. 정보이론은 신호처리, 데이터 압축, 언어 등을 다루는 응용수학의 일종으로 1948년 공학자 겸 수학자 클로드 섀넌이 벨연구소 기술저널에 통신의 수학적 이론이라는 논문을 발표하면서 탄생한 것으로 알고 있다. 정보이론은 휴대전화와 컴퓨터를 이용한 메시지 전송은 물론 암호 해독에도 쓰인다. 정보 이론 수학이 없었다면 주머니 속의 휴대전화는 벽돌처럼 컸을 것이다 그리고 웹 기반 컴퓨터 계산으로 문장을 번역할 놀라운 능력도 생기지 않았을 것이다.

지진파 석유탐사 지하에서 석유를 탐사하는 사람들에게도 정보이론은 매우 중요하다. 이들은 전문 분야인 지진파 석유 탐사에서 석유 퇴적물이 만든 신호와 간섭할 수 있는 잡음을 솎아내고 명확한 신호를 만들 때 정보 이론을 이용한다.발췌: 세상을 움직이는 수학의 개념 100

error: Content is protected !!