LREC 2020 학회에 2편의 논문이 게재 승인됐습니다.
2020/02/21 by 카카오브레인

카카오브레인 연구팀이 쓴 2편의 논문인 'word2word: A Collection of Bilingual Lexicons for 3,564 Language Pairs'(최요중, 박규병, 김동우)와 'Jejueo Datasets for Machine Translation and Speech Synthesis'(박규병, 최요중, 함지연)가 LREC 학회[1]에 실리게 됐습니다.

다국어 대역어사전(bilingual lexicon)은 저자원 기계번역(low-resource machine translation)이나 다국어 단어 임베딩(cross-lingual word embeddings)과 같은 자연어처리 과제를 해결하는 데 있어서 중요한 자원입니다. 그러나 외부 공개된 대부분의 대역어사전은 충분히 많은 대역어쌍을 갖추지 못하고 있습니다. 단어의 정의와 원형에 관한 정보를 제공하는 국어사전 또한 다국어 자연어처리 과제에 적합하지 않죠.

이에 카카오브레인 연구팀은 3,564개 언어쌍에 대해 평균 12만 개의 대역어를 제공하는 다국어 대역어사전을 구축했습니다. 이를 누구나 쉽게 사용할 수 있도록 하고자 파이썬(Python) API도 공개했습니다. 아울러 연구팀은 word2word 논문을 통해 오픈소스 번역 데이터인 OpenSubtitles2018에서 최대한 많은 대역어쌍을 효과적으로 추출하는 방법론을 제안했습니다. 이 방법론을 적용하면 번역 데이터에 포함된 모든 단어에 대한 대역어를 제공할 수 있으면서도, 기존의 방법론과 비슷하거나 더 나은 성능을 낸다는 것도 검증했습니다.

한편, 아래아와 같은 중세언어의 흔적이 남아 있어 학술 가치가 큰 제주어는 현재 사멸 위기에 처해있습니다. 제주어를 사용하는 인구가 급감하고 있기 때문입니다. 오늘날 제주 지역의 청소년은 학교에서 제주어를 배우지 않습니다. 제주어를 구사하는 신규 연령층의 진입이 전무후무한 가운데, 평균 연령 70세가량인 1만 명의 제주어 화자가 사라진다면 제주어는 지구상에서 소멸하게 됩니다.

유네스코(UNESCO)에서 아주 심각한 위기에 처한 언어로 분류한 제주어 보전의 필요성에 공감한 카카오브레인 연구팀은 자사가 보유한 딥러닝 기술을 활용해보기로 했습니다. 모델 학습에 적합한 형태의 정제된 텍스트 데이터는 물론 잡음(noise)이 섞이지 않은 음성 데이터를 가진 기관이 그 어느 곳에도 없었습니다. 이에 연구팀은 제주어구술자료집으로부터 제주어-표준어 병렬 코퍼스를 획득하고, 제주어 아마추어 성우를 통해 제주어 화자의 음성 데이터셋을 확보하는 데 주력했습니다. 이 데이터셋을 활용해 연구팀은 딥러닝을 활용한 표준어-제주어 기계 번역과 제주어 음성합성(TTS) 모델도 구축했습니다.

박규병 카카오브레인 연구원은 "자사가 공개한 다국어 대역어사전 API가 관련 과제에서 유용하게 사용되길 바란다"며 "아울러 제주어를 전산학적으로 접근한 최초의 연구 성과인 만큼 이에 관한 후속 연구도 활발하게 이뤄졌으면 좋겠다"고 총평했습니다.

카카오브레인 연구팀은 오는 5월 프랑스 마르세유에서 열리는 LREC 학회에 참가할 예정입니다. 두 편의 논문 중 제주어 데이터셋 연구에 관한 이야기는 브레인 블로그를 통해 자세히 전달 드리겠습니다.


👏음성 및 자연어 처리 분야 리서치 사이언티스트・리서치 엔지니어 모집 영입공고 : https://kakaobrain.com/career


참고
[1] 언어 자원과 평가를 주제로 하는 국제학회로, 격년으로 열린다.
이 글을 쓴 사람들
kakaobrain
카카오브레인