AI 트렌드
AI 음성의 그럴싸함을 어떻게 평가할 수 있을까?
2019/06/04 by 이수경, 소형준

사례 1. 영화 <리플리(The Talented Mr. Ripley)>의 주인공인 톰 리플리(맷 데이먼 분)는 피아노 연주회에서 선박 부호인 허버트 그린리프(제임스 레브혼 분)를 만납니다. 톰을 아들의 대학 동창생으로 착각한 허버트. 자신의 아들 디키 그린리프(주드 로 분)를 미국으로 데려오면 사례금을 준다는 부탁을 건넵니다. 이탈리아로 건너간 톰은 디키에게 자신의 재능이 서명위조, 거짓말, 성대모사라 소개하며 허버트의 목소리를 흉내 냅니다. 이를 본 디키가 “머리가 쭈뼛 선다. 마치 아버지가 와있는 것 같잖아?”라고 반응하며 톰에게 흥미를 보이는 것으로 극이 전개됩니다.

[ 동영상 1] 영화 <리플리(The Talented Mr. Ripley)>

사례 2. 개그맨 정성호 씨는 시대별로 대표되는 정치인뿐만 아니라 유명 배우와 가수의 목소리를 곧잘 흉내 내는 모사의 달인으로 불립니다. 그가 모사한 대상만 무려 30명. 영화배우 한석규 씨의 말하기 스타일을 ‘끝말을 조금 늘어뜨리다가 마지막 단어는 정확하게 발음한다’라고 분석하려면 어떤 노력이 필요할까요? 정 씨는 따라 하려는 대상을 6~7개월가량 연구합니다. 대상자의 음성을 귀에 못이 박힐 정도로 반복해서 듣는 방식을 통해 화자의 말하기 스타일을 습득한다고 합니다.

[ 동영상 2 ] 개그맨 정성호 씨가 유명인을 성대보사하는 영상

이런 사례를 찾아보다가 문득 사람들은 어떤 기준을 가지고 목소리의 유사도를 판단하는지 궁금해졌습니다. 이 궁금증에 대한 답을 찾다 보니 ‘만일 음성의 유사도를 평가하는 명확한 기준이란 게 있다면 우리 스스로 인공지능 음성합성(voice synthesis, 이하 TTS) 모델의 기술적 완성도, 즉 기계가 인간의 목소리를 얼마나 잘 따라 하는지를 조금 더 객관적으로 판단해볼 수도 있겠다’는 결론을 도출하기에 이르렀죠

카카오브레인에서 딥러닝을 이용한 음성기술을 연구하는 소형준 연구원을 만나 이에 관한 자세한 이야기를 들어봤습니다. 이번 글에서는 목소리의 유사도를 판단하는 기준, 인공지능 음성합성 모델을 만들기 위해 필요한 자원, 그리고 음성 인공지능의 미래에 대해 다뤄보고자 합니다.


'비슷한 목소리’라고 판단하는 5가지 기준

음성의 유사도는 어떻게 평가할 수 있을까요? 소 연구원은 5가지 기준이 있다고 분석합니다.

1.음색의 유사성 : 목소리 톤이 비슷한가?

음색은 사람의 성대에서 만들어내는 소리 자체를 가리킵니다. 어떤 단어를 말하는 속도나 구사하는 언어와는 관계가 없습니다. 성대가 내는 소리 범위와 분포 즉, ‘목소리 톤이 얼마나 일치하느냐’로 유사도를 판단하자는 것이 골자입니다.

2.음소(phoneme)[1]의 유사성 : 발음이 유사한가?

모든 발화는 음소의 순차적인 조합이라고 볼 수 있습니다. 그런데 이 음소는 사람마다 조금씩 다르게 발음되기도 합니다. 예를 들어 ‘혀 짧은’ 소리를 내는 사람은 음소 [ㅅ]을 음소 [ㄷ]과 가깝게 발음하곤 합니다. 연령대가 높은 영남 방언 사용자들은 경음[2] [ㅆ]을 연음[3] [ㅅ]으로, 모음 [ㅓ]를 모음 [ㅡ]로 발음하죠. 제주 방언 사용자는 다른 방언에서 나타나지 않는 고유한 발음인 아래아를 구분합니다. 허구연 해설위원의 동영상을 보시면 화자 특유의 음소 발화를 살펴보실 수 있습니다.

 [ 동영상 3 ] 허구연 위원의 양궁 해설

3.준언어적 요소[4]의 유사성 : 말소리의 음향적 성질이 유사한가?

같은 단어나 문장을 읽더라도 목소리의 음조(높낮이)[5], 강세[6], 전달 속도, 억양[7] 등에 따라 그 의미가 크게 변할 수 있습니다. 예를 들어 문장의 끝을 올리느냐 혹은 내리느냐에 따라서 의문문이 되고 평서문이 되죠. 이러한 준언어적 요소는 사람마다 다르게 나타나는데요, 전라도, 경상도, 강원도 등 지역마다 보이는 문장을 구성하는 억양 차가 좋은 사례입니다. 글을 읽는 방식은 상황에 따라서도 크게 바뀔 수 있습니다. 평소 친구와 대화할 때, 청중 앞에서 연사할 때, 카메라나 무대 앞에서 연기할 때 말하는 방식이 각각달라지는 것처럼 말이죠. 슬플 때나 기쁠 때 등 화자의 감정 상태에 따라서도 말소리는 달라집니다.

4.언어적 유사성 : 문장 구성 방식이 유사한가?

지난 2017년 11월 개그맨 정찬우·김태균 씨가 “쌩뚱맞죠”, 김준호 씨가 “케어해주쟈나” 등으로 상표권을 획득한 사례에서 보듯이 어떤 사람이 자주 내뱉는 말은 그 사람의 고유 화법이라 볼 수 있습니다. 이렇게 같은 의미를 전달하더라도 사람마다 문장을 구성하는 어휘나 어순에는 차이가 있습니다. 10대 여자 고등학생, 20대 군인, 30대 IT 직장인, 60대 호남 지방에 거주하는 노인이 자주 사용하는 단어가 모두 다른 것처럼 말이죠.

5.언어외적 요소의 유사성 : 말하기 습관이 유사한가?

말더듬, 숨소리, 입맛을 다시는 소리처럼 계량할 수 없는 언어외적 요소는 화자가 말을 하는 습관과도 큰 연관성이 있습니다. 따라서 화자의 화법적 특징을 잘 추출하는 것으로도 음성의 유사도를 높일 수 있습니다. 예를 들어 고(故) 패션디자이너 앙드레 김의 ‘음’, ‘어’와 같은 특징적인 습관을 흉내내는 것만으로도 상당히 유사하다고 생각할 수 있겠죠.

 [ 동영상 4 ] 앙드레 김의 말하기 습관


유사성 평가 지표는 매번 똑같이 적용될까?

그렇다면 음성의 유사도를 판단하는 데 있어서 위 다섯 가지 기준 각각의 중요도는 얼마나 될까요? 읽어야 하는 텍스트가 동일하다면 목소리가 닮은 정도, 즉 음색의 유사성을 통해 판단할 것입니다. 하지만 많은 경우 발화 목적이나 상황에 따라 평가 지표의 우선순위가 달라집니다.

구연동화를 예로 들어봅시다. 동화 내용을 효과적으로 전달하기 위해서는 ‘캐릭터의 특징에 적합한 목소리’를 갖추는 게 관건입니다. 캐릭터 특유의 숨소리나 고유의 발음 습관 등을 포착하는 것이 중요하기에 구연동화 음성 결과물을 평가할 때 음색의 유사성보다는 언어외적 요소의 유사성을 판단하는 게 중요합니다.

또 다른 예로 양친을 사고로 잃은 슬픔을 표현하는 문장을 낭독하는 상황이라면 어떨까요? 낭랑하고 활기찬 목소리로 문장을 읽는다면, 청자는 문장이 담고 있는 의미와 이를 전달하는 목소리가 일치하지 않아 불편함을 호소할 것입니다. 따라서 이때는 감정 상태를 표현하는 준언어적 요소의 유사성이 판단 기준이 될 수 있습니다.

한편, 짧은 문장 단위로 합성하는 수준에서 음성의 유사도를 평가할 때는 음색을 비교하는 것만으로도 충분합니다. 실제로 성대모사 달인들도 짧은 문장을 말할 땐 대상자의 목소리를 최대한 비슷하게 흉내 내려고 노력합니다.

그런데 특정 지표의 유사도를 따지는 것만으로는 충분하지 않을 수 있습니다. 예를 들어, 음색적 유사도가 높은 목소리가 원래 목소리와도 같다고 볼 수 있을까요? 가수 아이유의 목소리에서 추출한 음색을 개그맨 유재석 씨의 발화 데이터에 덧씌워본 실험 결과를 한 번 확인해봅시다. 아이유가 유재석을 따라 하는 것처럼 들렸을까요, 아니면 유재석이 아이유를 흉내 내는 것처럼 들렸을까요? 놀랍게도 둘 다 아니었습니다. 오히려 낯익은 여성 희극인의 목소리처럼 들렸죠. 이러한 이유로 특히 긴 문장 발화에서는 비슷한 음색에서 더 나아가 나아가 언어적 요소나 준언어적 요소까지 살리는 것이 효과적입니다.


학습 데이터가 ‘얼마나’ 있어야 비슷한 목소리를 만들어낼 수 있나

기술이 발전함에 따라 특정인의 목소리를 흉내내는 인공지능 훈련에 필요한 학습 데이터는 수십 시간에서 수 시간 분량으로 점차 줄어들고 있습니다. 단 수 분에서 수십 분의 음성 샘플 데이터만으로도 화자의 말씨와 억양을 90% 이상의 유사도로 재현하는 데 성공했다는 기사 또한 쉽게 찾아볼 수 있습니다. 여기서 의문 하나가 생겼습니다. 정말로 단 몇십 분 분량의 데이터만으로 특정 화자의 목소리 재현이 기술적으로 가능할까요?

소형준 연구원은 “지금 기술 수준을 봤을 때 단 수 분에서 수십 분의 데이터만으로 특정인의 목소리 재현에 성공했다는 말에는 과장된 면이 없지 않아 있다”고 일축합니다. 수십 분의 데이터로 문장을 자유롭게 구사하는 TTS 모델을 만드는 것은 아직은 불가능하기 때문입니다.

하지만 실생활에서도 쉽게 접할 수 있는 문장 재현을 성공이라고 정의한다면, 나름의 기준에 부합했다고 볼 수 있습니다. ‘안녕하세요’, ‘반갑습니다’ 같은 문장이 대표적인 예인데, 이에 대해 소 연구원은 “단순하고 뻔할 문장일수록 숨어 있는 정보를 캐낼 필요가 없다. 짧게 말할수록 어딘가 이상하다고 판단할 시간조차 없기 때문”이라고 설명했습니다. 또는 특정 단어를 다른 단어로 치환한 사례를 들어 재현에 성공했다고 말했을 가능성도 배제할 수는 없습니다. 어떤 방법이든 간에 온전한 의미의 음성모델을 만들었다고 단언하기는 사실상 어렵습니다.

그렇다면 최소 어느 정도의 데이터가 있어야 그럴싸한 음성모델을 만들 수 있을까요? 카카오브레인은 재미있는 실험을 하나 진행하였습니다. '아직 학습되지 않은 데이터의 분량이 얼마나 있어야 화자와 비슷한 목소리로 발화를 구성할 수 있을 것인가'가 실험 주제였는데, 발화에 실패하면 끊어 읽지 않는 곳에서 쉬거나 발음이 뭉개지는 등 사람이 듣기에 어색한 발화의 빈도를 평가 기준으로 삼았습니다.

실험 결과에 따르면 2시간 분량의 학습 데이터가 있을 때는 발화자와 유사한 목소리로 깔끔하게 말하는 결과를 얻는 데 대부분 성공했습니다. 1시간 분량에서는 어색한 발음이나 억양으로 발화하는 경우가 생겼고, 30분의 데이터로는 그 빈도가 늘었습니다. 소 연구원은 “길이가 짧은 빈출 문장 합성에는 대부분 성공했지만, 문장 구조가 복잡하거나 학습하지 않은 문장 읽기는 실패하는 경우가 많았다”고 덧붙였습니다.

한편 일정 분량 이상의 데이터를 확보하는 것뿐만 아니라 대본 내용도 성공 여부에 큰 영향을 미칩니다. 특정 단어나 특정 발음이 포함될수록 즉, 데이터 편향이 심할수록 좋은 결과물을 얻는 데 실패할 확률이 높아집니다. 결과적으로 최소한의 문장으로 최대한 다양한 데이터를 확보하기 효율적인 문장으로 구성한 대본으로 구성한 2시간 이상의 발화 데이터가 있어야 고객의 만족을 충분히 이끌어낼만한 모델을 만들 수 있습니다.


완전한 E2E(end-to-end) 모델 구축이 어려운 이유

사람은 언어로 변환한 자신의 생각을 조음기관에서 발생하는 음성 신호로 내뱉습니다. 기존의 TTS 시스템은 이런 방식을 모방해 텍스트 분석부와 음성 합성부를 두는 거죠. 여기에는 전문적인 지식을 가지고 모듈을 구성해야 하기 때문에 진입장벽이 높다는 단점이 있는데요, 각 모듈에서 손실(loss)이 누적될 경우 부정확한 음성이 생성된다는 문제점도 존재합니다.

반면 E2E 시스템은 입력부터 출력까지 하나의 모듈로 구성됩니다. 기존과는 달리 각 모듈에 대한 전문적인 지식이 필요하지 않아 진입 장벽이 낮고, 각 모듈에서의 손실이 누적되는 문제를 해결할 수 있죠. 하지만 E2E 음성모델 개발에는 정말 많은 데이터가 필요합니다. 이런 이유로 현 시점에서 E2E 음성모델 개발은 상당히 어려운 축에 속합니다.

언어모델 학습에 사용되는 텍스트 데이터의 양을 한 번 들여다볼까요? 보통 몇십억 개의 코퍼스(corpus)로 언어모델을 구성합니다. 반면, 음성 데이터는 최대한 끌어모아도 10만 개가 전부입니다. 이조차도 대부분은 몇 개의 단어로만 구성되어 있다 보니 실제 생활에서 사용하는 언어 정보를 구성하기에 턱없이 모자랍니다. 음성모델을 만들 때 언어 처리부를 따로 두고 언어 지식을 구축하는 이유가 바로 여기에 있습니다.

하루에만 몇십 년 치 분량의 비디오가 생성되는 마당에 학습 데이터가 부족하다는 사실이 잘 이해가 되지 않는 분들도 있을 것입니다. 테라바이트(TB) 급 크기의 이미지는 학습에 바로 활용할 수 있지만, 소리는 그럴 수 없습니다. 노이즈(noise)나 반향(reverb)[8]이 낀 음성 데이터로는 어떤 말을 하는지 명확하게 인식하기 어렵기 때문입니다.

“사람이 이미지에 의미(레이블)를 직접 달 때는 꽤 정확한 정보를 입력할 수 있습니다. 보이는 대로 정보를 입력하면 됩니다. 이런 레이블링 작업 덕분에 객체 감지(object detection) 성능이 상당히 향상됐습니다. 그런데 소리는 어떨까요? 단순히 웨이브(wav) 파일을 듣는 것만으로는 그 안에 담긴 정보를 찾기가 상대적으로 더 어렵습니다. 노이즈나 원하는 소리만을 분리하는 작업의 성능이 낮은 이유죠.”

그래서 되도록 깨끗한 샘플을 얻고자 음성모델 학습에 필요한 데이터는 스튜디오 녹음을 통해 획득하고 있습니다. 하지만 이 방식은 굉장히 비쌀 뿐만 아니라, 한 사람의 성우가 하루 동안 생산할 수 있는 양질의 데이터는 1~2시간 정도 남짓입니다.

하루 8시간 일하는 근로자처럼 성우도 8시간 동안 끊임없이 대본을 읽으면 된다고 생각해볼 수 있을 것입니다. 하지만 성대 컨디션을 일정 수준으로 유지하기 위해서는 휴식을 위한 충분한 시간이 필요합니다. 아울러 대본을 더 잘 읽기 위한 연습 시간도 확보되어야 하죠. 이런 이유로 성우가 녹음 시간에 투입하는 시간이 사실상 길지 않습니다.

이마저도 재녹음 때문에 실제 확보하는 데이터 분량은 더 적어집니다. 스튜디오에서 녹음을 하더라도 마이크 진동과 같은 외부 노이즈가 입력될 수 있습니다. 또는 대본 연습을 충분히 하더라도 성우가 대본을 부정확하게 또는 애매하게 읽을 때도 있죠. 여러 번 녹음하고 그 중 제일 나은 결과를 선택할 때도 있습니다. 여러 이유로 재녹음이 반복되면 한 번의 녹음으로 획득 가능한 데이터 총량은 줄어들게 됩니다.

정리하자면 비용과 시간의 문제로 인해 특정인의 녹음 데이터 분량을 수십 시간 이상 확보한 사례는 거의 없습니다. 하지만 언젠가 ASR(automatic speech recognition, 음성인식기술)의 고도화로 일상생활에서 생성되는 음성 데이터를 모델 학습에 충분히 활용할 수 있다면 완전한 의미의 E2E 음성모델 개발이 가능해질 것이라는 분석도 있습니다.


'불쾌한 골짜기'로 향하는 음성 AI

사람들은 인간과 닮았으나 인간이라면 할 수 없는 일을 해내는 기계를 보고 불쾌감을 느끼곤 합니다. 이를 불쾌한 골짜기(Uncanny Valley)[9]라고 하죠. 사람은 기계음을 들을 때도 비슷한 감정을 느끼게 됩니다. 말하는 속도가 지나치게 일정하거나 숨을 쉬지 않고 말하거나 목소리 높낮이가 일정하다면 어딘가 불편한 것인데요, 이는 도대체 숨이란 건 쉬는 것인지, 생각이란 건 하는 것인지, 자신이 말하는 게 무슨 뜻인지는 알고 말하는 것인지가 전혀 파악되지 않기 때문입니다. 육성 방식에서 TTS 방식으로 변환한 지하철 안내 방송에 어색함을 느낀 일부 탑승객들이 호소한 불편함도 바로 이 지점과 맞닿아 있습니다.

“한 가지 예시를 들자면, 목소리(음색)와 음소는 사람의 것과 매우 유사하지만 억양이 평균치와는 다를 경우 외국인이 말하는 것처럼 들립니다. 그 정도가 심하면 무엇을 말하고자 하는지 알아들을 수 없을 정도로 아주 먼 심리적 거리감을 느끼게 되죠.”

[ 자료 1 ] 음조(높낮이)를 고정했을 때와 반전시켰을 때, 그리고 오토튠을 넣었을 때의 상황을 원본과 비교해서 들어볼 수 있다.

하지만 비인간적인 특성이 마냥 나쁜 것만은 아닙니다. 새로운 장르를 개척할 시발점으로 볼 수 있다는 게 소 연구원의 생각입니다. “관절의 움직임을 일부러 제한한 팝핀(popping dance)이나 음정을 강하게 고정한 오토튠(auto tune)[10]을 얼핏 보면 불편합니다. 하지만 이런 불편함은 예술에서 새로운 장르와 표현법, 그리고 독특하면서도 고유한 특징으로 승화되죠. 마찬가지로 누가 봐도 어색한 기계 발화는 새로운 밈으로 재창조하는데 활용해볼 수 있습니다”

 [ 동영상 5 ] 관절의 움직임을 제한하여 새로운 장르가 된 팝핀

인공지능 기술의 발전으로 실제 인간과 구분이 되지 않을 정도로 완벽하게 인간의 목소리를 내는 TTS 모델이 탄생한다면, 이에 대한 사람들의 인식은 불쾌한 골짜기 단계를 넘어서게 될 것으로 보입니다. 아마존(Amazon) 알렉사(Alexa)의 뉴스 낭독 실력이 단적인 예죠. 아마존이 새롭게 추가한 뉴스 캐스터는 인간 아나운서처럼 문장 내 특정 단어를 선택적으로 강조하면서 읽습니다. 모든 단어를 평이하게 읽는 이전 버전과 비교했을 때 확실히 사람이 직접 읽는 듯한 느낌이 물씬 듭니다.

[ 자료 2 ] 아마존 알렉사의 새로운 뉴스 캐스터는 인간 아나운서처럼 문장 내 특정 단어를 선택적으로 강조한다.

“알렉사의 뉴스 발화 능력이 진보했다고 평가받는 이유는 실제 사람처럼 발화의 완급을 스스로 조절하는 데 성공했기 때문입니다. 이와 같이 인간처럼 말하는 음성모델은 청자의 정보 인식률 상승에도 큰 도움이 됩니다. 어설픈 TTS 모델의 음성을 들을 땐 불편하다는 감정을 뇌에서 처리하다가 더 중요한 정보를 놓칠 가능성이 크기 때문이죠."

물론 ‘인간처럼’ 혹은 ‘인간보다 더 나은’ 음성모델이 반드시 지향점이 되어야 하는지에 대해선 한 번쯤 생각해볼 필요가 있습니다. 인간도 자신이 기계적인 발화를 원하는지, 또는 인간과 같은 발화를 원하는지조차 제대로 연구되지 않았기 때문입니다.

“일대일 대화에서는 부정확하게 듣더라도 여러 차례의 상호작용을 통해 오류를 수정해가며 정보를 획득할 수 있습니다. 반면, 차내 안내방송처럼 일대다 소통에서는 불가능하죠. 그래서 TTS 모델뿐만 아니라 인간의 목소리를 활용한 방송에서는 정보를 단 한 번에 완벽하게 전달하는 데 있어서 대본을 또박또박 읽는 능력을 중시합니다. 현재 TTS 모델은 1:1 커뮤니케이션을 위한 것인지, 일대다 커뮤니케이션을 위한 것인지 그 정체성이 확립되지 않아 역점을 두는 가치가 애매하다는 생각이 드네요.”

소 연구원은 다소 기계적으로 들리더라도 정보를 분명하게 전달하려는 목적에서 명확하게 발음하는 음성모델 개발이 선행되어야 한다고 강조합니다. 이후에는 자연스럽게 사람처럼 말하는 인공지능에 대한 니즈가 커질 거라 보는 거죠. 이 단계에서는 AI와 인간이 만들어 낸 음성의 유사도를 객관적으로 평가할 기준에 대해 사회적인 합의 도출이 무엇보다 중요할 것으로 분석됩니다. 대중이 AI가 잘하는 것과 못하는 것을 명확하게 구분할 수 있을 때, 비로소 인간다움과 기계다움 사이 자신이 선호하는 걸 선택할 수 있을테니까요.


(이 글의 원문은 카카오 정책지원팀 브런치에서 확인해볼 수 있습니다. : https://brunch.co.kr/@kakao-it/329)


참고
[1] 단어의 뜻을 구분하는 소리의 최소 단위(최소 의미 변별 단위)
[2] 된소리라고도 함. 한국어에서는 [ㄲ]·[ㄸ]·[ㅃ]·[ㅆ]·[ㅉ]이 여기에 속함
[3] 여린 소리라고도 함. 한국어에서는 [ㄱ]·[ㄷ]·[ㅂ]·[ㅅ]·[ㅈ]이 여기에 속함
[4] 강세, 억양, 속도 등 언어에 첨가되어 나타나는 의사소통 요소를 가리킴
[5] 유성음 높낮이(pitch)의 시간적 변화(fundamental frequency, f0))
[6] 음량과 고주파 성분의 비율(소리의 날카로운 정도)의 혼합된 감각
[7] 음조, 강세, 속도가 합해져 나타나는 감각
[8] 음원에서 나온 음파가 물체 등에 부딪혀 반사된 후 다시 관찰자에게 들리는 현상을 말함. 메아리가 대표적인 예임
[9] 인간을 어설프게 닮을수록 되려 불쾌감이 증가함을 가리키는 용어
[10] 입력된 음원의 음정을 분석해 멜로디 음계에서 크게 벗어난 음정을 자동으로 수정해주는 프로그램. 지금은 몽환적이고 신비한 소리를 만들기 위해 계단식으로 음가를 벌리는 용도로 활용됨
이 글을 쓴 사람들
samantha.lee
이수경 | 글,정리
2016년 3월 알파고와 이세돌 9단이 펼치는 세기의 대결을 두 눈으로 목도한 이후 인공지능을 제대로 공부해봐야겠다고 결심했습니다. 인공지능 본진이자 연구소인 카카오브레인으로 걸어들어온 이유죠. 인공지능 기술과 이로 인해 바뀔 미래 사회를 다루는 글을 통해 사람들과 소통하고자 합니다.
jay.mini
소형준 | 기술감수
사람처럼 인식하고 생각하는 인공지능을 통해 복잡한 현상을 해석하고자 카카오브레인에 합류했습니다.