AI in pop-culture
딥페이크와 리벤지 포르노
2018/05/02 by 이수경 홍상훈

이슈 | 딥페이크와 페이크앱

드라마 | 블랙미러 ‘닥치고 춤 춰라’


2017년 4월 캐나다 몬트리올 기반 인공지능 스타트업인 라이어버드(Lyrebird.ai)는 인간의 목소리를 흉내 내는 음성 합성(speech synthesis) 기술을 선보였다. 라이어버드는 약 60초 분량의 음성 샘플 데이터만으로 화자의 말씨나 억양을 거의 그대로 재현했다. 목소리 재현에 20분 가량의 샘플을 필요로 하는 어도비(Adobe)의 "프로젝트 보코(Project VoCo)"와 비교하면, 적은 데이터로도 비슷한 성능을 낸다는 점은 라이어버드의 경쟁력 있는 요소라고 할 수 있다.


컴퓨터로 음성과 영상을 생산하는 시대

라이어버드는 이런 획기적인 기술을 활용해 버락 오바마(Barack Obama) 전(前) 미국 대통령, 도널드 트럼프(Donald Trump) 미국 대통령, 힐러리 클린턴(Hillary Clinton) 전(前) 미국 국무장관 등과 같은 유명인의 목소리를 흉내 낸 데모 버전을 공개함으로써 자사 기술력을 널리 알렸다.

그렇다면 인공지능은 유명인의 목소리가 아닌, 일반인의 목소리도 흉내 낼 수 있을까? 라이어버드 홈페이지에서 내 목소리를 통해 직접 테스트해 볼 수 있다. [그림1]에서 보듯이 회사 측이 제시하는 문장을 최소 30개 이상 읽은 음성 파일을 서버에 올리면, 라이어버드 엔진은 이 파일을 학습해 그 즉시 사용자의 목소리를 재현해낸다(학습에는 수 분이 걸린다). 0.5초 안에 1,000개의 문장을 생성할 수 있는 GPU(Graphics Processing Unit) 클러스터를 갖춘 덕분이다. 더 많은 문장을 읽을수록, 즉 학습 데이터 셋이 많아질수록 실제 사용자와 더욱 유사한 목소리를 흉내 낸다. 단, 제약 조건이 하나 있다. 미국식 영어 발음에 최적화되어 있다는 점이다.

[ 그림 1 ] 라이어버드에서 음성합성에 필요한 데이터를 녹음한 예시

마찬가지로 영상도 손쉽게 만들어 낼 수 있다. 단적인 예로, 얼굴 합성 기술을 활용하면 단순한 조작만으로도 자신의 얼굴에 특수 효과를 입힐 수 있다. 또한, 얼굴을 나이 들어 보이게 만들거나 남자를 여자로 바꾸는 것도 가능하다. 자글한 이마 주름을 지우거나 헤어 스타일도 바꿀 수 있다. iOS 앱스토어의 "페이스앱(FaceApp: Neural Face Magic)"은 이 마법과 같은 기능을 모두 가능하게 하는 앱이다.

지난 2016년 미국 스탠퍼드(Stanford) 대학교와 독일 에르랑겐-뉘른베르크(Erlangen-Nuremberg) 대학교, 독일 막스플랑크 연구소(Max Plank Institute)로 구성된 연구팀은 "Face2Face"라는 얼굴 치환 프로그램을 선보였다. 이 기술은 사용자(source)의 입 모양과 표정을 영상 속 인물(target)에 입히는 것으로 사용자가 원하는 말이나 표정을 영상 속 인물이 직접 하는 듯한 영상으로 실시간 변환하여 보여준다.

[ 그림 2 ] 페이스앱으로 촬영한 얼굴의 주름을 지우거나 메이크업을 입힌 사례(상)와 3D 카메라로 촬영한 인물 표정대로 영상 속 인물 표정을 바꾸는 Face2Face(하)


기술적 배경

음성합성은 오래전부터 존재한 기술이지만 생성된 음성의 품질은 확연히 낮았다. 한편, 컴퓨터로 비디오를 만들어내는 작업은 대규모 자본을 갖춘 할리우드 제작사나 최신 기술을 연구하는 연구소에서나 가능한 것으로 여겨질 정도로 막대한 자본력과 기술력을 필요로 했다. 하지만 데이터 분석에 주로 사용했던 딥러닝 기술 덕분에 새로운 음성과 영상 콘텐츠를 보다 손쉽게 만들 수 있게 됐다. 물론 그래픽 하드웨어와 소프트웨어의 발전, 새로운 비디오 캡처 기술 또한 이러한 기술적 변화를 끌어내는 데 영향을 미쳤다.

여기에 활용된 접근 방식은 바로 생성 모델(generative model)이라는 기술이다. 생성 모델은 샘플 데이터를 통해 생성하려는 대상의 특성(확률분포)을 학습한 뒤, 이와 유사한 데이터를 생성해낸다. 무엇을 생성하는지는 적용하는 대상에 따라 이미지, 소리, 텍스트 등이 될 수 있다.

위에 언급된 라이버드와 페이스앱은 신경망을 활용한 생성 모델(deep generative networks)을 구축한다. 기술적으로는 인코더(encoder)와 디코더(decoder)에 깊은 층을 쌓아 거대한 신경망 구조를 갖추는 것으로 보면 된다. 인코더는 방대한 데이터를 통해 다양한 얼굴 또는 목소리를 표현할 수 있는 주요 특징(feature)을 학습하고, 디코더는 주요 특징 정보를 기반으로 원본과 유사한 데이터를 생성하는 방법을 배운다. 이것은 충분한 데이터가 있다면 가능한 일이다. 학습 과정에 대한 자세한 내용은 뒤에서 확인할 수 있다.

[ 그림 3 ] 인코더는 A의 특징을 학습하고 디코더는 A"를 재생산 함

음성합성의 시초

음성합성에 관한 아이디어를 처음 고안하게 된 시기는 전기 신호 처리가 나온 1989년 이후 부터다. 그러다 벨 연구소(Bell Labs)에서 보코더(vocoder)[1]를 개발한 1930년대 이후 실제 기술 구현도 가능해졌다. 보코더의 개념은 간단하다. 음성에서 중요한 부분만 추출하고, 이를 활용하여 반대로 음성 신호를 재구성한다. 다시 말해 음성 신호의 대역폭(특정 시간 내에 보낼 수 있는 정보량) 또는 주파수 대역을 줄이는 과정이다.


선풍적인 인기를 끈 페이크앱(FakeApp)

지난해 딥러닝 기반 얼굴 합성 기술인 딥페이크(deepfake)를 손쉽게 적용할 수 있는 데스크톱 앱(app) ‘페이크앱(FakeApp)’이 선풍적인 인기를 끌면서, 일반인들도 손쉽게 비디오 영상 속 얼굴을 다른 얼굴로 합성할 수 있게 됐다. 예를 들면, 아나운서 방송 비디오에 미키마우스 얼굴을 합성해 마치 미키마우스가 뉴스를 전달하는 듯한 영상을 생산할 수 있다.

물론 합성된 영상을 구별하지 못할 정도의 완벽한 기술력을 갖추지는 못했다. 얼굴 윤곽 부분에 남아 있는 합성의 흔적 또한 쉽게 찾아볼 수 있다. 이런 기술적 한계에도 불구하고 사람들의 호기심을 자극한 페이크앱은 지난 1월 레딧(reddit)에 소개된 이후 12만 회의 다운로드를 기록했다.

페이크앱을 만든 익명의 소프트웨어 개발자 ‘N’은 뉴욕 타임스(New York Times)와의 인터뷰에서 창조적인 실험을 위해 해당 앱을 개발했다고 말했다. 그는 누구나 한 번쯤 가지고 놀고 싶어 했을 법한 기술을 일반인들도 쉽게 사용할 수 있도록 패키지 형태로 내놓은 게 페이크앱이라고 설명했다.

페이크앱은 구글(Google)이 지난 2015년 공개한 머신러닝 도구인 텐서플로(TensorFlow)를 활용한다. 텐서플로는 시행 착오(trial and error)를 거치면서 이미지를 잘 인식할 수 있도록 학습한다. 데이터 학습에 필요한 것은 좋은 성능의 컴퓨터다. 데이터 처리 능력이 뛰어날수록 수 주간 걸리는 학습 시간을 단 몇 시간으로 크게 줄일 수 있기 때문이다. 또는 구글 클라우드 플랫폼의 서버를 빌리는 방식도 고려해 볼 수 있다.

서버를 세팅하고 페이크앱을 올려 놓았다면 이제 남은 일은 데이터를 모으는 것이다. 실험결과, 대략 300장~2,000장 정도의 이미지 소스를 갖췄을 때 좋은 결과물을 얻을 수 있는 것으로 알려졌다. 그리고 여러 각도에서 촬영한 것보다 일정한 각도에서 촬영한 영상이 더 우수한 학습 결과를 낸다. 아울러 짧은 분량의 비디오 클립이 조작하기 더 쉽고 얼굴형이 서로 비슷한 영상일수록 학습 효과도 좋다. 문제는 학습에 활용할 이미지 데이터 셋을 확보하기가 쉽지 않다는 점이다. 그래서 특징 학습에 한정하여 자신의 얼굴을 촬영한 사진이 부족하다면 자신과 느낌이 비슷한 유명 배우의 사진으로 학습 데이터를 모으는 것도 팁이다.

[ 그림 4 ] FakeApp이 영상2에 등장하는 B의 얼굴을 A로 치환하는 과정

개발자가 구축한 딥페이크에 데이터를 넣으면 얼굴이 합성된 영상을 얻을 수 있다. 영상2에 등장하는 B의 몸에 A의 얼굴을 덮는 과정은 [그림 4]에 자세히 설명되어 있다. 여기서 중요한 점은 인코더에 입력하는 데이터는 임의로 변형한 A’와 B’라는 점이다. 얼굴 일부를 찌그러뜨리거나 늘린 것이다. 이는 원본과 유사한 영상으로부터 원본을 생성하는 방식을 배우게 하기 위한 조치다.

[그림 4] (i)에서 인코더는 A’의 특징을 학습하고, 디코더A는 원본 A를 생성하는 법을 학습한다. (ii)에서 인코더는 B’의 특징을 학습하고, 디코더B는 원본 B를 생성하는 법을 학습한다. (i)과 (ii)를 반복하면 인코더는 A’와 B’, 두 사람 얼굴에서 공통적인 얼굴 특징을 뽑아내고, 디코더A와 디코더B는 각각 A와 B를 생성하는 법을 습득한다.

충분한 학습을 거쳐 마지막 단계 (iii)에서는 영상2를 넣으면 인코더-디코더A의 과정을 거쳐 영상2 속 얼굴(B)이 A로 바뀐다. 모든 이미지 프레임에서 이 과정을 반복하고, 얼굴이 부드럽게 움직이도록 하는 휴리스틱 기법을 적용하는 등의 후처리를 거쳐 영상의 품질을 높일 수 있다.


딥페이크가 잠재력을 발휘할 분야는?

앞서 일반인들도 페이크앱을 내려받으면 영상 속 얼굴을 손쉽게 변환할 수 있다고 설명했다. 하지만 기본적인 개발 지식과 충분한 학습 데이터 셋을 갖춰야 한다는 점에서 마냥 쉬운 작업은 아니다. 라이어버드의 공동 창업자인 알렉산드르 드 브레비슨(Alexandre de Brebisson)은 “비디오와 같은 고차원 공간은 변동성이 높기에 더 높은 기술력이 뒷받침되어야 한다. 이제 첫걸음마를 뗐다는 점에서 사실 이 기술에는 보완할 부분이 더 많다”고 말했다.

그렇지만 현재 기술 발전 속도를 본다면 지금처럼 스마트폰 앱스토어에 접속해 앱을 내려받고, 해당 앱을 실행하기까지 오랜 시간이 걸리지 않을 것으로 예상된다. 페이크앱 개발자 ‘N’은 딥러닝 알고리즘이 스마트폰이나 데스크톱 애플리케이션에 활용되는 것 뿐만이 아니라, 많은 전자 제품에 적용되는 ‘기본’적인 기능 중 하나로 자리하게 될 것이라고 내다봤다. 실제로 페이크앱과 같은 딥페이크 기술이 고도화된다면 촬영이나 녹음과 같은 기록 행위를 하지 않고도 실제와 같은 동영상과 오디오 파일을 생성할 수 있을 것으로 보인다.

이런 기술이 가장 활발하게 쓰일 분야는 바로 영화 속 CG(컴퓨터 그래픽)이다. 컴퓨터 그래픽 기술자가 아무 것도 없는 상태에서 인간처럼 움직이는 무언가를 만들지는 못한다. 이런 점을 극복하기 위해 배우에게 수트를 입혀 배우의 움직임을 포착하는 모션 캡처(motion capture) 기술이 고안됐다. 여기에 더 나아가 인간의 구체적인 몸 동작은 물론, 표정과 감정까지 담아내는 이모션 캡처(emotion capture) 기술도 있다.[2] 이런 점에서 알 수 있듯이 얼굴을 새로 만들어내는 기술은 보편화돼 있다. 문제는 모션 캡처 장비, 모션 컨트롤 카메라를 구매하고 이 장비를 다루는 전문 인력을 고용하는 비용이 높다는 점이다. 또한 후처리 작업에도 상당한 시간을 쏟아 부어야 한다.

[그림 5] 대역 배우는 얼굴 표정을 추적할 수 있는 점을 얼굴에 찍고 연기를 펼친다. 이후 CG팀이 이 점들을 따라 가상의 캐릭터를 컴퓨터로 만든 뒤 실사 화면에 합성한다.

예를 들어보자. 영화 <블레이드 러너 2049(Blade Runner 2049)>의 VFX(visual effects, 비주얼 이펙트)팀은 30년 전 원작 "블레이드 러너"에서 레이첼 역을 맡은 배우 숀 영(Sean Young)을 재현하고자 CG 기술을 활용했다. 문제는 몇 분 남짓한 장면을 제작하는 데 무려 10개월이나 되는 기간이 소요되었다는 점이다. 그리고 긴 제작 기간은 영화 제작 비용(인건비) 상승으로 이어질 공산이 크다.

물론 딥러닝이 모든 CG 기술을 대체하지는 못할 것이다. ‘블레이드 러너’에서 처럼 적어도 수십년 전의 영화를 리메이크할 때 과거 출연한 배우의 젊은 시절 혹은 생전 모습을 되살리는 데 특기를 발휘하리라 기대해볼 수 있다. 물론 전문 촬영 장비나 전문 인력을 갖추지 않고도 저예산 영화에서 수준급의 CG 효과를 적용 할 수도 있다. 그저 재현해내려는 캐릭터와 비슷한 체격과 얼굴을 갖춘 대역 배우만 있으면 된다.


위조된 포르노가 판치다

이처럼 누구나 손쉽게 페이크앱에 사용된 딥페이크를 사용할 수 있게 된다면 경제적인 부가가치를 얻을 수 있는 동시에 악용 가능성도 커진다. 누구보다 이미지를 중요시하는 정치인이나 배우, 아나운서 등 유명인의 얼굴을 입력한 조작된 포르노나 리벤지 포르노(revenge porn)를 양산하는 것이 단적인 예다. 이런 이유로 최근에는 딥러닝으로 조작된 포르노를 만드는 행위 자체를 딥페이크라 부르기도 한다.


리벤지 포르노

당사자의 동의를 받지 않거나 당사자 모르게 배포되는 음란물 이미지 또는 동영상을 뜻한다. 용어는 교제 관계에 있었던 상대방을 모욕하거나 위협하기 위해 온라인에 해당 파일을 배포하는 것에서 기인했다.


레딧에 딥페이크 채널이 활성화되고 많은 사람들 사이에서 이슈화되면서 일부 사람들이 유명인의 거짓 포르노를 생산하는 등의 딥러닝을 악용하는 문제가 생겼다. 해외 IT 매체 마더보드(Motherboard)는 레딧의 커뮤니티가 유명인들의 얼굴을 합성한 포르노 영상을 생성하는 일을 벌여왔다고 최초 보도하기도 했다. 사진이 저장된 스마트폰이나 클라우드를 해킹해 사진을 유출한 사건인 패프닝(Fappening)처럼 연출하면서 말이다. 스칼렛 요한슨(Scarlett Johansson), 갤 가돗(Gal Gadot), 데이지 리들리(Daisy Ridley), 제시카 알바(Jessica Alba), 테일러 스위프트(Taylor Swift), 엠마 왓슨(Emma Watson)과 같은 할리우드 여배우들이 희생양이 됐다.

미셸 오바마(Michelle Obama) 미국 전(前) 영부인도 이 사건에서 예외는 아니었다. 이는 특정 정치인 후보를 비방할 목적으로 위조된 포르노 영상이 제작된 것으로 보인다. 누가 봐도 미셸 오바마로 보이는 한 여성이 검은색 브래지어와 목이 깊게 파인 상의를 입은 채 카메라를 응시하며 이상한 미소를 지어 보인다. 그리고 미셸의 도플갱어는 상의를 탈의한 채 스트립쇼까지 벌인다. 물론 이 영상은 페이크 비디오(fake videos)다. 합성한 흔적을 보면 누구라도 영상이 위조된 것이라는 걸 알 수 있지만 이 역시 자세히 보지 않으면 진짜라 착각할 여지가 크다.

이처럼 악용의 우려가 높다고 판단한 트위터와 같은 사이트는 딥페이크로 만든 영상의 유통을 차단했다. 레딧은 10만 명 규모에 달하는 딥페이크 커뮤니티를 폐쇄하기에 이른다. 이런 조치를 두고 일부는 딥페이크가 가진 잠재적인 위험성을 과대 평가하는 미디어를 비난했다. 플랫폼 사들이 거짓 포르노를 엄중히 단속할 것을 염려해 해당 영상물을 다른 플랫폼으로 실어 나르는 부류도 있었다. 극히 일부만이 딥페이크 행위가 양심에 어긋난다고 말했을 뿐이다.


진실과 거짓 사이를 아슬하게 걷는 현대인들

드라마 <블랙미러 : 닥치고 춤춰라(Shut up and Dance)>의 주인공 케니는 본인의 은밀한 사생활을 담은 동영상이 외부로 유출되는 사건을 겪는다. 케니의 노트북에 접근한 해커는 웹캠으로 촬영한 동영상을 지인에게 유포하겠다며 케니를 협박한다. 패닉에 빠진 케니는 해커가 지시하는 대로 행동한다. 하지만 수많은 랜섬웨어(ransomware) 사태에서 보듯이 해커는 케니와의 약속을 져버리고 그의 사생활 영상을 외부로 유출한다. 이것으로 케니의 사회 관계가 파괴됐음은 자명한 일이다.

[ 그림 6 ] 드라마 "블랙미러 : 닥치고 춤춰라" 한 장면

딥페이크와 같은 기술로 인해 은밀한 사생활을 찍은 동영상이 실제로 존재하지 않더라도 패프닝은 발생할 수 있다. 앞서 언급한 대로 비단 유명인들에게만 일어날 수 있는 것은 아니다. 일반인들도 희생양이 될 수 있으며 명예훼손, 명의 도용, 사실 왜곡 등 사회 문제를 유발할 위험도 높다.

이러한 패프닝은 다량의 데이터만 있다면 충분히 가능한 일이다. 온라인에 넘쳐나는 셀피(selfie) 덕분이다. 지난 2016년 구글 포토(Google Photos)에는 240억개의 셀피가 업로드됐다. 같은 해 인스타그램(Instagram)에서 셀피 해시태그(#selfie)가 달린 사진만 2,900만 개가 업로드됐다. 셀피를 뜻하는 각국 언어로 작성된 태그까지 포함한다면 그 수는 더 많을 것이다. 때문에 악의를 가진 누군가가 포르노 영상에 피해자의 사진을 합성해 유포하기가 더 쉬워졌다. 딥페이크의 출현 이전에 1,000만 명 중 25명(미국 기준)이 위조된 포르노 사진으로 협박을 받았다는 것을 감안한다면 앞으로 이 수치는 계속 늘어날 수 있다.

유명인은 동의 없이 자신의 이미지를 상업적 혹은 불법적인 목적으로 사용했다는 것을 이유로 소송을 제기할 수 있다. 예를 들어, 갤 가돗의 허가 없이 그녀의 사진을 스트립 클럽 홍보에 사용하면 명백한 불법이다. 일반인들은 ‘정보통신망 이용촉진 및 정보보호 등을 위한 법률’상 명예훼손 등 권리를 침해받았다고 주장할 수 있다. 문제는 해외 사이트를 통해 유입되는 경우 또는 개인이 SNS 등을 통해 공유하는 경우다. 나도 모르게 해외 사이트에 내 얼굴이 합성된 위조된 포르노 사진이 유포된다는 사실은 알기도 힘들거니와 알더라도 처벌 또한 어렵다.

현재 관련 기술 연구에 가속도가 붙고 있는 만큼 미래에는 위조된 비디오와 오디오를 판별하는 게 더욱 중요한 이슈로 부상할 것은 너무나도 자명하다. 메릴랜드 대학교(University of Maryland)의 컴퓨터 과학자인 젠 골벡(Jen Golbeck)은 “유튜브와 같은 글로벌 콘텐츠 플랫폼은 포르노 감지 기능을 탑재할 필요가 있다”고 역설한다. 이런 문제를 인식한 과학기술정보통신부도 합성 사진을 자동으로 판별해 악의적인 유포를 효과적으로 차단할 수 있는 인공지능을 개발하는 대회를 진행하고 있다.

그렇지만 소셜 미디어 플랫폼 사가 위조된 정보를 판별해 유통을 차단하는 알고리즘을 고도화해 나가는 것만이 원천적인 해결책은 아니다. 위와 상관없이 위조된 콘텐츠가 지금도 수많은 "좋아요’를 받고 전 세계로 퍼져나가고 있다는 점을 감안한다면, 조작의 행위가 줄어들기는커녕 계속 늘어날 것이다. 이 상황은 특정인만이 아닌 우리 모두의 이야기가 될 수 있다. 근본적인 대책이 마련되어야 하는 이유다.

서던 캘리포니아 대학교(University of Southern California) 컴퓨터과학과의 하오 리(Hao Li) 조교수는 “선택의 여지가 없다”고 말한다. 이런 인공지능 기술로 조작된 콘텐츠를 만드는 행위가 차세대 커뮤니케이션 방식이라면, 다른 이를 협박하거나 나쁜 일을 도모하려는 목적으로 기술을 악용하려는 이들의 행위 또한 자연스럽게 일어난다는 이유에서다. 그는 “사용자를 끊임없이 교육해야 하는 이유가 바로 이런 우려를 조금이라도 불식하기 위한 것”이라고 덧붙였다.


(이 글의 원문은 카카오 정책지원팀 브런치에서 확인해볼 수 있습니다. : https://brunch.co.kr/@kakao-it/245)


참고
[1] 참고 | 도서 ‘앨런 튜링의 이미테이션 게임’
[2] 참고 | 도서 ‘입체영화’, 도서 ‘미쟝센’
이 글을 쓴 사람들
samantha.lee
이수경 | samantha.lee@kakaobrain.com
2016년 3월 알파고와 이세돌 9단이 펼치는 세기의 대결을 두 눈으로 목도한 이후 인공지능을 제대로 공부해봐야겠다고 결심했습니다. 인공지능 본진이자 연구소인 카카오브레인으로 걸어들어온 이유죠. 인공지능 기술과 이로 인해 바뀔 미래 사회를 다루는 글을 통해 사람들과 소통하고자 합니다.
ian.theman
홍상훈 | ian.theman@kakaobrain.com
카카오브레인에서 새로운 아이디어를 고민하고, 이를 직접 구현하는 리서치 엔지니어로 활약 중입니다. 학부 시절부터 인공지능, 뇌 연구에 관심이 많았습니다. 딥러닝의 잠재력에 매일 놀라고 있지만, 완전한 인공지능이 될 때까지는 아직 갈 길이 멀다고 생각합니다. 카카오브레인의 뛰어난 사람들과 함께 AI 기술발전에 이바지를 하고, 이 기술을 활용해 인류 사회에 보탬이 되고자 합니다.