AI in pop-culture
인공지능이 비디오 스토리텔러라면?
2018/10/12 by 이수경

이슈 |  MIT 미디어랩과 매켄지(McKinsey)의 인공지능 스토리텔링 연구

영화에 대한 관객의 반응을 정량적으로 평가할 방법이 없을까?

지난 글(인공지능이 영화 흥행을 예측한다면?)에서는 영화 시나리오의 흥행성을 평가하는 데 있어 인공지능이 가진 잠재력에 대해 다뤘다. 관객이 평가하는 최종 산출물이 영상인 만큼, 시나리오만으로는 흥행 여부를 정확하게 예측하기 어렵다는 한계도 지적했다. 시나리오는 극작가가 생각한 그림(구도 또는 카메라 앵글)을 그대로 영상으로 옮기는 데 목적을 둔다. 영화 줄거리가 시나리오에 의해 결정된다면, 완성품(영화)은 제작 인력에 의해 영향을 받을 수밖에 없다. 시나리오가 아무리 좋더라도, 영상 연출과 편집 기법에 따라 관객이 영화에 반응하는 양상이 극명하게 나뉘는 이유다. 이에 인공지능은 영화 투자 단계에서 시나리오의 흥행 여부를 정량적으로 평가하는 데 사용되거나, 시나리오 제작 단계에서 글의 완성도를 높이는 장치로 활용될 것임을 살펴봤다.

그렇다면 최종 산물인 영상을 평가할 방법에는 무엇이 있을까? 일반 관객을 대상으로 하는 시사회가 그 수단이 될 수 있다. 다만 단순히 대규모 시사회를 여는 것만으로는 관객들의 영화에 대한 반응을 정량적으로 판단하기란 쉽지 않다. 인공지능이 관객의 감정 반응을 정확하게 추적하고 예측하는 일에 도전하는 배경이다.

디즈니(Disney) 사례를 보자. 디즈니 연구팀은 관객의 표정에서 감정을 추출하고 이들의 반응을 분석했다. 이들은 적외선 카메라 4대를 갖춘 400석의 극장에서 <정글북(The Jungle Book)>, <빅 히어로6(Big Hero)>, <스타워즈 :The Force Awakens>와 같은 9편의 대표작을 포함한 150편의 영화를 12개월간 상영했다. 그 결과, 3,179명의 청중으로부터 총 1,600만 개의 표정 데이터셋을 생성할 수 있었다.

딥러닝 알고리즘인 "FAVEs(factorised variational autoencoders)"는 영화를 보는 관객의 표정을 추적하고 이들의 감정적인 반응을 평가한다. FAVE는 관객의 표정이 슬프거나 재밌는 장면과 어떤 관련성이 높은지 알려준다. 얼굴을 분석한 지 단 10분 만에 나머지 상영시간 동안 관객이 영화에 어떻게 반응하는지를 예측할 수도 있다.

[ 그림1 ] 표준 텐서 인수분해 모델(왼쪽)과 FAVE(오른쪽)

그렇다면 FAVE를 어떻게 활용해볼 수 있을까? 영화 내 특정 장면에서 제작자가 의도한 관객 반응이 나오는지 확인할 수 있을 것이다. 또는 관객의 감정적 동요가 높았던 장면을 골라 예고편 영상으로도 활용해볼 수 있다. 시사회 관객 반응에 따라서는 마케팅 예산 규모나 상영 편성에 주요한 근거 지표 중 하나로도 사용해봄 직하다.


스토리보드 단계에서 보조하게 된다면?

하지만 포스트 프로덕션[1] 단계라면 아무리 유효한 피드백을 받더라도 이를 반영할 방법은 재촬영 빼고는 딱히 없다. 그 대신 프리 프로덕션 단계 중 글로 된 시나리오를 이미지화하는 스토리보드(storyboard) 작업에 정량적인 피드백을 제공하는 게 더 적합하다고 볼 수 있다.

스토리보드는 영화 촬영에서 설계도 역할을 한다. 배우의 연기를 어떤 각도에서, 어느 정도 크기로, 어느 정도 길이로 잡을 것인지, 카메라는 어떻게 움직일 것인지 등 촬영 및 편집에 관한 정보를 담아내 작품의 모양을 미리 파악할 수 있도록 해준다. 즉, 카메라의 프레임으로 구획되는 세계인 영상을 어떻게 담을 것인지를 알려주는 설명서라고 보면 된다. 영화의 미학이 ‘본다’는 데 있다는 말이 괜히 나온 게 아니다. 김은주 감독은 "작품을 구상해 그림으로 옮기는 것과 머릿속에서의 구상으로 그치는 것에는 큰 차이가 있다”며 스토리보드의 중요성을 역설하기도 했다.

[ 동영상1 ] 스토리보드에 관한 설명을 볼 수 있다.

[ 동영상2 ] 신카이 마코토 감독이 스토리보드를 애니메이션 영상으로 옮기는 작업 과정 중 일부를 엿볼 수 있다(8분 22초부터).

그러나 영화의 밑그림을 정확하게 구현해내는 과정은 녹록지 않다. 카메라 앵글, 프레임과 구도, 색채와 조명과 같은 영화 언어를 이용해 시나리오의 방향이나 영화 컨셉, 등장인물의 성격을 온전히 담아내려면 시간과 싸워야 할 때도 부지기수다. 따라서 감독 또는 스토리보더는 작품의 제작 의도에 맞춰 결과물을 도출했는지를 객관적으로 평가할 도구에 대한 높은 니즈를 가지고 있다고 분석해볼 수 있다. 다시 정리하자면, 스토리텔링이 제대로 이뤄졌는지를 평가하는 부분에서 인공지능이 발휘할 잠재력이 충분하다는 의미다.

MIT 미디어 랩은 비디오 스토리텔링에서 그 가치를 확인했다. "비디오를 시청하는 사람들의 반응을 예측할 수 있다면?"이라는 질문에 대한 답을 찾고자 시도한 프로젝트였다. 이 질문은 유튜브 동영상 제작자와 영화 제작사 의사결정자의 흥미를 돋우는 질문이기도 하다. 여기서 연구팀은 이야기의 감정 곡선(emotional arcs of stories)이 관객 반응에 큰 영향을 미친다고 주장한다.


이야기 곡선이란?

우선 미국의 수필가이자 소설가인 커트 보네거트(Kurt Vonnegut)가 만든 이야기 곡선[2]에 대해 알아둘 필요가 있다. 보네거트는 이야기를 간단한 곡선으로 나타낼 수 있다고 설명한다. 그래프의 X축은 작품 속 시간의 흐름을, Y축은 주인공의 심리상태를 나타낸다. 점수가 높을수록 감정은 긍정적이다. 물론 절대적인 것은 아니다. 특정 시점을 기준으로 다음에 올 이야기가 기쁜지, 슬픈지를 담아낸다. 이야기 곡선에 관한 자세한 이야기는 여기에서 확인해볼 수 있다.

[ 그림2 ] 커드 보네거트의 감정 곡선 그래프

이로부터 35년 후 버몬트 대학교(University of Vermont)와 애들레이드 대학교(University of Adelaide)의 연구진은 아이디어에 머물렀던 보네거트의 이야기 곡선의 실체를 밝혀냈다. 이들은 프로젝트 구텐버그(Project Gutenberg) 자료 중 1,722편(1만~20만 단어 분량)의 소설을 감정 분석(sentiment analysis)[3]했다. 그 결과, 보네거트의 말대로 컴퓨터 또한 이야기 속 주인공의 감정을 총 6가지로 나누는 데 성공했다. 실제로는 플롯이 아니라 감정을 분석한 셈이지만, 연구진은 플롯 변화가 감정 변화와 일치한다는 사실 또한 알아냈다. 즉, (이야기의) 감정 곡선과 플롯은 상관관계에 놓여있다는 의미다. 따라서 앞으로 기술한 감정 곡선은 플롯의 흐름으로 봐도 무방하다.


영상의 감정 곡선을 식별해 낼 수 있어

MIT 미디어랩과 매켄지(McKinsey)가 이 이론을 바탕으로 영상 스토리를 학습한 방식에 관해 알아보자. 앞서 버몬트 대학교 연구진이 텍스트만으로 감정 곡선을 구성했다면, MIT 미디어 랩은 여기서 한 단계 더 나아갔다. 이들은 영화, TV와 같은 짧은 영상을 학습시키는 방식을 고안하고, 긍정적이거나 부정적인 감정을 자아내는 콘텐츠를 추정하도록 했다.

MIT 미디어랩은 영화 <업(Up)>의 타이틀 시퀀스(title sequence)[4]를 학습한 예제를 선보였다. 여기서는 주인공 칼은 평생의 반려자인 엘리를 떠나보내는 과정을 핵심적으로 담아냈다.

[ 동영상3 ] 영화 업의 타이틀 시퀀스 일부를 담은 유튜브 영상

컴퓨터가 분석한 이 오프닝 시퀀스의 감정 곡선을 살펴보자. 한밤중 어린 앨리가 깜짝 놀라게 하는 장면에서 칼의 감정 곡선은 낮아진다. 컴퓨터가 칼이 느낀 두려움의 감정을 감지했다는 의미다. 신혼을 보내는 칼과 앨리가 아이를 계획할 때, 노년에 이르러 서로 포옹할 때도 감정이 긍정의 방향으로 변화한다. 앨리가 죽은 후 칼이 혼자 집으로 돌아가는 장면에서 감정 곡선은 다시 큰 폭으로 떨어진다.

[ 그림3 ] 영화 <업>의 타이틀 시퀀스에서 분석해 낸 감정 곡선 © McKinsey&Company

이를 위해 MIT 미디어랩은 수천 개의 비디오를 학습한 기계학습 모델을 구축했다. K-중간값(k-medoids)을 클러스터링 알고리즘으로, 감정 곡선의 모양을 비교하는 데에는 다이내믹 시간 워핑(dynamic time warping)[5]을 활용해 모델을 구축했다. 학습에는 비디오 한 장면을 구성하는 모든 요소를 총체적으로 고려했다. 플롯, 캐릭터, 대화뿐만 아니라 얼굴 클로즈업이나 자동차 추격 장면에 깔리는 효과음과 같은 미묘한 부분을 감지한다는 의미다. 그 결과, MIT 미디어랩이 만든 모델은 영상을 분석하는 것만으로도 영상의 감정 곡선을 식별해낸다.

비디오 내용을 분석하는 기존의 방식은 시각적인 요소만 고려할 뿐, 내용적 의미를 간과했다. 실제 영화 내용과 추출된 정보 사이 의미적 격차가 발생했던 이유다. 이에 연구진은 인간 평가자들이 대화, 음악, 시각적 이미지와 같은 요소 중 어느 것에 반응했는지에 대해서도 학습시켜 모델을 개선했다. 시각적, 청각적 요소를 모두 아울러 비디오의 내용에 관한 감정 곡선을 만든다는 점에서 MIT 미디어랩의 연구는 획기적인 접근 방식이라고 평가할 수 있다.


AI 스토리텔러, 현실성이 있을까?

비디오 스토리텔링 부문에서 인공지능이 잠재적인 가치를 지니고 있음을 확인했다. 물론, 스토리가 어떤 감정 곡선을 지니는지 파악하는 것에 그쳐서는 안 된다. 영상의 감정선이 관객으로부터 인기를 끌 수 있는지를 판단하고, 그렇지 않으면 영상 편집 등의 과정을 거쳐 타깃 관객이 좋아할 만한 스토리를 만들어내는 의사결정에 적극적으로 활용해야 한다. “컴퓨터는 슬픈 이야기에 울지 않는다. 다만 사람들이 언제 우는지는 알 수 있다(Computers don’t cry during sad stories, but they can tell when we will)”는 표현이 이를 잘 표현해내고 있다.

그렇다면 스토리보드 단계에서 이를 어떻게 활용하면 좋을까? 스토리보드 작업자가 콘텐츠를 객관적으로 평가할 때 인공지능이 주는 통찰력의 가치가 극대화됨을 추론해볼 수 있다. 영화의 텍스트가 등장인물, 이들에 주어진 환경과 사건의 설정이 ‘그럴듯함’을 충분히 획득할 수 있도록 안내할 것이다. 작가들이 선호하는 구조와 독자가 선호하는 구조가 다른 만큼, 이를 절충하는 데 있어서 좋은 지표가 될 수 있다. 특정 장면에 넣을 음악이나 컷을 수정하거나 혹은 플롯이나 대화, 캐릭터 비틀기 등 관객의 반응을 적극적으로 유도하는 기준이 될 수 있음은 물론이다. 스토리보드가 시나리오의 방향이나 영화의 컨셉에 맞게 제대로 제작됐는지 점검할 때도 유용성은 충분히 발휘될 수 있다. 물론, 현장에 도입하기까지는 상당한 시간이 필요할 것으로 예상된다.

한편으로는 인공지능이 작품 속 캐릭터의 감정이나 플롯을 인지한다는 것은 가까운 시일 내에 인공지능이 스스로 각본을 쓸 수도 있지 않겠느냐는 의문이 들 수 있다. 그러나 이야기 창작은 매우 고도의 인지적 과정과 종합적인 인간의 사고를 요구한다. 이런 이유로 전문가들은 향후 컴퓨터 인공지능 기술이 획기적으로 발전하지 않는 이상, 전문 창작자가 만들어 내는 수준의 스토리 생성은 힘들 것으로 내다보고 있다.

지난 2016년 사이파이 런던 영화제(SCI-FI LONDON film festival)에서 첫선을 보인 영화 <선스프링(Sunspring)>이 이를 뒷받침한다. 이 영화에 주목해야 하는 이유는 인공지능이 쓴 시나리오를 활용했기 때문이다. 아쉽게도 이 시나리오에서는 그 어떠한 개연성을 기대할 수 없다. 달리 말하면, 아직은 기계가 인간 시나리오 작가를 대체하는 반열에 오르지 못했다는 의미다.

[ 동영상4 ] 인공지능이 만든 시나리오로 제작된 영화 <선스프링>

이런 것을 보자면 실제로 인간과 기계의 공동 작업은 유의미한 일처럼 보이지 않을 수 있다. 분명한 것은 인공지능은 무궁무진한 잠재력을 갖추고 있다는 점이다. 다르게 생각해보자. 인간은 현실적인 이야기를 만드는 데 자신의 역량을 투입할 수 있게 될 것이다. 여기에 인공지능은 스토리에 감성을 불어넣는 역할을 하게 될 것이다. 극의 내러티브와 플로팅(플롯의 구성)을 날카롭게 만드는 데도 유용한 도구가 될 것은 말할 것도 없다.


더 읽어볼만한 글

AI in storytelling 

컴퓨터가 분석한 6가지 이야기 유형

영화 캐릭터의 이해와 분석의 실제


참고
[1] 영화 제작 과정은 크게 프리 프로덕션(pre production), 프로덕션(main production), 포스트 프로덕션(post production) 3가지로 나뉜다.
[2] 커트 보네거트는 이야기 곡선에 대한 수많은 강의와 글을 썼다. 해당 내용은 <나라 없는 사람>의 ‘문예 창작을 위한 충고’에도 실렸다.
[3] 텍스트에서 주관적인 인상, 감정, 태도 등을 뽑아내는 분석 방법
[4] 주로 극의 시작과 함께 진행된다. 극의 내용을 함축하고 암시하고 흥미를 돋우는 역할을 한다. 오프닝 시퀀스 혹은 오프닝 타이틀, 오프닝 크레디트라고도 부른다.
[5] 속도가 다른 두 비디오 시퀀스 간의 유사성을 감지해낸다.
이 글을 쓴 사람들
samantha.lee
이수경 | samantha.lee@kakaobrain.com
2016년 3월 알파고와 이세돌 9단이 펼치는 세기의 대결을 두 눈으로 목도한 이후 인공지능을 제대로 공부해봐야겠다고 결심했습니다. 인공지능 본진이자 연구소인 카카오브레인으로 걸어들어온 이유죠. 인공지능 기술과 이로 인해 바뀔 미래 사회를 다루는 글을 통해 사람들과 소통하고자 합니다.