연구원 인터뷰
비디오를 이해하는 인공지능을 연구합니다
2018/11/05 by 김종석 이수경

안녕하세요. 저는 카카오브레인에서 인턴 중인 인공지능 연구원, 김종석입니다.


“알고리즘을 스스로 찾아내는 기계학습에 매료돼"

초등학교 3학년 때 부모님 손에 이끌려 간 학원에서 컴퓨터 프로그래밍을 처음 접했습니다. C언어를 이용해 구구단이나 계산기 등 개발 입문자라면 누구나 만드는 프로그램을 직접 만들어봤죠. 스스로 작동하는 무언가를 제 손으로 만들 수 있다는 점에서 프로그래밍의 매력에 푹 빠지게 됐습니다. 또, 수학과 물리와는 달리, 프로그래밍에 대해 하나부터 열까지를 알려주는 자료를 시중에서 쉽게 구할 수 있어서 독학이 용이했죠. 즉각적인 피드백 역시 좋았어요. 짠 코드의 결과를 보고 무엇이 잘됐는지, 잘못됐는지를 바로 알 수 있었으니까요.

고등학교 도서관에 비치돼 있던 ‘인공지능개론’이라는 책으로 인공지능을 처음 공부하게 됐습니다. 입력(input)과 출력(output)이 주어지면 이 사이 관계를 스스로 찾아내는 기계학습 알고리즘에 매료됐죠. 당시 몇날며칠을 끙끙댔던 게 불현듯 떠오릅니다. 퍼셉트론(perceptron)[1]이나 유전 알고리즘(genetic algorithm)[2]과 같은 알고리즘은 리스트(list)와 트리(tree)와 같은 자료구조를 써서 구현할 수 있습니다. 그런데 이 자료구조는 동적 할당(dynamic allocation)에 대한 개념을 잘 숙지하고 있어야 제대로 만들 수 있어요. 동적 할당을 잘 알지 못 하는 상태에서 알고리즘부터 구현하는 데 많은 시행착오를 경험하기도 했습니다.

컴퓨터와 관련된 공부를 해야겠다는 다짐을 하기까지 오랜 시간이 걸리지 않았던 이유입니다. 저는 전공을 바로 선택하지 않고 자유전공학부로 입학했습니다. 학문(제) 간 융합이 강조되는 시대적 요구에 부응하려면 인문학적 소양을 두루 갖춰야 한다고 생각했기 때문입니다. 물론 역시 답은 한결 같았습니다. 안드로이드 앱이나 웹, 게임을 개발하고 아두이노를 다뤄본 결과, 역시 컴퓨터 공학이 제게 잘 어울린다는 결론을 내렸거든요. 데이터 분석 박사 과정 중인 선생님께 조언을 받아 텐서플로(Tensorflow) MNIST 튜토리얼을 돌려보며 인공지능에 다시 큰 뜻을 품게 됐습니다.

본격적으로 인공지능을 공부하기 시작한 때 2017년입니다. 인공지능을 체계적으로, 깊이 있게 공부하기 위해서는 학교 연구실 인턴을 해야겠다고 결심했습니다. 학과 교과목을 살펴보니 컴퓨터 비전(computer vision)이 눈에 들어왔어요. 수업 내용 또한 흥미로웠습니다. 그래서 수업을 듣자마자 교수님께 인턴을 하고 싶다는 메일을 보냈어요. 다행히 긍정적인 회신을 받았습니다. 시각 및 학습을 연구하는 김건희 교수님 연구실에서 졸업 직전 방학 기간 동안 학부 인턴을 하게 된 배경입니다.


“훌륭한 멘토와 자율적인 문화에 끌렸다”

학교 연구실에서 인턴을 하면서 인공지능 기업의 대외 행보에 관한 많은 소식을 접할 수 있었습니다. 상당한 기업이 인공지능 연구에 뛰어들고 있다는 사실을 알게 됐죠. 그러던 와중에 함께 연구를 진행했던 연구실 선배로부터 카카오브레인에 관한 긍정적인 이야기를 건네 들었습니다. 저를 이끌어 줄 실력과 인성을 모두 갖춘 좋은 멘토가 포진해 있다는 점, 그리고 자율성을 가지고 연구를 할 수 있다는 점에 큰 매력을 느꼈습니다.

자유로운 토론 문화에도 크게 감화됐습니다. 모르는 것에 대해 서로 자유롭게 물어보기도 하고, 새로 출판된 논문에 관해 토론할 수 있다는 데 좋은 인상을 받았죠. 연구자가 딥러닝 연구에 집중하는 환경을 제공하는 클라우드 플랫폼인 브레인 클라우드(brain cloud)도 좋은 경험이 됐습니다.

(더 자세히 보기 - 브레인 클라우드)


“비디오를 이해하는 인공지능을 연구합니다"

카카오브레인에서 연구 인턴 중인 저는 컴퓨터가 비디오 데이터를 이해하도록 하는 연구를 진행하고 있습니다. 여러 가지 방법이 있습니다. 비디오 검색(video retrieval), 비디오 질의응답(video question answering(QA)), 비디오 캡션(video captioning)[3], 비디오 요약(video summarization) 등이 있죠.

질의응답은 이런 방법 중 가장 간단하면서도 강력한 방법입니다. 이는 주어진 데이터에 대해 질문을 했을 때, 이 데이터를 제대로 이해한 인공지능은 적절한 답을 할 수 있다는 아이디어에서 착안된 방법이죠. 이 비디오 QA를 만드는 데 앞서 이미지에 관한 질문에 대해 답을 내놓는 VQA(Visual Question Answering) 연구를 진행하고 있습니다.

그 밖에 시각적 추적(visual tracking), 행동 인지(action recognition), 시간 특정(temporal localization)[4]과 같은 많은 과제의 실마리가 풀려나가고 있습니다. 비디오 데이터에 큰 매력을 느끼는 저는 앞으로도 인공지능이 비디오를 이해하도록 하는 연구를 지속해나가고자 합니다.

(더 자세히 보기 - 유튜브 8M 챌린지 도전기)


“인간을 즐겁게 만드는 인공지능을 만들고 싶어요"

인공지능은 매우 흥미로운 녀석이라고 생각합니다. ‘인공지능’이라는 단어를 떠올리면 영화 터미네이터나 아이로봇에 등장한 로봇이 연상됩니다. 사람보다 뛰어난 지능과 상대적으로 공정한 판단력을 갖춘 인공지능이 여러 사람이 모여도 못하는 일을 척척 해나가는 모습을 볼 수 있죠. 물론 실제로 이런 로봇이나 인공지능을 실제로 만들 수 있을지는 아직 잘 모르겠습니다. 지금으로써는 이런 기술에 조금이라도 보탬이 되는 일을 한다는 것에 큰 자부심을 느끼고 있죠.

인공지능에 매료된 또 다른 이유는 실생활에서 마주하는 여러 문제를 직접 풀어볼 수 있기 때문입니다. 다함께 머리를 맞댈 수 있다는 것 또한 장점이죠. 새로운 논문이 쏟아져 나오고 있고, 딥러닝을 연구하는 사람들은 자신이 새롭게 알게된 것을 공유하고 있어요. 이렇게 딥러닝을 공부하다 보면 거인의 어깨에 올라탄 기분이 듭니다.

사람처럼 생각하고 세상을 보는 인공지능에 대한 연구는 계속될 것입니다. 무엇이 이로운지에 대한 철학적 정의는 아직 완벽하게 이뤄지지 않았습니다. 우선은 사람이 해야 할 일을 덜어주고, 인간을 즐겁게 했으면 좋겠습니다. 사용자의 취향에 걸맞은 음악이나 동영상을 추천해주는 것처럼 말이죠. 저는 이런 추세에 발맞춰 사람을 이롭게 만드는 인공지능을 만들고자 합니다.


참고
[1] 입력층과 출력층으로 구성된 단층 신경망
[2] 생물의 진화를 모방한 진화 연산의 대표적인 기법
[3] 주어진 비디오의 상황을 설명하는 문장을 생성하는 태스크
[4] 비디오에서 특정 사건이 일어난 시간을 찾는 기법
이 글을 쓴 사람들
oz.mig
김종석 | oz.mig@kakaobrain.com
‘인공지능'에 치명적인 매력을 느끼며 딥러닝 공부에 뛰어들었습니다. 빠르게 흐르는 학계의 물결 속에서 카카오브레인이라는 멋진 배에 올라탔습니다. 인공지능이 비디오를 사람처럼 볼 수 있도록 하는 연구를 합니다. 인류와 인공지능이 희로애락을 같이 느낄 세상을 그리고자 합니다.
samantha.lee
이수경 | samantha.lee@kakaobrain.com
2016년 3월 알파고와 이세돌 9단이 펼치는 세기의 대결을 두 눈으로 목도한 이후 인공지능을 제대로 공부해봐야겠다고 결심했습니다. 인공지능 본진이자 연구소인 카카오브레인으로 걸어들어온 이유죠. 인공지능 기술과 이로 인해 바뀔 미래 사회를 다루는 글을 통해 사람들과 소통하고자 합니다.