연구원 인터뷰
시계열 데이터에 머신러닝을 접목한 연구를 선도하고자 합니다
2019/02/19 by 이도엽 이수경

안녕하세요. 저는 카카오브레인에서 인턴 중인 인공지능 연구원, 이도엽입니다.


데이터로 세상을 바꾸기로 결심하기까지의 여정

광주에서 태어나 이곳에서 유년 시절을 보낸 저는 포항공과대학교 입학과 동시에 포항으로 본거지를 옮겼습니다. 저는 무학과(단일계열)로 선발됐습니다. 입학 후 1년 동안은 진로 탐색을 위해 다양한 경험을 쌓은 뒤 2학년 진급할 때 자신이 원하는 전공을 선택할 수 있죠. 또래 친구들과 마찬가지로 제 꿈과 미래에 대해 생각할 여유가 충분하지 않았던 제게는 가장 적합한 선택지였습니다. 이 과정을 통해 진정으로 원하는 꿈을 찾아보고 싶었습니다.

다양한 학과의 수업을 들으며 전공에 대한 이해도를 높여나가는 과정에서 ‘산업경영공학’을 알게 됐습니다. 산업경영공학은 산업 시스템과 경영환경 전반에 걸친 문제를 공학적으로 해결하고 관리하는 학문입니다. 여기서는 경영과학, 정보시스템공학, 생산시스템공학, 인간공학, 기술경영, 마케팅 등 여러 과목을 공부할 수 있습니다. 그리고 모든 산업 시스템의 핵심이 인간에게 의미 있는 가치를 제공하는 데 있다고 말하죠. 다양한 분야를 가르치는 커리큘럼과 인간을 중시하는 학문적 가치관에 매료됐습니다. 여러모로 정말 즐겁게 공부할 수 있겠다 싶어서 산업경영공학 전공을 결심했습니다.

가장 재미있게 공부한 분야는 확률 모델과 데이터 분석, 시뮬레이션[1]입니다. 데이터 분석을 통해 몰랐던 정보를 알게 되거나 막연한 생각을 검증할 수 있습니다. 또한, 시뮬레이션을 적용해 현실 세계의 복잡한 시스템을 분석함으로써 앞으로 일어날 수도 있는 다양한 현상을 설명하거나 어떤 전략의 타당성을 분석할 수 있습니다. 다시 정리하자면, 데이터를 바탕으로 복잡하고 불확실한 상황에서도 합리적으로 의사결정을 할 수 있다는 점에 큰 흥미를 느낀 거죠.

이에 ‘대규모 확률 시스템 연구실’에 소속돼 연구 활동에 참여하거나 학부생 연구 프로그램(URP)의 일환으로 ‘시뮬레이션과 확률적 최적화를 통한 스마트 그리드 경제성 분석’ 연구를 진행하며 데이터에 대한 저만의 안목을 점차 키워나갔습니다.

특히, 컴퓨터 시뮬레이션 대회는 진로에 대해 다양하게 생각할 기회가 됐습니다. 대회가 열렸던 2014년은 사회적으로 이슈가 된 사건과 사고가 잦아 나라 전체가 큰 슬픔에 젖었던 해였습니다. 그런 이유에서인지 대회 주제도 ‘재난 발생 시 환자의 생존율을 최대화하기 위한 중증 환자[2] 이송 프로세스 전략 수립’이었죠. 최대한 많은 환자를 살려내는 게 핵심이었습니다.

생존율 극대화가 목적이라면 구출 순서와 관계없이 중증도가 높은 환자를 먼저 치료하는 게 최선일 수 있습니다. 하지만 시뮬레이션 모델을 구상할 땐 정말 다양한 요소를 고민해야만 했습니다. 중증도가 낮다는 이유로 먼저 구출된 환자를 방치, 그 시간이 길어져 사망에 이르게 된다면 공정성에 어긋난다고 볼 수 있기 때문이죠. 이처럼 생존율 최대화라는 문제를 해결하기 위한 현실적인 방안을 다각적으로 모색한 것 같습니다.

이런 과정에서 단순히 수치상 최적해를 찾는 교과서적인 방법론으로 접근하기보다는, 한 문제를 다양한 관점에서 바라보는 게 중요하다는 사실을 깨닫게 됐습니다. 특히 사람의 생명과 직결하는 문제일수록 말이죠. 한편으로는 시뮬레이션을 통해 문제를 해결하나가는 과정에서, 데이터를 잘 다룬다면 인류가 마주하는 많은 문제를 해결함으로써 세상을 좀 더 살기 좋은 곳으로 만들 수 있겠다는 확신도 하게 됐습니다. 그때부터 다양한 관점에서 문제를 분석하고 해결방안을 찾을 수 있는 사람이 되어야겠다고 결심했습니다.


“시계열 데이터에 머신러닝을 접목하는 독립연구를 했습니다”

저는 머신러닝과 딥러닝에 비교적 늦게 관심을 가진 편에 속합니다. 졸업이 가까워진 2015년 즈음에 최신 IT 트렌드를 조사하면서 머신러닝이라는 개념을 처음 접했습니다. 머신러닝은 확률과 통계, 프로그래밍, 데이터 분석과 최적화 등 지금까지 제가 관심을 두었던 모든 것을 총망라한 융합학문입니다. 양질의 빅데이터로 모델을 훈련시켜 사람이 쉽게 해결하지 못한 세상의 많은 문제를 해결하죠. 이런 머신러닝으로 기존의 전문가 시스템과는 다른, 새로운 문제 해결 패러다임을 제시할 수 있겠다는 판단이 섰어요. 인간보다 더 높은 성능을 내는 딥러닝은 이러한 저의 확신에 힘을 보탰습니다. 공부하면 할수록 더 큰 흥미를 느낀 이유죠.

딥러닝 모델에서는 문제와 데이터를 심층적으로 이해하고, 이를 토대로 알맞은 모델 구조와 비용 함수, 학습 방식 설계가 무엇보다 중요합니다. 이는 제가 산업경영공학에서 배웠던, 시스템을 구성하는 개별 요소를 이해하고 전체 시스템을 최적화해 문제를 해결해가는 방식과 유사합니다. 좀 더 체계적으로 딥러닝을 공부하고 싶은 마음에 동대학원 창의IT융합공학과 통합과정에 입학했습니다. 창의IT융합공학과는 융합형 IT 인재를 양성을 목적으로 합니다. 입학 후 첫 9개월 간 3개의 연구실을 각각 3개월씩 경험해보고 나서 지도교수를 선택할 수 있습니다.

저는 딥러닝을 이론적으로 이해하고 이를 응용하는 연구를 해보고 싶었습니다. 특히 시계열 데이터에 딥러닝을 적용해보고 싶었죠. 그러나 시계열 데이터에 딥러닝이 적용된 사례는 지극히 적었습니다. 제조 및 서비스 등 실제 산업에서 축적되는 상당수의 데이터가 시계열적인 특성을 지니고 있음에도 말이죠. 센서와 데이터 저장 기술의 발달로 데이터의 규모나 복잡성이 더욱 커지는 가운데 시계열 데이터와 관련된 문제를 머신러닝으로 효과적으로 해결해보면 좋겠다 싶었습니다.

하지만 진학을 위한 마땅한 연구실을 선택하지 못했습니다. 학부생 때부터 연구에 참여한 경력이 있기 때문에 스스로 무엇인가를 연구해 나갈 수는 있다고 판단했습니다. 연구 주제를 잡고, 연구를 실행하고 결과를 분석하는 모든 과정 자체가 결국 스스로 해결해야 하는 일입니다. 따라서 랩 소속 여부보다는 앞으로 나아갈 확고한 의지가 중요하다고 생각했어요. 마침 그 당시에는 자기 주도적으로 연구하는 독립 연구 방식을 학과에서 인정해주었죠. 그렇게 저는 지도교수님 없이 혼자 연구하는 대학원생이 됐습니다.

딥러닝 공부를 하는 데는 큰 부족함을 느끼지 못했습니다. 세계 유수 대학에서 인공지능 강의를 모두 무료로 공개한 덕분입니다. 다른 분야와 비교했을 때 오픈 리서치 문화가 잘 발달한 것도 큰 도움이 됐죠. 공부할 자료는 넘치고, 또 넘쳤습니다. 자기 자신에 대한 확고한 믿음과 성장 의지만 확실하다면 공부는 혼자서도 충분히 할 수 있다고 생각했습니다. 그렇게 머신러닝과 딥러닝에 대한 뜨거운 열정으로 홀로 공부와 연구를 이어나갔습니다.


“인공지능 연구에 필요한 삼박자를 갖춘 카카오브레인에 합류했습니다”

이렇게 지난 2년간 혼자 연구하면서 머신러닝에 관한 기본 이론이나 개발 지식을 습득했다는 생각이 들었습니다. 기본기를 다졌다고 볼 수 있죠. 문제는 이 단계에 접어들면 새로운 지식을 습득하는 데 쏟는 노력이 자신도 모르게 점차 줄어든다는 것입니다. 모르는 걸 알기 위해 공부하는 단계를 지나, 무엇을 제대로 알고 싶은지 그 방향을 스스로 정하는 단계에서는 하나씩 직접 부딪혀가며 공부해야 합니다. 이때부터 노력해야 차별화된 실력을 기를 수 있기 때문입니다.

저는 이런 생각이 들 때면 동기 부여할 만한 새로운 방법을 찾습니다. 세계적인 수준의 인공지능 연구를 이끌어가는 사람들과 함께하며 성장 모멘텀을 만들면 좋겠다 싶었습니다. 인공지능 연구 인턴이나 레지던시(residency) 프로그램을 운영하는 기업에 연락해 근무 기회를 찾아보기 시작한 배경입니다.

한 행사에서 임성빈 연구원의 발표를 듣고 카카오브레인이라는 회사를 처음 알게 됐습니다. 회사 소개를 듣고 나니 그 긴 여정에 함께하고 싶더라고요. 인공지능 기술로 미래를 만들어나가는 열정적인 구성원, 구성원 간의 신뢰를 바탕으로 운영되는 자율적인 문화, 그리고 이를 뒷받침해주는 연구 환경 등 여러 요소를 고려했을 때 적어도 카카오브레인이 우리나라에서는 인공지능 연구에 필요한 최고의 조건을 다 갖췄다고 판단했습니다. 성장 동기를 마련함은 물론, 겸손함의 미덕도 배울 수 있겠다 싶었죠. 이런 확신을 가지고 지원서를 제출한 저는 지난해 3월 카카오브레인에 합류하게 됐습니다.


“카카오브레인에서 택시 수요 예측 모델을 개발합니다”

시계열 데이터 분석과 이상 탐지(anomaly detection)라는 관심사를 바탕으로 현재 택시 수요 예측 모델 개발에 참여하고 있습니다. 이 연구는 모빌리티와 공동연구 형태로 진행되고 있습니다. 최근에는 기존 연구보다 효율적인 구조를 기반으로 더 높은 성능을 보여주는 모델인 TGNet을 개발, 신경정보처리시스템학회(NeurlPS) 워크숍 주제 중 하나인 ‘시공간 영역에서의 모델링과 의사결정(Modeling and decision-making in the spatiotemporal domain)’에 발표하기도 했습니다. 택시 수요 예측에 관한 이야기는 블로그 1편, 2편, 3편에서 자세히 살펴보실 수 있습니다.

저는 공동 연구팀이 제안한 수요 예측 모델은 종착지가 아닌 또 다른 시작점이라고 생각합니다. 수요 예측은 모빌리티를 포함한 다양한 분야에서도 큰 관심을 보일 정도로 연구적으로 의미가 있을 뿐만 아니라, 다양한 분야에서의 기초연구라고도 볼 수 있기 때문입니다.


“인간을 행복하게 하는 인공지능 연구를 해나가고 싶습니다”

시계열 데이터에 머신러닝을 접목한 연구에 집중하고 싶습니다. 시계열 데이터가 발생하는 산업군에서도 머신러닝과 딥러닝으로 문제를 해결하고 싶습니다. 하지만 비전(vision)이나 자연어처리(NLP)와 같은 분야와는 달리, 관련 연구가 아직 체계적으로 자리 잡히지 못했습니다. 이 어려운 상황에서도 관련 연구에 매진하려는 까닭은 현실을 반영하는 시계열 데이터에 매력을 느끼기 때문입니다. 시간에 따라 축적되는 데이터는 사람의 생각이나 행동, 또는 다양한 현상을 그대로 반영하는 특징이 있습니다. 예를 들어, 택시 수요 데이터는 시간에 따라 사람들이 언제 어디서 택시를 호출하고 내렸는지에 관한 정보인데요, 또 그 안을 자세히 들여다보면 사람들이 어떻게 생활하고 행동하는지를 유추할 수 있죠.

궁극적으로는 인공지능 기술이 인간과 공존하며 인간을 행복하게 만드는데 보탬이 되고자 합니다. 행복이라는 단어가 다소 추상적으로 느껴질 수 있지만, 가장 적절한 표현이라고 생각합니다. 인공지능의 핵심 가치 중 하나인 자동화를 통해 인간이 겪는 생활 속 불편함이나 문제를 해결하면 충분한 만족과 기쁨을 줄 수 있다고 보기 때문입니다.

인공지능과 인간이 상호작용하기 위해서는 인공지능이 의사결정을 내리는 과정을 인간이 이해할 수 있어야 한다고 생각합니다. 제아무리 어떤 어려운 문제도 척척 해결하는 지능을 가졌더라도 인공지능은 인간 사회에 해를 끼치는 판단을 내려서도 안됩니다. 이런 인공지능을 만드는 데 있어서 고려해야 할 요소는 정말 많을 것입니다. 하지만 한 단계씩 밟아 올라가다 보면 언젠가는 인간에게 없어서는 안 될, 정말 중요한 일을 해내는 인공지능을 만들 수 있다는 믿음을 가지고 연구에 매진해보고자 합니다.



참고
[1] 현실 세계의 실시스템의 효율적인 운영을 도모하고자 실시스템의 동작을 이해하고 분석, 예측하는 과학적 방법이다. 각종 공학 분야는 물론 자연 과학 분야, 그리고 의사결정과 정책결정을 합리적으로 해야 하는 경영, 경제학 분야에서 그 활용도가 증대되고 있다.
[2] 치료하지 않으면 사망하는 환자
이 글을 쓴 사람들
damien.lee
이도엽 | damien.lee@kakaobrain.com
인공지능 기술이 세상을 밝고 행복하게 만들어주길 기대하며 매일 조금씩 성장해나가고 있습니다. 카카오브레인에서 시계열 데이터와 이상 탐지를 연구하고 있습니다. 사람이 해결하지 못한 문제를 푸는 인공지능을 통해 더욱 윤택하고 안전한 인간 세상을 만드는 데 일조하고자 합니다.
samantha.lee
이수경 | samantha.lee@kakaobrain.com
2016년 3월 알파고와 이세돌 9단이 펼치는 세기의 대결을 두 눈으로 목도한 이후 인공지능을 제대로 공부해봐야겠다고 결심했습니다. 인공지능 본진이자 연구소인 카카오브레인으로 걸어들어온 이유죠. 인공지능 기술과 이로 인해 바뀔 미래 사회를 다루는 글을 통해 사람들과 소통하고자 합니다.