코코 2019 챌린지의 '인간의 자세 인식하기' 부문에서 혁신상을 받았습니다.
2019/11/11 by 카카오브레인

카카오브레인 컴퓨터비전 연구팀(홍상훈, 박헌철)이 서울대학교 정보경영연구실(박종헌 교수) 학생과 함께 팀을 이뤄 참가한 '코코 2019 챌린지(COCO 2019 Challenge)’의 '2D 영상 속 인간의 자세 인식하기’ 부문에서 혁신상(INNOVATIVE AWARD)을 받았습니다.

공동 연구팀은 지난 10월 27일 서울에서 개최된 ICCV 2019 워크샵에서 발표를 진행했다. 왼쪽 두번째부터 박헌철 연구원(카카오브레인), 박희웅 연구원(서울대학교), 홍상훈 연구원(카카오브레인), 박종혁 연구원(서울대학교), 조석현 연구원 (서울대학교).

코코 챌린지는 2D 영상에서 객체를 인식하고 이를 검출하는 분야에서 주요 벤치마크(benchmark)로 사용되는 데이터셋인 코코(Common Objects in Context)를 이용한 객체 인식 머신러닝 알고리즘 개발 대회입니다. 지난 2015년부터 개최된 이 대회는 객체 감지(object detection), 객체 분할(segmentation), 자세 인식(keypoint detection) 등의 세부 주제를 다루고 있습니다.

공동 연구팀은 올해 경쟁 주제 중 하나인 '인간의 자세 인식하기’ 부문에 참가했습니다. 이 과제에서 참가팀은 한 장의 이미지에서 등장하는 여러 인물의 주요 신체 부위(손목, 팔꿈치, 발목, 눈 등)의 위치를 찾고 그 자세를 알아내야 합니다. 사람을 사람이라고 잘 인식할수록, 사람이 아닌 객체를 사람이라고 오인식하지 않을수록, 주요 신체 부위의 위치가 실제 정답과 가까울수록 높은 점수를 받습니다.

높은 정확도로 인간의 자세를 예측하는 모델 대부분은 하향식 접근(top-down) 방식을 취합니다. 객체 인식기를 통해 사람이 위치하는 영역(bounding box)을 찾고나서 이 영역 안에서 사람의 주요 신체 부위를 예측하는 거죠. 이 방식의 문제 중 하나는 해당 영역에 정확히 한 사람만을 포함하고 있다고 가정하는 데 있습니다. 이상과는 달리 현실에서는 한 영역에 여러 사람이 들어가 있거나 또는 겹쳐져 있기도 합니다. 이렇게 되면 예측 모델은 집중해야 할 대상을 인지하지 못하게 됩니다.

이에 공동 연구팀은 집중해야 할 대상에 관한 정보도 제공함으로써 문제를 해결했습니다. 여러 사람이 한 영역에 뭉쳐 있더라도 개별 자세를 더 정확하게 예측하는 데 성공했습니다. 코코 검증 데이터셋을 상대로 기준 모델과 비교했을 때 정확도를 1.4%p 높였습니다.

홍상훈 카카오브레인 연구원은 “4개의 GPU로 한 모델을 훈련하는 데만 열흘이라는 시간이 걸리는 가운데 대회 마감까지는 2~3주밖에 남질 않아 새로운 아이디어를 적용할 시간이 절대적으로 부족한 상황이었다”며 "딥러닝 분산 학습을 위한 GPU 플랫폼인 브레인클라우드를 활용해 여러 아이디어를 동시에 실험하는 한편, 분산 처리 기능을 활용해 모델 테스트 시간을 4시간에서 15분으로 크게 줄일 수 있었다”고 답했습니다.

공동 연구팀은 지난 10월 27일 서울에서 개최된 ICCV 2019 워크샵에서 발표를 진행했습니다. 관련 기법에 대한 보다 자세한 이야기는 브레인 블로그를 통해 공유하도록 하겠습니다. 감사합니다.

이 글을 쓴 사람들
kakaobrain
카카오브레인