None
YouTube-8M 챌린지 최종 5위에 올랐습니다.
2018/08/29 by 카카오브레인

카카오브레인이 서울대학교 장병탁 교수님 연구실 학생들과 함께 팀(KANU)을 이뤄 출전한 "YouTube-8M 챌린지"에서 최종 5위에 올랐습니다. 

- 수상자 공지 페이지는 구글 연구 페이지에서 확인해보실 수 있습니다

- 유튜브 챌린지 제출한 모델을 바탕으로 작성한 논문이 ECCV(european conference on computer vision) 워크샵에 승인됐습니다(accepted)

YouTube-8M 챌린지는 Google AI Perception 그룹에서 주최하는 대용량 비디오 분류 대회입니다. 지난해 1억 원 상금 규모로 열린 첫 대회에 600팀 이상이 참가했습니다. 올해는 총상금 2,500만 원 규모로 6월부터 2달간 진행됐으며, 400여 개 팀이 참가했습니다.

올해는 6백만 개의 비디오 클립을 학습시켜 3,800여 개의 클래스 라벨(class label)로 분류하는 과제가 나왔습니다. 지난해처럼 많은 수의 모델을 앙상블하며 성능을 높였던 사례를 방지하고자, 최종 모델 크기를 1기가바이트(GB)로 제한하는 규정이 새로 마련됐습니다.

- 챌린지 규정과 참가팀에 관한 정보는 캐글 페이지에서 확인해보실 수 있습니다

이번 챌린지에 참가한 김은솔 카카오브레인 연구원은 "모델 하나 학습하는 데 2~3일 걸려서 챌린지 기간 동안 많은 모델을 테스트하지 못한 부분은 아쉽다"면서도 "또한 1.5테라바이트(TB) 규모의 데이터를 훈련하는 일은 정말 어려웠지만 브레인 클라우드를 통해 컴퓨팅 파워를 지원받아 훈련을 이어나갈 수 있었다"며 짤막하게 참가 소감을 밝혔습니다.

KANU 멤버인 카카오브레인 김은솔 연구원과 김종석 연구원의 대회 참가 후기는 카카오브레인 블로그를 통해 더 자세히 보실 수 있습니다.

Temporal Attention Mechanism with Conditional Inference for Large-Scale Multi-Label Video Classification

초록

Here we show neural network based methods, which combine multimodal sequential inputs effectively and classify the inputs into multiple categories. Two key ideas are 1) to select informative frames among a sequence using attention mechanism and 2) to utilize correlation information between labels to solve multi-label classification problems. The attention mechanism is used in both modality(spatio) and sequential (temporal) dimensions to ignore noisy and meaningless frames. Furthermore, to tackle fundamental problems induced by independently predicting each label in conventional multi-label classification methods, the proposed method considers the dependencies among the labels by decomposing joint probability of labels into conditional terms. From the experimental results (5th in the Kaggle competition), we discuss how the suggested methods operate in the YouTube-8M Classification Task, what insights they have, and why they succeed or fail.

발행년도

2018

발행처

ECCV Workshop (the 2nd YouTube-8M Large-Scale Video Understanding Workshop)

저자

김은솔 (카카오브레인), 온경운 (서울대학교), 김종석 (카카오브레인), 허유정, 최성호, 이현동, 장병탁(서울대학교)

키워드

Multimodal Sequential Learning, Attention, Multi-label classification, Video understanding

이 글을 쓴 사람들
카카오브레인
카카오브레인