GQA 2019 챌린지에서 1위에 올랐습니다.
2019/06/12 by 카카오브레인

카카오브레인이 GQA 2019 챌린지에서 1위를 차지했습니다.

GQA 2019 챌린지는 주어진 이미지에 대해 자연어로 묻고 답하는 VQA(Visual Question Answering) 태스크 중 하나로, GQA 데이터셋에 대해 정확도를 겨누는 대회입니다.

스탠포드 대학교의 크리스토퍼 매닝(Christopher Manning) 교수 연구진이 최근 새롭게 공개한 GQA 데이터셋은 이미지 내에 존재하는 물체의 속성과 관계를 그래프로 표현한 씬 그래프(scene graph) 사용을 장려합니다. 이 점이 기존의 VQA 데이터셋과의 가장 큰 차이점입니다. 씬 그래프는 이미지에 포함된 물체와 물체의 속성, 물체 간의 관계를 그래프 형태로 표현합니다. 

기존의 VQA 관련 연구가 이미지를 CNN(Convolutional Neural Network) 기반의 전처리 모델로 특징 벡터(feature vector)를 추출한 것과 달리, 카카오브레인 연구팀은 씬 그래프 활용을 제안했습니다. 

또한, 연구팀은 자연어 질의 문장을 GRU나 BERT 같은 사전 훈련(pre-training) 모델로 임베딩하지 않고, 문장 안에 존재하는 구조(dependency tree)를 그래프 형태로 표현했습니다.

그 후 연구팀은 이미지에 대한 씬 그래프 정보와 질의 문장을 나타내는 그래프 정보를 결합하는 데 있어서 결합하는 데 있어서 그래프 신경망(graph neural network)을 새롭게 고안했습니다. 기존의 딥러닝 방법과는 달리 학습 결과가 사람이 이해할 수 있는 기호로 표현(symbolic representation)된다는 점에서 참신한 아이디어라고 연구팀은 분석했습니다.

연구팀이 제안한 방법은 오래전부터 고민하고 구현을 시도했으나, 주최 측이 제공한 텐서플로(tensorflow) 코드가 복잡하고 학습에 많은 시간이 걸려서 새로운 아이디어를 적용하는 데 난관을 겪었습니다. 김은솔 연구원은 “1달 정도의 기간 중 3주간은 큰 진전이 없었다”며 “대회 마감 5일 전, 우리팀에 익숙한 파이토치(pytorch)로 코드를 처음부터 다시 구현하면서 개발에 속도가 붙었다”고 설명했습니다.

그 결과 연구팀은 자신의 아이디어가 제대로 동작한다는 사실은 물론, 기존 방법론 대비 10% 넘는 성능 향상을 확인할 수 있었습니다. 다만, 시간상의 문제로 하이퍼파라미터(hyperparameter)나 구조 탐색에 더 큰 노력을 기울이지 못한 점을 김 연구원은 아쉬움으로 꼽았습니다.

연구팀은 이 방법론을 논문으로 공개하고 CVPR VQA 워크샵에서 발표를 진행할 예정입니다. 아울러 브레인 블로그를 통해서도 관련 내용을 공유해 드리겠습니다. 감사합니다.


이 글을 쓴 사람들
kakaobrain
카카오브레인