ICML AutoML 워크샵에 논문이 게재 승인되었습니다.
2019/05/22 by 카카오브레인

카카오브레인 연구팀(임성빈, 김일두, 김태섭, 김치헌, 김성웅)이 쓴 논문인 'Fast AutoAugment'가 국제기계학습학술대회(International Conference on Machine Learning, ICML) 워크샵에 실리게 됐습니다(accept).

세계에서 가장 명성 있는 머신러닝 학회 중 하나인 ICML은 매년 '자동화된 기계학습(Automated Machine Learning, AutoML)'이라는 주제로 워크샵을 열고 있습니다.

카카오브레인 연구팀은 데이터 어그멘테이션(Data Augmentation) 자동화 알고리즘에 관한 연구를 진행했습니다.

데이터 어그멘테이션은 딥러닝 학습에 필요한 대량의 데이터를 확보하는 전략 중 하나로, 적은 양의 데이터를 활용해 데이터양을 늘리는 방법론을 가리킵니다. 문제는 데이터에 가장 최적화된 어그멘테이션 방법론을 찾기가 힘들고, 여전히 사람이 조정(tuning)해야 하는 등의 수고로움이 따른다는 점입니다.

이런 문제를 해결하고자 어그멘테이션 자동화에 대한 연구가 점차 주목받고 있는데요, 지난해 구글(Google)이 발표한 'AutoAugment'가 대표적인 선행 연구입니다. 대단히 많은 GPU 자원을 토대로 어그멘테이션 방법을 최적화했을 때 다양한 태스크에서 SOTA(state-of-the-art, 현재 최고 수준의) 성능을 내는 결과를 보였습니다.

카카오브레인 연구팀은 AutoAugment가 엄청나게 많은 GPU 자원을 소비하는 등 실용성이 떨어지는 문제를 해결하는 데 집중했습니다. 그 결과 동일한 환경에서 AutoAugment와 비교했을 때 더 적은 자원으로도 최소 30배에서 최대 1,400배 더 빠른 성능을 냄을 확인할 수가 있습니다. 한편, CIFAR-10 데이터셋을 기준으로 대부분의 모델에서 Fast AutoAugment는 AutoAugment와 유사한 성능을 기록했습니다. 이미지넷(ImageNet) 데이터셋에서는 Resnet-200 모델을 기준으로 했을 때 Top-1 정확도 성능을 0.3%p, Top-5 정확도 성능을 0.6%p 끌어올렸습니다.

[ 그림 1 ] Fast AutoAugment 논문 속 이미지 캡처

김일두 카카오브레인 연구원은 "대다수의 머신러닝 문제에서 데이터 어그먼테이션이 가장 중요한 요소 중 하나인데, 지금까지는 데이터 전문가가 직접 관여해서 진행하는 부분이 많았다”며 “딥러닝 성능을 높이는 데 큰 영향을 미치는 요소 중 하나를 자동화하는 효율적인 방식을 제안함으로써 컴퓨터 비전, 음성처리를 포함한 많은 머신러닝 문제를 해결하는 데 기여해나가겠다”고 소회를 밝혔습니다.

구글의 AutoAugment에 대한 간략한 소개와 브레인 연구팀이 차별화를 둔 포인트, 그리고 연구팀이 고안한 Fast AutoAugment의 성능에 관한 이야기는 조만간 브레인 블로그를 통해 좀 더 자세히 전달해드리겠습니다.

이 글을 쓴 사람들
kakaobrain
카카오브레인