BEA19 문법 오류 교정 챌린지에서 2등을 달성했습니다.
2019/04/30 by 카카오브레인

전산언어학으로 저명한 ACL 학회에서 BEA(Building Educational Application)라는 이름으로 GEC(Grammatical Error Correction) 대회를 열었습니다. 지난 CoNLL-2014를 기점으로 약 5년 만에 열린 GEC 대회입니다.

올해 열린 BEA19에서는 원어민과 비원어민 학생이 쓴 에세이 4,000문장(test set)에서 문법 오류를 교정하는 과제가 제시됐습니다. 주최 측은 비원어민 학생이 작성한 3만3,000여개 문장의 훈련 데이터(training set)와 4000여 문장으로 구성된 검증 데이터(development set)를 공개했습니다.

대회 참가자는 총 3가지 트랙에 참가할 수 있었습니다. 라벨링 데이터(annotated data) 활용 범위에 대한 부분은 트랙마다 내용이 조금씩 다릅니다. 트랙 1에서는 외부에 공개된 모든 훈련 데이터를 활용할 수 있습니다. 트랙2에서는 각 기업이 자체 보유하고 있는 비공개 데이터도 활용할 수 있습니다. 트랙3에서는 주최 측이 제시한 검증 데이터만을 활용해야 합니다. 라벨링되지 않은 데이터에 대한 사용 제약은 따로 없었습니다.

카카오와 카카오브레인 멤버로 구성된 연구팀(Kakao&Brain)은 트랙1과 트랙3에 참여, 각각 21팀 중 2등, 9팀 중 2등이라는 기록을 거뒀습니다.

트랙 1

트랙 3

- 해당 순위는 대회 결과 페이지에서도 확인할 수 있습니다.

함지연 카카오브레인 연구원은 “데이터 종류가 많고 복잡도가 높아 다루기가 힘들었고 훈련 매 단계마다 결과를 확인하고 파라미터를 조정하는 과정에서 많은 노력을 투자해야만 했다”며 “딥러닝 모델에서는 다량의 데이터가 필요하다는 직관을 바탕으로 사전훈련(pre-training)에 집중하고 주최 측에서 제시한 툴인 ERRANT로 에러 타입을 분석해가며 모델에 적합한 사전 훈련 방식을 찾아낸 덕분에 좋은 결과를 낼 수 있었다"고 짧은 후기를 남겼습니다.

공동 연구팀이 이 대회에 참가한 배경, 살펴본 선행 연구, 모델을 구성한 방법과 향후 연구 계획에 대한 자세한 이야기는 조만간 브레인 블로그를 통해 좀 더 자세히 전달드리겠습니다.

이 글을 쓴 사람들
kakaobrain
카카오브레인