대중문화 속 AI
공정한 AI 얼굴인식기
2019/04/11 by 이수경, 윤여일

컴퓨터 비전(computer vision)은 머신러닝(machine learning)으로 얼굴을 인식합니다. 머신러닝 방법론 중에서도 딥러닝(deep learning)이 특히 저력을 발휘하고 있죠. 기존 통계방식 기반의 머신러닝과 비교했을 때 그 구조는 훨씬 더 복잡해도 더 나은 성능을 냅니다.

딥러닝은 은닉층(hidden layer)을 많이 쌓아 매개변수(parameter)를 늘리는 방식으로 모델의 표현력을 높였습니다. 많게는 수백만에 이르는 매개변수를 가진 딥러닝 모델을 훈련하기 위해서는 충분히 많은 데이터가 많이 필요합니다. 달리 말하면, 딥러닝 모델의 성능이 데이터양에 비례해 증가한다고도 해석할 수 있겠습니다.

[ 그림 1 ] 데이터의 양과 알고리즘 성능 간의 관계. 딥러닝은 은닉층을 많이 쌓음으로써 표현력이 좋은 모델을 학습할 수 있는 구조를 갖췄다. 따라서 데이터가 많을수록 그 성능이 비례해 증가한다고 볼 수 있다.

과거에는 얼굴인식 모델 학습에 필요한 데이터가 충분하지 않았습니다. 이에 실험 참가자로부터 일일이 사진 활용에 관한 동의를 구하는 방식으로 데이터셋을 구축했습니다. 문제는 비용과 시간의 문제로 초기 데이터셋 크기는 수 백개 수준에 불과했다는 거죠. 그러다 스마트폰이 확산되는 2006년을 기점으로 멀티미디어 생산량이 증폭됨에 따라 온라인에서 획득한 수십만, 수백만 장에 이르는 이미지로 학습 데이터셋을 구축할 수 있게 됩니다.

딥러닝과 빅데이터의 출현 덕분에 고도화를 이룰 수 있었던 얼굴인식 기술은 현재 산업 전 영역에 걸쳐서 활용되고 있습니다. 생활 속에서 흔히 접할 수 있는 기술인만큼 많은 이들이 이 기술이 매우 정확하며 공정하다고 믿습니다. 많은 데이터를 분석해 인간 수준을 넘어서는 통찰력을 갖춘 기계는 인간과는 달리 편견에 휩쓸리지 않고 매우 객관적으로 판단할 거라 생각하기 때문이죠.

하지만 실상을 들여다보면 그렇지 않다는 이야기가 나오고 있습니다. 외모적 특징에 따라 인식 정확도가 다르다는 연구 논문이 이 주장을 뒷받침하고 있죠.


편향된 데이터는 편향된 알고리즘을 만듭니다

딥러닝은 데이터로부터 지식을 배웁니다. 배운 건 잘 알지만 배우지 못한 건 잘 알지 못한다는 의미로도 해석해볼 수 있죠. 이런 점은 특정 클래스(범주)에 치우친 데이터를 학습할 때 문제를 야기합니다. 일례로, 신발 데이터를 훈련한 알고리즘이 하이힐을 제대로 찾지 못했던 이유가 학습 데이터셋에 하이힐 사진의 비중이 극히 적었기 때문이었죠. 이처럼 훈련 데이터가 다양하지 않거나 표준에서 지나치게 벗어난다면 얼굴인식 시스템의 정확성과 공정성은 크게 저해될 수밖에 없습니다.

편향된 데이터로 학습한 얼굴인식 알고리즘에 취약점이 있다는 사실은 여러 연구를 통해 증명된 바 있습니다. 지난해 MIT 미디어랩(MIT Media Lab)이 발표한 논문을 보겠습니다. 조이 부오라뮈니(Joy Buolamwini) 연구원은 IBM, 마이크로소프트(Microsoft), 메그비이(Megvii)가 만든 얼굴인식 시스템(Watson Visual Recognition, MSFT, Face++)의 정확성을 실험했습니다.

연구진은 보다 객관적인 연구를 위해 자체적으로 PPB(Pilot Parliament Benchmark)[1]를 개발했습니다. 그리고 피츠패트릭 피부 분류(Fitzpatrick skin scale)[2]에 기반해 데이터에 대해 피부색, 성별 정보를 라벨링했죠. 그러고 난 뒤 피부가 어두운 여성(21.3%), 피부가 어두운 남성(25.0%), 피부가 밝은 여성(23.3%), 피부가 밝은 남성(30.3%) 등 총 4가지 분류로 데이터셋을 나누고 성별 분류 성능을 실험합니다. 그 결과, 피부색이 밝은 남성일수록 더 잘 인식하고(99.7%) 피부색이 어두운 여성일수록 잘 인식하지 못했습니다(65.3%).

[ 그림 2 ] 성별 분류 성능 평가 결과, 상용 얼굴인식 프로그램 3개 모두 피부가 어두운 여성을 제일 낮은 정확도로 구분해냈다.

또 다른 사례도 있습니다. 한・중・일에서 개발된 얼굴인식 알고리즘이 동아시아인을 백인보다 더 정확하게 식별하고 유럽과 미국에서 개발된 알고리즘은 백인을 더 잘 식별했죠. 이런 연구 결과는 무엇을 시사하는 것일까요? 그건 바로 알고리즘 학습에 활용된 데이터셋이 인구학적 다양한 측면을 고려하지 못했기 때문이라고 볼 수 있습니다. 달리 말하면, 인구통계학적으로 데이터 편향이 커진다면 알고리즘 예측 또는 인식 태스크의 정확도는 눈에 띄게 떨어집니다.


얼굴 다양성을 이해하기 위한 기업의 행보

이처럼 딥러닝 모델 훈련에서 구조만큼이나 중요한 건 훈련 데이터라고 볼 수 있습니다. 앞서 언급한 데이터 편향성 문제를 가장 쉽게 해결할 수 있는 방법으로 무엇이 있을까요? 바로 균형적인 데이터(class-balanced data)를 활용한 학습이 아이디어가 될 수 있습니다. 이는 실제로도 유효한 결과를 냅니다. 부오람위니 연구원이 1년 만에 발표한 새로운 논문은 이를 뒷받침합니다.

연구 결과, 3사의 얼굴인식 시스템의 성별 분류 정확도는 전과 비교해 최대 30.4% 높아졌다고 합니다. 인식 정확도를 높이는 데 영향을 준 요소를 명확하게 파악하기는 힘듭니다. 다만, IBM 블로그 내용으로 추론해보건대 피부색, 성별, 연령 등 인구통계학적으로 편향되지 않은 데이터셋 구축이 학습 결과에 긍정적인 영향을 미쳤음을 짐작해볼 수 있죠.

IBM은 이 기세에 힘입어 올해 초 DiF(Diversity in Faces)라는 데이터셋을 발표합니다. IBM은 기존 오픈소스 형태로 공개된 얼굴 데이터셋과 비교했을 때 더 균형적인 데이터, 그리고 데이터에 관한 더 많은 라벨링 정보를 갖췄다고 설명하죠.

데이터셋 구축에 활용한 이미지 소스는 YFCC-100M을 활용했습니다. 야후(Yahoo)의 사진 서비스 플리커(Flickr) 사용자가 크리에이티브 커먼즈 라이센스(Creative Commons License, CC)를 부여한 1억장의 사진을 담은 데이터셋이죠. IBM은 이 데이터셋을 그대로 연구에 활용하지는 않았습니다. 이미지에 얼굴이 없거나 흑백으로 찍힌 사진 또는 초점이 맞지 않거나 흔들려 흐릿하게 찍힌 사진 등을 학습에 활용할 경우 학습 정확도가 낮아지기 때문이죠. 이런 사진을 솎아내고 얼굴이 반듯한 각도로 나오게끔 조정하는 등 전처리 과정을 거쳐 사진 100만장을 추려냅니다.

그런 뒤 IBM은 10가지 얼굴 분류 기준을 토대로 얼굴의 다양성을 측정하는 47가지 특징을 고안합니다. 이 특징을 가지고 데이터 라벨링 작업을 진행했죠. 회사는 “안면인식 기술의 성능은 얼굴에 나타나는 다양성을 얼마나 잘 반영하는지에 따라 달려있다고 해도 과언이 아니다”며 “하지만 이전 연구에서는 얼굴의 다양성을 나타내는 특징적인 요소를 반영하고 있지 못했다”며 DiF 설계 배경을 설명합니다. 얼굴을 객관적으로 측정할 기준이 마련되어야 균형적인 데이터셋 구축이 가능하다고 본 것이죠.

[ 그림 3 ] DiF는 인구통계학적으로 의미 있는 47가지 기준을 토대로 데이터를 라벨링했다. 이는 벤치마크로 활용되는 인물 사진 데이터셋과 비교했을 때 가장 큰 규모다.

전문가들은 제삼자의 평가가 나와봐야 DiF의 가치를 객관적으로 평가할 수 있다고 분석했습니다. 다만 이런 가치 평가와는 별개로, 얼굴 외적인 부분을 학습할 때 발생할 수도 있는 편견을 줄인 균형잡힌 100만개의 얼굴 데이터셋 구축 그 자체는 의미 있는 작업이라고 설명했습니다.


기업의 얼굴 데이터셋 구축이 우려스러운 이유

하지만 선한 의도로 공개된 IBM 데이터셋은 역풍을 맞고 있습니다. 가장 큰 문제로 지적되는 부분은 학습 데이터셋에 들어 있는 얼굴 초상권자 혹은 저작권자로부터 명백하게 사용 동의를 받지 않았다는 점입니다. 많은 이들은 자신의 사진이 안면인식 알고리즘 개발에 사용될 수도 있는 데이터셋에 포함돼 있다는 사실에 놀라움과 당혹감을 감추지 못했습니다.

IBM 또한 제삼자가 라이센스 비용을 지불하지 않고도 사진을 재사용할 수 있는 CC가 부여된 사진 데이터셋을 활용했습니다. 법적으로 봤을 때 문제 없는 방식으로 데이터를 획득했다고 볼 수 있습니다. 이런 이유로 플리커는 얼굴인식 시스템을 연구하는 사람에게 있어서 매력적인 사진 저장소로 인식되고는 하죠.

문제는 신원인증에 얼굴인식 기술이 활용되는 등 얼굴 데이터가 생체 정보로 활용된다는 데 있습니다. 일례로, 미국 일리노이 주 생명정보 개인정보법(Illinois Biometric Information)에서는 지문, 홍채, 얼굴 기하 정보 등을 생체 정보로 인식합니다. 이에 의거해 개인의 서면 동의 없이 생체정보 촬영하거나 저장하고, 다른 곳으로 공유하는 행위는 위법에 해당할 수 있습니다.

유럽의 일반 데이터 보호 규정(General Data Protection Regulation) 또한 사진을 개인의 신원을 확인하는 데 사용할 경우 ‘민감한 개인 정보’로 간주합니다. 그리고 특정 사진이 민감한 개인정보를 포함한다면 규제 당국은 해당 기업에 과태료도 부과할 수 있죠. 이런 관점에서 봤을 때 개별 사용자로부터 동의를 받지 않은 얼굴 데이터를 수집하는 것이 개인정보 유출 행위에 준한다고 해석할 가능성을 배제할 수가 없습니다.

대량의 데이터에서 패턴을 찾는 능력을 갖춘 인공지능이 익명성의 권리를 침해할 수 있다는 문제도 지적됩니다. 여러 출처의 데이터를 결합해 분석하면 한 사람에 대해 훨씬 더 많은 것을 알 수 있기 때문이죠. 실제로 인물 사진 데이터셋에는 인물 이름이 라벨링 돼 있지 않습니다. 이말인즉슨, 알고리즘을 아무리 훈련하더라도 이 사진 데이터셋만으로는 누군가를 특정할 수 없다는 의미죠. 하지만 사진, 이름과 같은 신상정보가 담긴 외부 DB와 DiF를 결합해 분석하면 누군가의 신원을 역추적할 가능성이 커집니다.

시민단체들은 데이터를 획득한 주체의 데이터 활용 정책이 명확하지 않다는 데 우려를 표하고 있습니다. IBM을 비롯한 많은 기업이 비상업적인 목적으로 만드는 자원과 상업성을 띠는 자원을 명확하게 구별하고 있지 않기 때문입니다. 사실 따지고 보면 회사는 회사 구성원이 만드는 거의 모든 것에 대한 지적 재산을 소유한다고 볼 수도 있기 때문입니다.

안면인식 업체 카이로스(Kairos)의 전(前) CEO인 브라이언 브라크켄(Brian Brackeen)은 "비상업적인 목적으로 만들어진 데이터셋을 학습한 알고리즘이 나중에는 상업적인 용도로 사용되는 건 흔히 있는 일이었다"고까지 말합니다. 다만 IBM은 공식 성명을 통해 “얼굴의 다양한 데이터셋은 순전히 학문적인 연구를 목적으로 하며 상업용 얼굴인식 시스템 개선에는 사용하지 않을 것”이라고 재차 강조했습니다.

위 같은 복잡한 이유로 인간의 삶에 지대한 영향을 끼치는 상황에서는 섣부른 인공지능 알고리즘 도입은 위험을 초래할 수 있다는 주장도 있습니다. 시드니 대학교(University of Sydney)의 데이터 과학자인 로만 마찬트(Roman Marchant)는 "인공지능이 어떤 식으로 결론을 도출하는지 인간은 전혀 알 수 없기 때문"이라고 설명합니다. 85여곳의 시민단체가 기술회사의 얼굴인식 기술을 정부에 판매하는 걸 금지해야 한다고 촉구하는 것도 궤를 같이 하고 있습니다.


공정한 시스템 구축을 위해 필요한 것

하지만 이런 우려 때문에 비상업적인 목적으로 진행되는 안면인식 기술 개발 또는 여기에 필요한 데이터셋 정제 작업을 막을 수는 없습니다. 얼굴을 구성하는 중요한 요소를 이해하는 연구를 지속해야만 더 공정한 상업용 시스템을 만드는 경험치를 쌓을 수 있기 때문입니다. DiF가 세상에 존재하는 다양한 편견을 줄이는 데 어떤 영향을 미칠지를 묻는 말에 IBM이 "얼굴 다양성을 과학적으로 이해함으로써 더 정확한 시스템을 만드는 데 도움이 될 것"이라고 대답한 내용에서 깊은 인상을 받은 것도 마찬가지 이유에서입니다.

얼굴을 보다 잘 이해하는 방법론을 다각적으로 연구할 필요가 있다는 건 알겠습니다. 그렇다면 앞에서 언급했던 학습 데이터를 구축하는 방식과 기업의 기술 정책은 어떻게 만들어져야 할까요?

학습 데이터셋을 구축하는 데 있어서 사용자로부터 명시적으로 동의를 받는 작업이 선행될 필요가 있습니다. 아울러 편향된 결과를 도출하지 않기 위해서는 데이터 수집에도 심사숙고의 과정이 필요합니다. 컴퓨터 비전 기술은 법 집행과 같은 분야에서 활용될 수도 있기 때문에 다양한 인구통계학적, 표현형 그룹에 대한 비전 알고리즘을 벤치마킹하는 데 큰 노력과 투자가 이뤄져야 하는 거죠.

얼굴 인식 오류율이 감소하더라도 안면인식 기술의 남용 가능성을 완전히 배제할 수는 없을 것입니다. 사생활이나 시민의 자유를 침해할 수 있으니까요. 이 기술이 발전함에 따라 취약하고 소외된 인구의 피해를 막기 위해서는 정책, 기업 관행 및 윤리 지침을 보다 광범위하게 탐구할 필요가 있습니다. 시민단체는 이런 기술 개발 또는 시스템 도입을 반대하는 이유 중 하나로 시민의 권리를 침해하지 않는다는 구체적인 가이드라인의 부재를 손꼽고 있습니다. 따라서 정부 또는 기업은 사회적으로 용인할 수 있는 수준의 연구나 시스템 도입을 위한 가이드라인을 다듬어나갈 필요가 있습니다.

가이드라인에 대한 개략적인 내용은 미국 연방거래위원회(FTC)가 2015년 발행한 보고서를 참고해볼 수 있습니다.

- 기업이 보유한 고객 얼굴 데이터에 제삼자가 접근하지 못하게 합니다.

- 필요로 획득한 고객의 얼굴 이미지를 영원히 보유하지 않습니다.

- 고객이 원치 않은 곳에서는 고객을 식별하지 않습니다.

- 고객에게 얼굴을 스캔하고 있다는 사실을 알려야 합니다.

- 온라인 서비스는 고객이 원하면 얼굴인식 기능을 쉽게 켜고 끌 수 있도록 합니다.

- 얼굴 이미지 등 생체 데이터를 수집 당시 목적과 방식과 다르게 사용하고자 한다면 사전에 반드시 명시적으로 동의를 구해야 합니다.

- 얼굴인식을 이용해 낯선 사람을 식별하는 앱을 개발하지 않습니다. 식별되는 사람에게 동의를 구할 방법이 없다면 더더욱 하지 말아야 합니다.

아울러, 결과를 해석하는 방식과 그 결과 자체에 대해서도 합리적 의심을 거두지 말아야 합니다. 상관관계(correlation)에 놓여 있는 두 변수를 인과관계(causation)로 잘못 해석하는 일은 흔한 통계 분석 사례입니다. 실제로는 변인 x와 변인 y가 상관관계에 있더라도 그사이 인과성이 존재하는지 알기 위해서는 더 주의 깊은 관찰이 필요합니다. x와 y가 사실은 변인 a에서 비롯된 각각의 결과로 나타나는 현상일 수도 있으니까요. 하지만 해석의 오류는 데이터가 상관성만 보여줌에도 불구하고 인과성으로 결론을 내리는 데서 발생합니다.

카카오브레인 임성빈 연구원은 “흑인이 범죄를 일으킬 확률이 높다는 주장은 인종과 다른 변수(소득, 지역, 교육)의 상관성만 보고 인종에 따른 인과성을 놓친 대표적인 사례”라고 설명합니다.


“모두가 다 같이”

가이드라인을 만드는 것만으로는 충분하지 않습니다. 실제로 기관 또는 기업이 가이드라인을 잘 지키고 있는지 모니터링할 수 있는 체계 또한 중요합니다. 계획을 실천했는지 여부를 파악하는 거라고 보시면 됩니다. 다시 정리하자면, 사진 데이터를 잘 관리하고 있는지, 그리고 알고리즘이 보다 정확한 결과를 내고 있는지를 제삼자가 평가할 수 있는 투명성이 합의되어야 합니다.

부오람위니의 추적 연구는 시스템 정확도 개선에 큰 도움이 된 대표적 사례입니다. 3사의 얼굴인식 기술이 피부색이 어두운 여성의 성별을 인식하는 정확도가 특히 낮았다는 연구 결과가 공개된 이후 이들 기업은 인식 정확도를 크게 높였습니다. 마이크로소프트와 IBM은 소프트웨어의 성능을 개선하겠다는 입장을 명시적으로 밝히기도 했죠. 이 연구가 시스템에서 발생하는 편견에 대한 대중의 관심을 증폭시켜 기업이 이 문제에 높은 우선순위를 부여하고 수개월 내로 상당한 개선을 이루도록 하는 데 동기를 부여한 셈입니다.

더 공정한 얼굴 시스템은 특정 기업 또는 개인의 노력만으로는 만들 수 없습니다. 이런 기술을 만드는 사람과 이용하는 사람, 모두가 이처럼 중요한 과학적 안건에 대해 토론하고 생각을 부딪힐 필요가 있죠. 앞선 사례처럼 공정성에 대한 기업의 적극적인 참여와 인식을 제고하기 위해서는 외부 감사를 둘 필요가 있음가 분명 있습니다. 부오람위니 연구원의 말처럼 일부를 위한 게 아닌, 모두를 아우르는 포용성과 사회적으로 유의미한 변화를 중시하는 세상을 향해 모두가 동참했으면 좋겠습니다.


참고
[1] 아프리카 3개국(르완다, 세네갈, 남아프리카공화국)과 유럽 3개국(아세안, 핀란드, 스웨덴) 출신 1,270명의 국회의원 얼굴 사진으로 구성된 데이터셋이다.
[2] 1975년 미국의 피부과 의사 토마스 피츠패트릭이 고안한 피부 분류법. 피부색에 따라 피부 유형을 6가지로 분류한다.
이 글을 쓴 사람들
samantha.lee
이수경 |
2016년 3월 알파고와 이세돌 9단이 펼치는 세기의 대결을 두 눈으로 목도한 이후 인공지능을 제대로 공부해봐야겠다고 결심했습니다. 인공지능 본진이자 연구소인 카카오브레인으로 걸어들어온 이유죠. 인공지능 기술과 이로 인해 바뀔 미래 사회를 다루는 글을 통해 사람들과 소통하고자 합니다.
one.queue
윤여일