현장탐방
CSI 워크숍 - 딥러닝을 활용한 의료영상 판독
2018/04/26 by 이수경

아침에 일어나니 몸이 으슬으슬합니다. 이마에 손을 얹어보니 미열도 있는 거 같아요. 시간이 흐르면 괜찮아지겠거니 하고 회사에 출근했습니다. 그런데 오후를 넘어서니 목이 간질간질하고, 기침이 나오기 시작합니다. 오랫동안 감기를 앓아본 경험해 근거해 판단해보니 몸살감기인 것 같았습니다. 시간을 내과에 방문했습니다. 의사 선생님께 오늘 제가 느낀 증상에 대해 말했습니다. 선생님은 겨울에서 봄으로 계절이 바뀌는 환절기에 면역력이 낮아져서 감기의 주요 증상이 나타난 거라 말했습니다. 그리고 나선 3일치 약을 지어주며 “그 이후에도 증상이 완화되지 않으면 다시 병원에 방문하세요”라고 말하더라고요.

일반 의원에서 일어나는 보통의 진찰 과정입니다. 의사는 대략 5분에서 10분 정도의 진료를 통해 환자를 진단합니다. 사실 이렇게 짧은 시간 안에서는 증상의 원인이나 병의 중증도를 파악하기가 쉽지는 않습니다. 위 사례처럼 특정 시기에 자주 걸리는 감기나 독감은 경험적으로 판단할 수 있습니다만, 신체적 증상에 대해 듣는 것만으로는 정확한 진단을 내리기 어렵습니다.


의료영상 판독, 노동집약적인 일이에요

그래서 의사는 각종 검사를 통해 환자의 몸 ‘속"을 들여다봅니다. 방사선영상이나 조직 슬라이드를 스캔한 병리영상을 판독해 비정상적인 부위를 찾아내기도 하죠. 더 정확한 진단을 위해서입니다. 하지만 10만*10만 픽셀의 영상에서 100*100 픽셀 크기의 비정상적인 부위를 사람의 눈으로 찾는 것은 쉬운 일이 아닙니다. 예시를 한 번 들어볼까요? [그림 1]을 보면 왼쪽 3개 이미지는 종양 패치, 오른쪽 3개는 정상 패치입니다. 아무리 전문적인 수련과정을 거친 병리의사[1]라 하더라도 육안 판독만으로는 구분이 쉽지는 않습니다.

[ 그림 1 ] 출처 : 기가픽셀 병리학 이미지에서 암전이 감지하기(Detecting Cancer Metastases on Gigapixel Pathology Images)

모니터에서 지원하는 해상도, 명암비, 휘도 등의 요소에 따라 영상이 온전하게 보이지 않을 가능성도 완전히 배제할 수는 없습니다. 판독용 모니터는 의료용 디지털 영상 및 통신 표준(DICOM), 5백만 화소, 고대조도, 최소 8비트 조건의 고해상도와 같은 요소를 필수로 지원해야 합니다. 그러나 현실에서는 고가의 장비라는 것을 이유로 구매나 이용이 제한될 가능성이 크죠.

영상에 따라서는 분석에 수십 분에서 수 시간이 걸리기도 합니다. 판독이 난해한 경우라면 의사 한 명이 분석할 수 있는 영상은 많아야 2~3명분입니다. 사람의 눈으로 확인하는 작업이다 보니 같은 환자를 두고 서로 다른 진단을 내리기도 합니다. 전문적인 수련과정을 거친 의사가 한정된 시간 안에 검토해야 하는 많은 정보를 감안한다면, 오진의 가능성을 완전히 배제할 수는 없습니다. 실제로 암 오진 피해의 원인으로는 추가 검사를 소홀히 하거나 판독오류라는 응답 비율이 가장 높습니다.


의료영상과 딥러닝

효율적으로 의료영상을 판독하는 데 딥러닝이 도입되는 배경에 대해 짤막하게 살펴봤습니다. 최근 연구 동향은 인간 의사보다 더 높은 정확도로, 더 빠르게 분석하는 걸 목표로 합니다. 딥러닝의 분석결과를 활용한다면 의사는 좀 더 빠르게 환자를 진단할 수 있고, 환자는 한시라도 빨리 적절한 의학적 조치를 받을 수 있음을 예상할 수 있습니다. 그렇다면 의료영상 분석에 딥러닝이 활발하게 사용되는 이유는 무엇일까요?

지금까지 컴퓨터는 개발자가 직접 추출한 특징을 학습해 문제를 해결해왔습니다. 잘 정의된 특징은 기계학습 성능에 큰 영향을 미쳤습니다. 그런데 사람이 특징을 추출하는 일은 매우 까다롭고 복잡한 작업입니다. 예를 들자면, 능숙한 디자이너라도 포토샵 펜 툴만으로 이미지 속 인물의 머리카락 한올한올 살려서 가장자리를 따는 일은 어려운 일이죠. 데이터 복잡도가 클수록 인간이 모든 것을 100% 완벽하게 구분한다는 건(의미를 부여하는 건) 사실상 불가능에 가깝습니다.

딥러닝은 데이터에서 특징을 자동으로 추출합니다. 예를 들어, ‘고양이’ 사진을 학습한다면, 기계가 알아서 고양이라고 부를 수 있을 만한 주요 특징을 찾는 거죠. 학습 데이터가 많을수록 성능은 더욱 좋아집니다. 이미지 분류 및 분석에 딥러닝 기술이 활용되는 이유죠. 딥러닝 알고리즘 중에서도 CNN(convolutional neural networks)이 주로 의료영상 분석에 활용되고 있습니다. CNN이 영상처리에 탁월한 성능을 내고 있거든요.

[ 그림 2 ] 2010-2016 ILSVRC[2] 알고리즘의 top-5 에러율[3]


CNN

CNN은 데이터로부터 자동으로 특징을 학습하는 대표적인 모델이다. 인간의 시각(vision) 정보 처리 방식을 흉내 낸 것으로, 특히 이미지 인식과 분류에서 탁월한 성능을 낸다. 알파고의 승리도 CNN의 발전이 있었기에 가능했다. CNN의 메커니즘은 생각보다 간단하다. 입력과 가까운 층에서는 가장자리(edge), 곡선(curve)과 같은 저수준(low level) 특징을 학습한다. 점차 높은 층으로 올라 갈수록 질감(texture), 물체 일부분(object parts)과 같이 고수준(high level) 특징을 인식한다. 출력층에서는 물체의 종류를 인식하는 등 복잡한 추론을 수행한다.

[ 그림 3 ] CNN의 학습 과정을 도식화한 자료


CSI와 딥러닝

CSI(Center for Super Intelligence, 초지능연구센터)는 서울대학교, 서울아산병원, 포항공과대학교(POSTECH), 한국과학기술원(KAIST), 미국 서던캘리포니아대학교(USC) 소속 9명의 교수진과 50여 명의 대학원생이 참여하는 딥러닝 연구 그룹입니다. 카카오브레인은 지난해 4월 CSI와 산학협력을 체결한 것을 계기로 인연을 이어나가고 있습니다. 다양한 산학협동 활동 가운데서도 연중 네 차례 여는 워크숍이 CSI 활동의 핵심입니다. 구두 발표 및 포스터 세션을 통해 지금까지의 연구성과를 공유하는 과정에서 활발한 토론이 이뤄지기 때문입니다. 참석자에게 받은 다양한 피드백과 정보는 더 나은 연구 결과를 내놓는 데도 큰 도움이 되죠.

(자세히 보기 - 같이 만드는 AI 기술의 미래)

때마침 지난 4월 13일 경기도 판교에서 열린 CSI 워크숍에서 딥러닝으로 의료영상 분석을 연구하는 프로젝트를 만나볼 수 있었습니다. 저는 프로젝트 담당자를 상대로 어떤 문제를 해결하고 싶어서 발제하게 됐는지를 중점적으로 물어봤습니다. 그 결과, 심장 비대, 신장이식 거부반응, 폐질환, 악성 뇌종양과 관련된 의료영상을 빠르고 정확하게 판독하려는 이유에 관해 간략한 설명을 들어볼 수 있었습니다. 분량의 문제로 이 글에서는 심장 비대와 신장이식 거부반응에 관한 이야기만 서술하고자 합니다.


*논문을 준비하고 있는 연구 과제들인 만큼 ‘해결 방법’보다는, ‘해결하고자 하는 문제’를 기술하는 데 집중했습니다. 관련 논문이 공개되는 대로 자세한 내용을 다룰 예정입니다.

*마찬가지 이유로 내용을 보조하는 발표 장표를 본문에 첨가하지 않았습니다.

*직접 현장을 탐방하고 쓴 후기형 글로, 카카오브레인의 연구 방향이나 전략과는 무관합니다.

*본문 내용을 구성하는 근거 자료는 통상적으로 레퍼런스 표기 방식을 따르지 않았습니다. 대신 외부 링크를 연결해 두었습니다. 좀 더 자세한 내용을 보시고 싶으시다면 링크를 클릭해주세요!


1.심장비대

- 프로젝트명 : Detection and classification of cardiomegaly in chest X-rays using deep learning

건강한 성인의 심장 크기는 자신의 주먹을 꽉 쥔 것만 합니다. 그런데 심장 관련 질환에 걸리게 되면 보통의 경우 심장의 크기도 커진다고 합니다. 이처럼 심장이 비정상적으로 커진 상태를 심장 비대[4]라고 합니다. 심장 비대 그 자체만으로는 병이라고 볼 수 없습니다. 검사상 관찰되는 형태를 지칭하기 때문입니다. 주치의는 환자에게서 심장 비대가 발견되면 이런 증상을 유발한 원인을 찾아냅니다.

의료진은 흉부 엑스레이[5] 사진에서 심장 외곽선을 그린 뒤 심장 비대 여부를 인식합니다. [그림 4]에서 보듯이, 흉부 엑스레이 사진에서 심장의 윤곽을 형성하는 부위는 다음과 같습니다. 보통은 심폐 비율이 0.5 이상이면 심장 비대를 의심합니다. 문제는 우심방이나 좌심실 부위는 비대해짐을 육안으로 확인하기가 상대적으로 쉬우나, 부위에 따라 혹은 초기 상태에서는 구분이 어렵다는 점입니다. 흉부 엑스레이 사진 판독에 최소 5분에서 최대 30분가량의 시간이 걸리는 이유죠. 이 프로젝트에서는 심장의 외곽선을 그린 뒤, 빠르고 정확하게 심장 비대를 판독하는 딥러닝 기술을 개발합니다.

[ 그림 4 ] 흉부 X-레이 사진 상에서 심장의 외곽선을 형성하는 대표적인 부위들

(Case courtesy of Dr Vincent Tatco, Radiopaedia.org, rID: 46331해당 이미지는 원저작자로부터 사용권을 획득했습니다)

1)대정맥(Superior vena cava) 2)우심방(Right atrium) 3)하대정맥(Inferior vena cava) 4)대동맥(Aortic arch) 5)주 폐동맥(Main pulmonary artery) 6)좌심방이(Left atrial appendage) 7)좌심실(Left ventricle)


2.신장이식 거부반응

- 프로젝트명 : Fully-automated deep pathologic scoring for renal allograft rejection by deep learning method in gigapixel immunostaining image

신장이식은 만성 신부전에 관한 최선의 치료법으로 잘 알려져 있습니다. 하지만 신장이식을 원하는 모든 이가 수술을 받을 수 있는 건 아닙니다. 공여자(기증자) 수가 절대적으로 부족하기도 하거니와, 공여자가 나타나더라도 수혜자의 면역체계 거부반응이 심해 수술 부적합 판정을 받을 확률도 높은 편입니다. 성공적으로 신장이식 수술을 받더라도 안심할 수는 없습니다. 이식받은 신장에서 급성 거부반응이 일어날 수도 있기 때문입니다. 따라서 수술 후에는 급성 거부반응을 정확하게 진단해 적절한 의학적 조치를 받아야 합니다.

급성 거부반응은 급성 T-세포 매개 거부반응(T-cell mediated rejection, TCMR)과 급성 항체매개 거부반응(antibody-mediated rejection, AMR 또는 ABMR)로 나뉩니다. 이 프로젝트는 급성 AMR의 주요한 진단 표지자로 사용되는 C4d 침착 여부를 딥러닝으로 신속하고 정확하게 판단할 방법을 연구합니다. C4d는 세뇨관주위 모세혈관(peritubular capillary, PTC)에 주로 침착된다고 알려져 있습니다. 그래서 PTC 조직을 채취해 면역염색[6]을 실시한 뒤, 염색에 대한 양성 반응의 비율(양성/양성+음성)을 토대로 C4d 침착 여부를 판단합니다. [도표 1]에서 처럼 그 비율에 따라 4단계의 점수로 측정합니다.

[ 도표 1 ] C4d 염색률을 4단계로 점수화

문제는! 전문의가 현미경의 배율을 높여가며 12만*12만 픽셀 크기의 이미지를 들여다보며 염색된 부분에는 ‘양성’, 그렇지 않은 부분에는 ‘음성’을 직접 표시해야 한다는 점입니다. 양성 반응 비율이 월등히 높다면 슬라이드 전체를 판독하지 않더라도 추가적인 검사를 진행하거나 치료를 고려해볼 수 있습니다. 반면, 병리 슬라이드 전체를 다 검토하지 않고서는 양성 반응비율이 0%라고 단정할 수는 없습니다. 연구팀의 딥러닝 기술은 염색된 부분과 염색되지 않은 부분을 구분하는 방법을 학습해 인간 전문의의 판단을 돕는 데 집중하고 있습니다.


신장이식

1954년 12월 23일 미국 하버드의대 성형외과 의사였던 조지프 머리(Joseph Edward Murray) 교수와 그의 동료들이 세계최초 신장이식수술에 성공했다. 유전적 요소가 같은 일란성 쌍둥이 사이 수술을 집도한 조지프 교수는 이 공로로 1990년 노벨 생리의학상을 수상했다. 우리나라에서 생체 기증자의 신장을 이식하는 수술이 성공한 때는 1969년 일이다.

(자세히 보기 - 신장이식)


앞으로의 기대

딥러닝을 훈련하는 데 있어서 가장 큰 어려움은 양질의 데이터를 확보하는 부분입니다. JSRT(Japanese Society of radiological Technology)와 같은 공개 데이터셋이 있기는 하지만 여전히 훈련/테스트로 사용하기에는 그 양은 부족하죠. 희귀한 케이스일수록 학습 데이터를 구하기가 더 어렵다는 점도 있습니다. 의사가 의료영상의 정답을 수작업으로 레이블링한 데이터셋이 비싸 다량의 학습 데이터셋 구축을 구축하기가 쉽지 않습니다. 아울러 환자의 의료영상(개인정보) 활용에 대한 여러 법적인 이슈도 해결되어야 할 과제 중 하나입니다.

선결될 과제들이 여전히 많긴 하지만, 앞으로 인공지능 기술이 의료 혁신의 주체라는 점에 대해서는 이견이 없는 것 같습니다. 실제로 인공지능을 활용해 헬스케어 분야 혁신을 일으키는 스타트업에 대한 투자 규모가 지속해서 커지는 추세죠. 지난 2014년 헬스케어 분야 인공지능 스타트업 인수금액은 대략 6억 달러(6,517억원) 수준입니다. 그리고 이 규모는 2021년까지 연간 40% 늘어나 66억 달러(7조 1,702억원)에 육박할 것으로 보입니다.

[ 그림 5 ] 인공지능으로 헬스케어 분야 혁신을 일으키고 있는 106개의 스타트업 (c)CBINSIGHTS

인공지능이 혁신을 일으키는 방식이 인간 의사의 대체는 아닐 거라는 게 전문가들의 의견입니다. 매사추세츠주 보스턴의 브리검 여성 병원(Brigham and Women"s Hospital) 병리학과장인 제프리 알란 골든(Jeffery Alan Golden)은 "인공지능은 더 좋고, 더 효율적이며, 더 안전한 진료에 도움이 될 것"이라며 "의사보다 더 높은 정확도로 의료영상을 분석할 수는 있어도, 그 외 진단 등 다른 일은 여전히 인간 의사가 수행할 것"이라고 덧붙였습니다. 한편, 인간 의사가 더 정확한 진단을 내리는 데 도움을 받을 수 있다면, 인공지능을 활용하지 않을 이유가 없다고도 전문가들은 이야기합니다. 디지털 헬스 혁신을 위한 UCSF 센터장인 마이클 블럼(Michael Blum)은 "임상 평가 결과에 따라 인공지능이 더 효율적이고 정확한 진단에 도움을 준다면, 이 기술을 도입하지 않은 것 자체가 부도덕한 일이라고 볼 수 있다"고 강조합니다.

(자세히 보기 - Artificial Intelligence Could Help in Breast Cancer Diagnosis


더 읽어볼 만한 글

- 의료 분야 골든타임(CVR)을 위한 딥러닝의 가치 

- [카카오AI리포트] 딥러닝 기반 의료 영상 기술의 진화 

- 인공지능은 의료를 어떻게 혁신할 것인가 (6) 딥러닝 기반의 영상 의료 데이터 분석 (하)


참고
[1] 병을 일으킨 신체의 조직이나 기관의 기질적 변화를 연구한다. 그리고 이 지식을 바탕으로 임상의에게 병을 알려준다.
[2] ImageNet Large Scale Visual Recognition Challenge의 약자. 2010년부터 매해 열리고 있는 이미지 인식 대회.
[3] Top-5 error rate : 모델의 성능을 비교할 때 측정하는 것. 학습 모델이 가장 높은 확률로 예측한 다섯 가지의 틀린 빈도를 검토한다.
[4] 어떤 원인에 의해 세포의 용적의 증가로 인해 특정 장기가 커진 상태
[5] 가장 쉽고 편리하게, 저렴한 비용에 심장 및 혈관의 확장, 폐혈류량, 폐부종 등을 확인할 수 있는 검사다. 선천성 심장병을 초기 진단하거나 치료 전 후 병의 경과와 변화를 즉각적으로 확인할 수도 있다.
[6] 항원, 항체 반응을 이용해 조직이나 세포중의 항원의 존재하는 부위를 특이적으로 검출하는 방법
이 글을 쓴 사람들
samantha.lee
이수경 | samantha.lee@kakaobrain.com
2016년 3월 알파고와 이세돌 9단이 펼치는 세기의 대결을 두 눈으로 목도한 이후 인공지능을 제대로 공부해봐야겠다고 결심했습니다. 인공지능 본진이자 연구소인 카카오브레인으로 걸어들어온 이유죠. 인공지능 기술과 이로 인해 바뀔 미래 사회를 다루는 글을 통해 사람들과 소통하고자 합니다.