일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- VGG16
- 딥러닝
- Data Augmentation
- kt희망나눔재단
- 데이터 분석
- kt디지털인재
- Tableau
- 태블로 실습
- 데이터 시각화
- tcga
- Deep Learning
- 태블로
- SRCNN
- 데이터과학
- 개 vs 고양이
- ResNet
- Computer Vision
- data analysis
- 머신러닝
- 데이터 증강
- LLM
- super resolution
- 논문리뷰
- 파이썬 구현
- Attention
- 장학프로그램
- cnn
- sparse coding
- k-fold cross validation
- 논문 리뷰
- Today
- Total
기억의 기록(나의 기기)
[Computer Vision] Deep learning in histopathology: the path to the clinic 논문 리뷰 본문
[Computer Vision] Deep learning in histopathology: the path to the clinic 논문 리뷰
황경하 2025. 2. 14. 19:37[Computer Vision] Deep learning in histopathology: the path to the clinic
안녕하세요, 데이터 과학 전공하고 있는 황경하입니다.
최근에 병리학적 데이터 (TCGA)에 딥러닝이 적용된 연구들을 살펴보고 있습니다. 따라서, 이번 블로깅에서도 그중 하나인 논문을 리뷰해 보겠습니다.
* 리뷰할 논문: https://www.nature.com/articles/s41591-021-01343-4 (Impact Factor: 58.7)
* 해당 글에 첨부된 사진들은 모두 위 논문에서 발췌한 것임을 미리 밝힙니다.
* 해당 글에 설명은 논문을 기반으로 한 주관적 해석이므로 틀린 부분이 있다면, 댓글로 지적 부탁드립니다!
# Abstract
병리학적 이미지 (MRI, CT 등)를 보고 의사가 환자를 진단하는 것은 매우 큰 노동력이 들어갑니다. 중요한 점은, 고령화 시대가 도래함에 따라 의사의 수는 줄어들고, 환자의 수는 급증한다는 것입니다. 따라서, 의사가 병리학적 이미지 하나하나를 자세히 살펴보고 진단을 하는 수고를 줄이기 위해 AI가 적극 도입되고 있습니다. (본 논문에서는 AI를 도입하여 병리학적 이미지를 예측 또는 분석하는 것을 CPATH라고 표현합니다.)
기존에는 머신러닝 방식을 채택하여 분석했지만, 이는 인간이 직접 진단했을 때의 성능을 이길 수 없었습니다. 따라서, 이미지 데이터셋이 커진다면 딥러닝 방식의 도입을 고려할 수 있으며, 본 논문에서는 이 딥러닝 방식을 도입한 연구를 설명하고 있습니다.
# Introduction
WSI (Whole-Slide Image) 분류는 CNN이 사용되는 컴퓨터 비전에서 수행되는 이미지 분류와 다르지 않습니다. 그러나, WSI 이미지 크기가 너무 커서 최신 GPU의 메모리에 맞지 않아 컴퓨팅 처리가 어렵습니다. 따라서, 중앙 처리 장치 (CPU) 계산으로 전환해도 단일 WSI가 전체 해상도에서 쉽게 수십 기가바이트의 메모리를 필요로 해 문제를 해결할 수 없습니다.
이 문제를 해결하는 간단한 접근 방식은 WSI의 모든 패치가 WSI 수준 레이블과 상관관계가 있는 형태학적 정보를 포함한다고 가정하는 것입니다. 예를 들어, 종양을 포함하는 WSI에서 추출된 모든 패치에는 종양이 포함됩니다. 이러한 가정의 단순성에도 불구하고 일부 응용 분야에서는 효과적일 수 있지만, 림프절의 작은 전이와 같이 희귀하거나 작은 객체를 찾아야 할 때는 작동하지 않습니다.
데이터 세트 크기가 지난 몇 년 동안 상당히 커졌지만, 많은 데이터 세트가 임상 실무에서 발생하는 데이터 유형을 대표하지 않는다는 중요한 특징이 여전히 부족합니다. 실제 의료 상황에서는 이미지에 변동이 많기에 훈련 데이터에 이런 변동 이미지가 많이 포함되어야 합니다. 따라서, 데이터 증강 기법 (image contrast, orientation, color 등) 적용으로 해결하거나 전체 이미지들을 공통 표준으로 정규화하여 사용해야 합니다.
# Background
기존의 CPATH는 WSI 이미지의 패치를 이용해 CNN 모델에 입력하여 많이 진행하였습니다.
(논문에는 딥러닝, 데이터 증강, WSI 이미지 등에 대한 기초 지식이 정의되지만, 이는 모두 안다고 가정하고 생략하겠습니다. 궁금하신 분들은 논문을 직접 읽어보시기 바랍니다. 논문 내 Box1 내용)
본 논문에서는 "허용 가능한 거짓 양성률로 100% 민감도를 달성하는 것"이 임상 등급의 CPATH 알고리즘을 달성하는 목표가 되어야 한다고 결론짓습니다. 이는 아래와 같습니다.
- CPATH 알고리즘은 실제 질병이 있는 환자를 100% 찾아낼 수 있어야 합니다. (높은 민감도)
- 동시에 질병이 없는 환자를 질병이 있다고 잘못 판정하는 경우는 허용 가능한 수준이어야 합니다. (허용 가능한 거짓 양성률)
한 줄로 요약하면, CPATH 알고리즘은 실제 질병이 있는 환자는 모두 찾아낼 수 있어야 하며, 만약 잘못하고 질병이 없는 환자를 질병이 있다고 하더라도 그 오류는 허용 가능한 수준으로 적은 숫자여야 합니다. (어떻게 보면, 모든 예측 모델의 목표이죠. 그냥 풀어 설명한 것에 불과합니다.)
또한, 딥러닝을 이용하여 병변 영역을 segmentation 할 수도 있습니다. a 이미지는 원본 이미지이고, b 이미지는 전문가가 원본 이미지를 레이블 한 이미지이고, c 이미지는 딥러닝을 이용하여 segmentation 한 이미지입니다. 결과에서 볼 수 있듯이, 딥러닝 모델이 분리한 이미지가 전문가의 수준과 비슷한 수준을 유지함을 알 수 있습니다.
이를 통해, 알 수 있는 것은 WSI 이미지에 전문가가 하나하나 레이블링을 진행한다면, 너무 많은 노동력을 필요로 한다는 단점을 딥러닝 모델을 활용한다면 해결할 수 있다는 것입니다.
따라서, 해당 논문에서는 딥러닝 모델을 훈련하기 위한 공개 데이터 세트의 부족이 CPATH 알고리즘의 현재 가장 큰 문제점이라고 합니다.
# Conclusion
비교적 빨리 달성할 수 있는 것은 AI 알고리즘이 독립형 설루션이 아닌 병리학자와 함께 작동하여 림프절 전이 같은 지루하고 반복적인 작업의 필요성을 제거하거나 진단 등급의 질을 향상하는 것입니다. 또한, 완전한 디지털 병리학 인프라 없이 CPATH 알고리즘을 저소득 국가에 제공함으로써 병리학자가 없는 경우 긴급한 데이터를 제공할 수 있으며, 이는 중요한 진전이 될 것입니다.
신뢰할 수 있는 AI는 단순히 상자를 체크하는 것이 아니라 요구 사항을 지속적으로 식별하고 구현하며, 설루션을 평가하고, AI 시스템의 수명 주기 전반에 걸쳐 개선된 결과를 보장하고, 이해 관계자를 이에 참여시키는 것이라고 정의합니다. 여기서 신뢰할 수 있는 AI를 결과를 설명할 수 있는 Explainable AI라고 표현합니다.
마치며...
본 논문은 어려운 내용이 없어 딥러닝에 대한 지식이 있는 분들이라면, 쉽게 넘어가며 읽을만한 논문이었습니다. 다만, 병리학적 데이터에 딥러닝을 적용할 수 있다는 점과 대규모 데이터셋에 annotation을 진행할 때 딥러닝을 활용하면 더 효율적으로 진행할 수 있다는 점은 중요시 봐야 할 것 같습니다. 또한, 딥러닝 모델은 블랙박스라고 하여 추론 결과가 나온 과정을 설명하기 어렵다는 단점이 있는데, 이는 계속 연구되어야 할 분야임이 확실합니다.
제 글이 이 논문을 읽으시려는 분들에게 조금이나마 도움이 되었으면 합니다. 오늘도 읽어주셔서 감사합니다 :)
