일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 딥러닝
- Tableau
- 데이터 시각화
- Semantic Segmentation
- super resolution
- 데이터과학
- tcga
- 논문리뷰
- 데이터 분석
- Computer Vision
- Data Augmentation
- 태블로
- 개 vs 고양이
- SRCNN
- ResNet
- 데이터 증강
- kt디지털인재
- cnn
- VGG16
- 장학프로그램
- Attention
- sparse coding
- 파이썬 구현
- 논문 리뷰
- kt희망나눔재단
- 머신러닝
- k-fold cross validation
- Deep Learning
- 태블로 실습
- data analysis
- Today
- Total
기억의 기록(나의 기기)
[Computer Vision] The Application of Deep Learning in Cancer Prognosis Prediction 논문 리뷰 본문
[Computer Vision] The Application of Deep Learning in Cancer Prognosis Prediction 논문 리뷰
황경하 2025. 2. 14. 20:06[Computer Vision] The Application of Deep Learning in Cancer Prognosis Prediction
안녕하세요, 데이터 과학 전공하고 있는 황경하입니다.
오늘은 지난 포스팅에 이어 딥러닝이 병리학적 데이터에 적용된 논문을 살펴보겠습니다. 본 논문은 이전에 진행되었던 여러 논문들을 요약한 리뷰 논문입니다.
* 리뷰할 논문: https://www.mdpi.com/2072-6694/12/3/603 (IF: 6.1)
The Application of Deep Learning in Cancer Prognosis Prediction
Deep learning has been applied to many areas in health care, including imaging diagnosis, digital pathology, prediction of hospital admission, drug design, classification of cancer and stromal cells, doctor assistance, etc. Cancer prognosis is to estimate
www.mdpi.com
* 해당 글에 첨부된 사진들은 모두 위 논문에서 발췌한 것임을 미리 밝힙니다.
* 해당 글에 설명은 논문을 기반으로 한 주관적 해석이므로 틀린 부분이 있다면, 댓글로 지적 부탁드립니다!
# Abstract
암 예후는 암의 진행 경로, 재발 및 진행 확률을 추정하고 환자에게 생존 예측을 제공하는 것입니다. 본 리뷰에서는 딥러닝을 사용하여 암 예후 예측 모델을 구축한 가장 최근에 발표된 연구 결과를 검토했습니다. 암 연구에서 유전체 데이터, 전사체 데이터 및 임상 정보를 포함한 다중 오믹스 데이터가 급증함에 따라 딥러닝이 암 예후를 개선할 가능성이 있다고 합니다.
# Current Development in Cancer Prognosis Prediction
암 예후는 암의 진행 과정을 추정하고 생존 예측을 제공하며 임상 관리를 개선하는 것을 목표로 합니다. 생존 분석을 위한 암 예후의 현재 최고 분석 방법은 통계적 접근 방식입니다. 이는 암 진단, 암 유형, 종양 등급, 분자 프로파일 등을 포함한 임상 데이터를 사용했지만, 최근에는 다중 오믹스 데이터도 추가되었습니다.
* 다중 오믹스 데이터는 크게 보아 아래와 같이 정의되지만, 연구 목적에 따라 다르게 정의될 수 있습니다. (하나의 공식이 아닌 연구마다 다르게 정의할 수 있다고 보면 됩니다.)
다중 오믹스 데이터:
- 유전체 데이터
- 발현 데이터
- 단백체 데이터 및 후성 유전체 데이터
근데 이는, 데이터 양이 커서 순수 통계적 방법을 사용하여 예측을 수행하는 데 어려움을 제기합니다. 따라서, 머신러닝을 적용한 연구가 많이 진행되었습니다. 크게, PCA, 클러스터링, 오토인코더, SVM 등을 적용한 연구가 있습니다.
본 연구에서는 TCGA 데이터셋을 사용하였습니다.
- TCGA: 게놈, 전사체, 후성 유전체 및 단백체 프로파일링 데이터를 포함하여 33가지 다른 종양 유형에 걸쳐 11,000명 이상의 종양 환자의 임상 및 분자 데이터를 보유하고 있습니다.
# Current Application of Deep Learning in Cancer Prognosis
본 논문에서는 기존의 딥러닝이 적용된 연구들을 리뷰합니다. 연구는 크게 3가지 딥러닝 기법으로 되어 있다고 합니다.
- 특징 추출 없는 NN (Neural Network) 모델
- 다중 오믹스 데이터에서 특징 추출하여 정말 연결된 NN 구축
- CNN 기반 모델
공통적인 아키텍처는 아래와 같습니다.
## NN Models with no Feature Extraction (Without omics Data)
기존 통계 방식으로 진행하던 병리학적 데이터 분석은 Cox 비례 위험 모델 (Cox-PH)를 사용하였습니다. 그러나, 단순 NN 모델이 Cox 비례 위험 모델(Cox-PH)과 유사한 성능을 보였습니다. 이러한 연구에서 오믹스 데이터 없이 특징의 수가 상대적으로 적었기 때문에 특징 선택은 필요하지 않았습니다. 이후, Cox 회귀 모델은 NN의 출력 계층으로써 활용되었습니다.
Cox-net은 TCGA의 게놈 데이터를 입력으로 사용하고 Cox 회귀를 출력 계층으로 사용하는 NN 네트워크입니다. Cox-net이 테스트한 TCGA 데이터 세트에서 Cox-PH, Cox-boost(그래디언트 부스팅 기반) 또는 랜덤 포레스트보다 성능이 더 우수함을 보여주었습니다. 이는 NN 네트워크가 기존 통계 방식 혹은 머신러닝 기법보다 더 성능이 우수함을 보여줍니다.
이 외에도, DeepSurv 모델과 이를 더 깊게 쌓은 RankDeepSurivival 또한 CoxPH 모델보다 더 나은 결과를 보였습니다.
## Feature Extraction from Gene Expression Data to Build Fully Connected NNs (With omics Data)
여기서부터는 오믹스 데이터가 포함되기에 Feature Extraction이 필요합니다.
한 가지 연구에서는 mRMR 방법을 사용하고, 이후 3개의 NN 구축하여 학습 후 각 모델의 예측 출력을 가중 선형 집계를 기반으로 합산하여 최종 예측 점수를 계산했습니다. (어떻게 보면, 앙상블)
- mRMR: 유전자 발현 데이터와 복제수 변이 데이터의 차원을 줄여주는 기법
- 3가지 NN: 유전자 발현 데이터로 학습한 모델, CNA 데이터로 학습한 모델, 임상 데이터로 학습한 모델
이 방식으로 학습한 모델을 MDNNMD 모델이라 명명합니다. 다른 연구에서는 오믹스 데이터를 아래처럼 구성한 후, 다중 오믹스 NN 모델에 출력 층을 CoxPH를 사용하여 다른 모델보다 더 뛰어난 성능을 기록하였습니다. 차원 축소는 lmQCM 알고리즘을 이용해 추출하였습니다.
다중 오믹스 데이터:
- 유전자 발현(mRNA) 데이터
- miRNA 데이터
- 복제수 부담 데이터
- 종양 돌연변이 부담 데이터
- 임상 데이터
또, PASNet을 이용한 연구도 존재하는데, 이는 생물학적 경로를 고려했다는 점에서 유의미하다고 주장합니다.
## CNN-Based Models
암 예후 연구에서 CNN은 생존 예측을 위한 암 조직 분류 또는 후속 예후를 위한 특징 추출에 적용되었습니다. 이러한 연구 중 일부는 데이터에서 순차 정보를 추출하기 위해 RNN 계층을 추가하기도 했습니다.
RNN 계층은 MRI 이미지의 순차 정보를 포착하기 위해 이 모델에 추가되었지만, RNN 계층 유무에 따른 모델 성능을 비교하지 않았기 때문에 효과는 잘 연구되지 않았습니다.
SCNN은 최초로 2018년 WHO 유전체 분류 및 조직학적 등급의 예후 정확도를 능가했음을 보여주었습니다. 관심 영역(ROI)을 조직 이미지에서 식별하여 출력 계층으로 Cox 비례 위험 회귀를 사용하여 CNN을 훈련하여 환자 결과를 예측했습니다.
H&E 이미지는 대장암을 판별하는 데이터셋입니다. 본 데이터셋을 이용한 연구는 피부조직과 암 영역을 분리하는 태스크를 진행하였습니다. 분류하고자 하는 레이블은 9개로 아래와 같습니다.
- 지방, 배경, 잔해, 림프구, 점액, 평활근, 정상 점막, 기질 및 암 상피를 포함한 9개의 조직 클래스
VGG19 및 Resnet50과 같은 최첨단 CNN 네트워크를 사용하여 CNN 모델 사용한 연구가 있었고, 이러한 CNN 모델을 특징 추출에만 사용하고, RNN(LSTM) 모델을 구축하여 CRC 환자 생존을 예측한 연구도 있었습니다. 후자는 VGG로 256개의 특징 벡터 추출 후 LSTM-RNN Cell에 입력합니다. 이 방식은 인간 전문가가 0.57-0.58의 AUC 기록하는 반면, 이 모델은 0.65의 AUC 도달한다는 점에서 전문 병리학자의 진단 수준을 능가함을 알 수 있습니다.
# Challenges in the Application of Deep Learning in Cancer Prognosis
- 데이터 수 부족
- 데이터 불균형(일부 고사망률 암의 경우 생존자가 적은 경우가 많음)
- 결측치 및 희소 데이터 (결측치 제거는 데이터 부족을 심화시키므로 MICE 방법을 채택 추천)
- 고차원 데이터 (알고리즘을 이용하거나 도메인 지식으로 분류하거나 NN을 특징 추출에 이용)
- 일반적인 모델 부족 및 검증의 어려움
- 인프라 부족 및 데이터 보안 문제
- 전문 인력 부족
# Conclusions and Summary
딥러닝을 사용하여 모델을 훈련하는 한 가지 장점은 더 많은 데이터를 사용할 수 있을 때 지속적인 훈련이 가능하다는 것입니다. 연구들 중 상당수는 딥러닝 모델이 다른 기계 학습 모델과 동등하거나 더 나은 성능을 보임을 보여주었습니다.
마치며...
오늘은 리뷰 논문을 읽으며 병리학적 데이터에 딥러닝이 사용되게 된 계기 및 연구 트렌드를 살펴봤습니다. Cox -PH에 대해 이번 논문에서 처음 알게 되었는데, NN에서 출력 계층으로 많이 활용되는 것으로 보아 중요한 개념인 것 같습니다. 추후에 설명 내용 추가하겠습니다.
제 글이 이 논문을 읽으시려는 분들에게 조금이나마 도움이 되었으면 합니다. 오늘도 읽어주셔서 감사합니다 :)

데이터 다운로드
1) TCGA
https://gdc.cancer.gov/about-data/gdc-data-processing/resources-tcga-users (data description)
https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables (TCGA Code Table)
https://bioinformatics.ccr.cancer.gov/docs/btep-coding-club/CC2024/TCGA/TCGA_download/#tcga-data-within-gdc (data download)
2) GEO
유전자 발현 옴니버스 데이터베이스 - PubMed (data description paper)
홈 - GEO - NCBI (dataset download)
3) GTEx
Genotype-Tissue Expression (GTEx) 파일럿 분석: 인간의 다중조직 유전자 조절 | 과학 (data description paper)
https://www.gtexportal.org/home/downloads/adult-gtex/long_read_data (data download)