

골다공증은 고령화와 함께 환자가 빠르게 증가하고 있다. 그러나 표준검사인 골밀도 검사는 장비 접근성 등의 문제로 충분히 시행되지 못하는 경우가 많다.
반면 흉부 X선은 대부분의 건강검진에서 기본으로 촬영되는 만큼 이를 활용해 골다공증 위험을 함께 평가할 수 있다면 조기 진단의 새로운 대안이 될 수 있다.
다만 기존 AI 모델은 예측 근거가 분명히 드러나지 않는 ‘블랙박스’ 한계로 인해 임상 적용이 쉽지 않았다.
연구팀은 먼저 다양한 이미지에서 사전 학습된 '파운데이션 모델'을 영상 분석에 적용했다. 대규모 데이터로 학습된 AI 모델로, 이를 의료영상에 맞게 미세 조정하면 제한된 높은 성능을 낼 수 있다.
연구에는 일반 이미지로 학습된 모델(OpenCLIP, DINOv2)과 의료 영상으로 학습된 모델(CheXagent, RAD-DINO) 등 네 가지 모델이 사용됐다.
또 ▲마지막 분류 단계만 새로 학습하는 '선형 검증' ▲모델의 일부 레이어만 재학습하는 '부분 미세조정 방식' ▲저차원 행렬을 추가하는 'LoRA 방식' 등 세 가지 방법을 적용해 총 12개의 AI 모델을 만들었다.
AI는 입력된 흉부 X선에서 척추와 늑골 같은 뼈 구조를 중심으로 특징을 추출하고, 이를 기존에 학습된 패턴과 비교해 정상, 골감소증, 골다공증 중 어떤 상태와 가장 유사한지를 판단한다.
연구팀은 여기에 더해 AI가 실제로 어떤 뼈를 근거로 삼아 판단하는지까지 확인할 수 있도록 '설명 가능성' 평가 체계를 설계했다.
뼈를 모두 가린 상태에서 특정 뼈 부위를 추가해 성능이 얼마나 향상하는지 확인하는 '차단 분석 방식'과 AI가 주목한 영역이 실제 뼈 위치와 얼마나 일치하는지를 계산하는 '유의성 지도 방식'을 통해 AI가 임상적으로 중요한 뼈 구조를 근거로 판단하는지를 정량적으로 검증했다.
그 결과 DINOv2 모델에 LoRA 방식을 적용한 모델이 가장 높은 예측 성능을 보였다. 이 모델은 뼈 구조 활용도가 가장 높고, 예측력과 설명 가능성이 균형 있게 확보된 최적 모델로 평가됐다.
또한 의료 영상 기반 모델이 항상 더 우수한 것은 아니며, 예측 성능이 높다고 해서 설명 가능성까지 함께 향상되는 것은 아니라는 점도 확인됐다.
이는 의료 AI가 실제 임상에서 활용되기 위해서는 정확도와 함께 '왜 그렇게 판단했는지'에 대한 근거 검증이 필수적임을 보여준다.
제1저자인 김재원 연구원은 "파운데이션 모델을 의료 영상에 적용할 때는 의료현장에서 신뢰받기 위한 다차원적 평가체계가 필요하다"며 "이번 연구는 그 기준을 제시한 것"이라고 설명했다.
한편, 이번 연구결과는 골다공증 및 기타 대사성 골질환 분야의 국제 학술지 'Osteoporosis International' 최근호에 게재됐다.

. .
X .
AI .
' ' . AI , .
(OpenCLIP, DINOv2) (CheXagent, RAD-DINO) .
' ' ' ' 'LoRA ' 12 AI .
AI X , , , .
AI ' ' .
' ' AI ' ' AI .
DINOv2 LoRA . , .
, .
AI ' ' .
1 " " " " .
, 'Osteoporosis International' .