비전이 포함된 대형 언어 모델 GPT-4(V)(GPT-4V)는 텍스트 전용 방사선학 질문에 대해서는 높은 정확도를 보이지만 이미지 기반 질문에 대해서는 훨씬 낮은 정확도를 보인다고 9월 3일 방사선학에 온라인 게재된 연구에서 밝혔습니다.
디트로이트의 헨리 포드 헬스의 닐란 헤이든(M.D.)과 동료들은 GPT-4V의 방사선학 훈련 시험 질문에 대한 성능을 조사하여 모델의 방사선학 기본 지식을 평가했습니다. 2023년 9월에 출시된 GPT-4V는 미국 방사선학회 진단 방사선학 훈련 시험에서 386개의 기 출제 질문(189개 이미지 기반 및 197개 텍스트 기반)을 사용하여 평가되었습니다. 377개의 질문은 고유한 질문이었습니다.
연구자들은 GPT-4V가 고유한 질문의 65.3%를 정답으로 제시했으며, 텍스트 전용 질문에 대해서는 이미지 기반 질문보다 유의미하게 높은 정확도를 보인 것을 발견했습니다(81.5% 대 47.8%). 텍스트 기반 질문의 경우, 프롬프트 간 차이가 있었으며, 사고의 연쇄 프롬프트가 긴 설명, 기본 프롬프트 및 원래 프롬프트 스타일보다 각각 6.1%, 6.8%, 8.9% 더 우수한 성능을 보였습니다. 이미지 기반 질문에서는 프롬프트 간 차이가 없었습니다.
저자들은 “GPT-4V가 텍스트 기반 질문에서 상대적으로 좋은 성능을 보이지만, 방사선 영상의 주요 이미지를 정확하게 해석하는 데 결함이 있음을 발견했습니다. 이는 모델의 시각적 방사선 분석에 대한 한계를 강조합니다.”라고 작성했습니다. “또한 우리는 GPT-4V가 잘못된 이미지 해석을 기반으로 올바른 진단을 제공하는 경향이 있다는 우려를 표명했으며, 이는 임상에 중대한 영향을 미칠 수 있습니다.”
자세한 정보:
Nolan Hayden et al, Performance of GPT-4 with Vision on Text- and Image-based ACR Diagnostic Radiology In-Training Examination Questions, Radiology (2024). DOI: 10.1148/radiol.240153
Francis Deng, Multimodal Models Are Still a Novice at Radiology Vision, Radiology (2024). DOI: 10.1148/radiol.242286
저작권 © 2024 HealthDay. 모든 권리 보유.
인용:
GPT-4 비전이 포함된 모델은 이미지 기반 방사선학 질문에 대한 정확도가 낮습니다 (2024년 9월 8일)
2024년 9월 8일에 검색됨
https://medicalxpress.com/news/2024-09-gpt-vision-poor-accuracy-image.html에서
이 문서는 저작권이 적용됩니다. 개인 연구 또는 학습을 위한 공정 이용을 제외하고는 서면 허가 없이는 어떤 부분도 복제될 수 없습니다. 내용은 정보 제공을 위한 것입니다.