구글 스트리트 뷰 이미지에 의존하는 AI 모델이 환경 요소를 잘못 해석하여 비만과 당뇨병을 줄이기 위한 잘못된 공공 건강 노력으로 이어질 수 있다는 새로운 연구가 경고합니다.
연구: 도메인 지식 없이 대량 데이터를 활용하는 것이 공공 건강 의사결정에 영향을 미친다. 이미지 제공: TippaPat / Shutterstock.com
PNAS 환경 과학 저널에 최근 발표된 연구에 따르면 인공지능(AI)과 구글 스트리트 뷰(GSV) 이미지를 도시 계획 지원에 의존하면 비만과 당뇨병 예방을 위한 공공 건강 개입에 해로운 영향을 미칠 수 있는 잘못된 결론으로 이어질 수 있다고 합니다.
AI는 도시 계획에 어떻게 사용되나요?
최근 AI의 발전은 공공 건강 및 도시 계획과 같은 중요한 분야에 이 기술을 통합하는 것을 가속화하고 있으며, 이는 지역 사회 차원에서 많은 사람들에게 영향을 미칠 수 있습니다. 예를 들어, GSV 이미지는 딥 러닝에 의한 객체 탐지와 결합되어 인구 조사 구역으로 정의된 이웃 재산과 관련된 건강 결과를 평가하는 데 사용되고 있습니다.
GSV 데이터는 식물의 종류와 같은 환경에 대한 정보와 도로망 및 건물 구조와 같은 도시 개발 정보를 제공합니다. 이 데이터는 딥 러닝을 사용하여 정신 및 심혈관 대사 질병과 2019년 코로나바이러스 질병(COVID-19)의 유병률을 겨냥한 지역 개입 방안을 마련하는 데 활용되었습니다.
그러나 AI를 사용하는 예측 모델은 허위 및 편향된 데이터를 식별하지 못하고, 이후 이러한 예측에 정보 제공을 하는 허위 상관관계를 만드는 경향 등 특정 도전에 직면해 있습니다. 이러한 문제는 노출과 건강 결과 간의 연관성을 매개할 수 있는 다른 요인이 있을 경우 더욱 악화됩니다.
연구 결과는 무엇이었나요?
현재 연구는 뉴욕시의 인구 조사 구역에서 GSV 기반 환경 특징이 비만과 당뇨병의 평균 유병률과 어떻게 상호작용하는지를 조사했습니다. 또한 이 건강 상태와 신체 비활동 간의 관계도 평가했습니다. 신체 비활동은 이 관계의 중요한 기여 요소입니다.
GSV의 데이터에 따르면, 높은 횡단보도 밀도는 낮은 질병 유병률과 상관관계가 있음을 나타냅니다. 비만에 대한 신체 활동의 영향은 당뇨병에 대한 영향보다 더 컸으며, 이는 이전 GSV 기반 횡단보도 추정치를 바탕으로 예상된 결과였습니다. 하지만 이전 연구에 비해 GSV 추정치와 건강 결과 사이에는 보도 밀도와의 연관성이 관찰되지 않았습니다.
신체 비활동 개입 vs. GSV 특징
횡단보도와 보도의 유병률이 건강 결과에 미치는 영향은 인구 조사 구역에서의 신체 비활동의 유병률 때문이었습니다. 따라서 구축 환경 자체보다는 해당 인구 조사 구역의 신체 활동 수준이 건강 결과 변화에 기여했습니다.
신체 비활동이 각 단위만큼 줄어들 때마다 비만과 당뇨병의 유병률은 각각 4.17배와 17.2배 감소했습니다. 이는 단일 단위의 횡단보도 유병률 감소와 비교된 결과입니다.
GSV 특징과 일치하지 않는 구축 환경
도시 내부 GSV 레이블에 의해 이루어진 추론의 기반인 구축 환경은 현실과 일치하지 않습니다. 예를 들어, 다리나 고속도로 근처에 보도가 없는데도 불구하고 보도로 나타날 수 있으며, 차단된 보도가 없다고 보고될 수 있습니다.
이러한 발견은 AI가 건강 결과와의 연관성을 감지하기 위해 GSV에서 파생된 특징에 의존하고 중요한 매개 변수를 알지 못함으로써 부정확한 개입 추정치를 생산할 수 있음을 나타냅니다. 따라서 모델은 구체적으로 설명되어야 하며, 이러한 특징들이 영향을 미치는 경로 또한 고려되어야 합니다. 이러한 예방 조치는 목표가 정확하게 식별되고 다양한 개입의 효율성이 적절하게 추정되도록 보장합니다.
결론
이전 연구는 질적 검토에 의존하여 지역을 비교한 데 반해, 현재 연구는 처음으로 GSV 특징과 지상 현실을 비교합니다.
연구자들은 신체 활동과 같은 매개 변수를 보완하기 위해 인과적 프레임워크를 활용했습니다. 이는 신체 비활동의 두 개의 최하 tertile에서 10%의 샘플이 개선될 경우, 비만과 당뇨병의 유병률이 각각 4.17배와 17.2배 유의미하게 감소할 것임을 보여주었습니다.
그럼에도 불구하고, 데이터의 한계 및 구축 환경, 개인 행동 및 그로 인한 건강 결과의 변화 상태는 이 자료를 공공 건강 개입에 활용할 때 신중히 명시되어야 합니다.
이 연구는 새로운 데이터 소스를 사용할 때의 강건성과 모델 사양의 중요한 문제를 강조하며, 해당 데이터가 의도된 것을 측정하지 않을 수 있으며, 중재자를 무시하면 개입 효과 추정치에 편향이 생길 수 있음을 보여줍니다.”
저널 참조: