|
□ 헬스케어 산업은 EU GDP의 10%를 차지하고 있고, 총 인구의 8%가 관련 산업에 종사하고 있을 정도로 비중이 높은 분야인 반면에 그만큼 공공 예산 부담도 큰 분야임
o 급속한 노령화와 만성질병 및 의료기술의 고비용 구조로 인해 공공 의료예산과 의료보험부담은 2060년까지 GDP 대비 1/3로 증가할 것으로 예상됨
□ 정부예산 비중이 큰 보건·의료 분야의 지속가능한 운영이 가능한 모델 개발이 절실한 상황임
o 연구에 따르면 의료 시스템의 생산성을 개선할 경우 그 비용 절감 효과는 OECD평균
GDP의 2%까지 달성할 수 있을 것으로 전망됨
o 이 수치를 유럽에 적용할 경우 2014년 기준 3,300억 유로에 해당됨
□ 정보기술은 의료 부문에 이미 상당한 영향을 끼치고 있으나(영상 자료를 활용한 의료 진단,생활 방식을 정량화한 각종 건강 산업 등), 전반적으로 빅데이터 관점에서는 다른 분야에 비해 그 적용 수준이 낮은 편임
o 2012년 Poneman 연구소가 발표한 자료에 따르면, 전 세계에서 전자적으로 저장된 데이터의 30% 이상은 헬스케어 산업에 해당함
o 현존하는 빅데이터 만으로도 충분히 그 안에 잠재된 가치를 발견해 낼 수 있다는 기대가크며, 이를 통해 시민의 건강을 비용 효율적이며 빠르고 효과적으로 실현할 수 있음
□ 빅데이터 기술이 거시적으로는 모든 산업에 적용 가능하지만, 그 중에서도 헬스케어 애널리틱스 분야가 가진 잠재력은 매우 큼
o 빅데이터 기술을 통해 질병 발생원인, 증상, 이후 경과 등을 예측할 수 있는 토대가 마련될수 있음
□ 본 이슈페이퍼는 빅데이터 기술이 기술 자체로서의 우수성이 아닌 경제와 사회에 미치는 긍정적 효과를 탐색하고 유럽 주요국의 우수사례를 분석하고자 함
□ 더 나아가 헬스케어 시스템의 접근성 강화, 품질 및 생산성 향상을 위해 구체적으로 어떤기회가 될 수 있는지 살펴보는데 유용할 것임
경제효과
□ 빠른 노령화 사회로의 진입에 따라 만성질환 치료 수요도 함께 증가하고 있음
<그림 1> 빅데이터 축적과 분석능력 확대가 가져올 수 있는 잠재력
o 85세 이상의 인구는 2020년 까지 현재의 1,400만 명에서 1,900만으로 증가할 예정이며,2050년에는 4천만에 육박할 전망임(액센추어의 2014년 조사에 따르면 유럽 내 병원의 1/3이 적자구조)
o 이는 앞으로 유럽 시민들에게 합리적인 가격의 양질의 의료서비스를 제공하는 데 많은 어려움이 수반될 것임을 의미함
□ 이러한 이유로 의료 서비스가 갖춰야 할 이상적 요건을 설명하는 『철의 삼각형 (Iron
Triangle fo Healthcare: 품질, 접근성, 비용)』의 개념을 실현하기 어렵게 됨
o (품질) 시스템의 효과성, 가치 및 결과는 헬스케어의 질적 수준을 가늠하는 척도
o (접근성) 의료 서비스가 필요한 사람에게 서비스를 제공할 수 있는지 여부
o (비용) 환자나 비용 부담자가 지불할 수 있는 수준인지의 여부<
유럽의 빅데이터 기술과 헬스케어 산업>
□ 헬스케어 산업에서 세 분야는 서로 상관관계가 있어서 한 방향에만 집중할 경우 다른 가치
들은 상대적으로 저해되기 쉬움
□ 따라서 헬스케어는 세 가지 방향을 두루 고려하면서도 점진적이고 조심스런 접근이 필요함
<그림 2> 품질, 접근성, 비용 관점에서의 의료 서비스 최적화 관점 조율
o 헬스케어는 모든 산업 중에서 가장 데이터 집약적인 분야임을 감안하면, 철의 삼각형 모델 요소를 두루 상호 보완적으로 실현할 수 있음
o 특히 이전에는 의무기록을 필두로 한 데이터가 대개 인쇄 및 활자(하드카피) 형태였으나,오늘날에는 디지털화를 통해 그 양도 늘어나고 이러한 변화에 보다 빠르게 적응하고 있는추세임
3. 기술 및 조직 문제
□ 이미 막대한 양의 헬스케어 데이터가 축적되어 있고, 그 증가 추세 또한 기하급수적이나,그 대부분은 통합되어 있지 않고, 개인이나 기관 자체 필요에 의해 따로 보관되고 있음
o 가령 단일 환자의 정보를 병원에서 보관할 경우 대개 EMR 시스템, 실험실, 이미징 시스템, 처방전 데이터베이스에 각각 분산되어 저장됨
o 따라서 기록된 정보를 일관성 있게 축적한 후 그를 통해 의미 있는 사실을 추론해내기에는 사실상 불가능함
o 이러한 점은 한 의료기관 단위에서만 발생하지 않고 의료보험업, 제약 산업에서도 동일하게 발생되고 있음
□ 오늘날 사물인터넷 장비(예: 피트니스 트래커, 혈압 모니터링 기계, 스마트 체중계)를 통해 수집되는 정보 또한 의료 관점에서는 매우 중요한 자료원이 되고 있음
o 그러나 의료기관과 연계되지 않기 때문에 오히려 정보의 중복 및 업무의 번거로움이 커지는 실정임
□ 비 구조화된 데이터(의사 소견서, 퇴실 기록, 환자 일기, 의학 논문 등)도 시민의 건강상태를 개선하는데 중요한 자료가 될 수 있음
o 장기적인 관점에서는 만성질환 증상 경감, 약물투약 감소, 병실입원 감소와 같은 긍정적인효과가 있을 수 있음
□ 헬스케어 분야가 다수를 대상으로 한 치료가 아닌 가치 기반 돌봄 모델로 전환함에 따라,각 이해관계자들이 환자들을 완전하고 정확하게 이해해야 함
o 이를 실현하기 위해서는 개별 의료기관, 특정 IT 인프라, 제약회사, 의료보험사뿐 아니라 사용자가 생성한 데이터를 통합하는 일이 무엇보다 중요시 되고 있음
o 이렇게 통합된 데이터는 단순히 각 이해관계자뿐 아니라 거시적으로 헬스케어 산업 전반에 긍정적인 효과를 가져올 수 있음(=양질의 헬스케어 서비스를 낮은 비용으로)
o 그리고 무엇보다 환자에게도 합리적인 비용을 통해 정확하고 효과적인 치료가 가능해짐
□ 그러나 이러한 변화가 현실화되기 위해서는 다양한 문제 해결이 선행되어야 하며, 그 이전에는 빅데이터 기술의 효용성을 만끽하기 어려움
o 이질적이고 분산되어 있는 데이터셋을 통합함에 있어서 따르는 기술적 이슈를 해결해야 함
o 데이터 분할 정도, 데이터 품질, 데이터 유형(텍스트, 이미지, 스트리밍, 센서 데이터, 구조형데이터 등) 등을 고려해야 하며, 관련 법률, 제도 및 처리 방식(데이터 양, 다양성, 데이터셋의 신뢰성, 데이터 수집 빈도 등)에 대한 각종 이슈들도 다루어야 함
□ 의료 연구에서의 빅데이터는 여러 범위에 걸쳐 있어서 다양하게 정의할 수 있음
o (맥킨지 글로벌 연구소의 정의) 의료 부문 빅데이터는 작게는 개인, 크게는 대규모 집단으로부터 특정 시점 또는 특정 기간 동안 수집된 많은 양의 다양한 생물학적, 임상적, 환경적, 생활습관 등 건강과 관련된 모든 정보를 의미함
o (일반적인 관점에서 빅데이터) 일반적인 데이터베이스 소프트웨어 도구에서 획득, 저장, 관리 및 분석하기 어려운 대용량의 데이터셋을 의미(datasets whose size is beyond the
ability of typical database software tools to capture, store, manage and analyse
삶의 질 향상 (질병 예방과 건강 관리)
생활습관 개선
□ 빅데이터 기술은 시민들의 생활 습관 변화를 위한 보다 효율적인 도구를 제공함
o 각종 모바일 헬스 기기는 맞춤화된 알림을 통해 건강한 운동 습관을 제안하며, 라이프스타일 데이터(식습관, 움직임, 수면)를 건강한 생활습관을 지도할 뿐 아니라 동일한 플랫폼 사용자들 간의 데이터를 비교하여(예: 오늘 나의 운동량은 상위 몇%) 동기를 부여함
질병 발병 요인 분석 및 조기 발견
□ 빅데이터 기술을 활용하여 사회적 활동, 운동량, 영양상태, 유전 정보, 환경적 요인, 심리적요인 간의 관계를 분석할 수 있음
o 위 요소들의 상호작용이 어떤 과정을 거쳐 질병으로 발전하는지는 아직 명확하게 분석되지 않은 상태임
o 다양한 마커와 정량화된 데이터를 기반으로 한 질병 조기 발견과, 위험요소 정밀 관리는 장기적으로 의료비용 절감에 기여할 수 있음
공중보건 정책 혁신
□ 대개 공중보건 정책은 시민 건강 증진을 위해 해당 행정구역 내 지역 및 사회 경제
(Socio-Economic) 분석을 통해 이루어짐
o 빅데이터 분석은 보건정책 전략 및 세부 활동 기획 시 정부의 관련 연구 지원 및 당국 활동 성과와 영향력을 측정하는데 긍정적인 역할을 수행할 것임
o 그러나 아직까지는 공중보건 관련 정부 활동의 성과를 정량적으로 측정하는 방법의 활용은 부족한 실정
□ 빅데이터를 활용한 공중보건 사업 효율성 향상에 따르는 장애요인은 다음과 같음
o 데이터 보호 관련 규정에 따라 헬스케어 솔루션 및 서비스 공급자들의 분석에는 한계가 있음
o 공중 보건 기록은 대개 비 정형화된 텍스트 형태로 구성되어 있음
o 상호 운용성, 데이터 품질, 데이터 통합 수준이 크게 미흡함
o 현존하는 시스템은 빅데이터 구조 도입 및 관리를 위한 확장 가능성(scalability)이 부족함
-전염병 예방 및 대응
□ 지난 몇 년간 의료 기관(병원, 보건센터, 실험실 등)에서 뿐 아니라 일상생활에서도 첨단 장비
(센서, 모니터링, 사물인터넷 장비, 소셜 네트워크 등)를 통해 관련 데이터 수집이 가능해짐
o 이른바 소셜 환경을 통해 수집된 이러한 데이터는 공중 보건의 질적 향상에 지대한 기여를 함
o 소셜 네트워크, 포럼, 채팅, 소셜 센서, 사물인터넷 장비, 감시 장비, 가상현실 플랫폼 등이 대표적 예라고 할 수 있음
□ 이러한 일상 정보(예: 웹 검색)는 전염병 발병 발생 경로나 원인을 파악하고 이를 토대로 빠른 정부/사회 차원의 대응이 가능하게 함
o ARGO모델의 경우 구글을 포함한 다양한 자료원을 활용하고 있어서 인플루엔자 발병 예측모델 개발이 가능함
o 트위터나 페이스북 메시지를 통해서도 다른 플랫폼에서 제공하는 활동(여행, 구매, 기후변화 정보)과 연동하여 질병 확산을 억제하고 개별 환자에 대한 대응 및 정보제공이 가능함
o 이를 통해 정부 당국은 인플루엔자나 박테리아 창궐 조기 파악, 격리/검역소 구성 및 백신 처방과 같은 발 빠른 대응이 가능할 것으로 기대함
-헬스케어
정밀 의료
□ 유전, 질병, 치료 및 그 결과에 대한 데이터 수집과 분석은 최적의 치료 기법 적용이라는장점 이외에도 불필요한 의료행위로 인한 환자의 부담·위험 경감과 치료 효율성 증가의 효과가 있음
o 장기간에 걸친 환자의 생활환경, 질병 이력, 생활 방식 관련 데이터 수집은 궁극적으로 질병 발병 확률을 낮추는데 기여함
<유럽의 빅데이터 기술과 헬스케어 산업>
o 이러한 정밀 의료를 가능케 하는 기술 중 하나가 바로 고성능지놈분석(High Performance Genome Analysis)임
□ 막대한 양의 유전 정보가 가용케 됨과 동시에, 치료를 위한 새로운 분석 알고리즘도 개발이 가능할 전망임
o 환자의 전체 지놈 정보를 비교 분석 후 다른 일반 비 환자군에 대조할 수 있게 됨
o 특히 전 세계에 분산되어 있는 다수의 기관에서 대용량 지놈 데이터 베이스를 연결할 경우 희귀질병에 대한 연구도 가속화시킬 수 있을 것으로 기대됨
o 이러한 애플리케이션 구성은 각처에 분산형 데이터 구조를 지원해야 하며, 막대한 용량의컴퓨팅 파워가 필요하기 때문에 단기간에 확보되기에는 많은 어려움이 있음
환자 진료 결과 수집 및 가치 기반 총 소요 비용 분석
□ 지속가능한 헬스케어의 기본 원칙은 『가치기반 헬스케어(value based health care)』로, 환자 치료에 발생하는 총 비용을 제시할 수 있어야 함
o 헬스케어 분야에서 고객의 비용 지불 능력은 서비스 공급자들로 하여금 서비스 수준 및효율성을 향상시켜야 할 중요한 근거가 될 수 있음
o 이를 실현하기 위해서 데이터 수집, 분석, 축적 과정에 각 치료단계(care-path) 및 비용 정보를 포함해야 함
□ 그러나 현실적으로 치료 전 단계에 해당하는 데이터를 일괄적인 플랫폼 안에서 수집하는것은 사실상 불가능할 수 있음
업무절차 간소화
□ 제조업 프로세서는 일반적으로 경우의 수가 예측 가능한 형태인 반면 의료 현장은 그 역동성으로 인해 수많은 인과관계가 얽혀 있음
o 환자의 상태, 환자의 요구사항, 다양한 세부 전공, 인력 등 고려해야 할 사항들이 매우 다양하며 이렇게 복잡한 상황에서 업무절차 간소화를 추진하는 일이 간단할 수는 없으나 병원 관리 측면에서 전반적인 상황을 효율적으로 조율하는데 기여할 수 있음
o 실시간 추적 시스템, 전자 의무기록, 환자 관리 시스템, 환자 모니터링 정보, 실험/임상 데이터, 기계 로그에서 수집된 정보를 빅데이터 플랫폼에 축적할 경우 생산성 및 의료서비스품질 향상에 기여할 수 있음
감염 예방 및 통제
□ 감염통제(infection control)는 원내감염(HAI), 헬스케어 관련 감염을 방지하는 모든 활동을의미함
o 유럽 질병예방통제센터의 통계에 따르면 유럽 내 매년 원내감염 또는 유사한 형태의 감염발생은 10만 건에 달하며 이로 인한 직접 피해자는 최소 3만 7천여 명인 것으로 집계됨
o 미국의 경우 원내감염자수는 2011년 당시 72만 2천명으로 추정되었으며, 그중 7만 5천여명은 그로 인해 사망한 것으로 집계됨
□ 원내감염의 20-30%는 위생관리 및 통제 시스템을 통해 막을 수 있을 것으로 예상됨
o 미국에서는 원내감염만 예방해도 연간 250-320억 달러 절감이 가능한 것으로 분석됨
□ 감염 발생을 최소화하기 위해 세계 보건기구는 가이드라인을 발표한 바 있음
o 그 중 일부는 매우 간단하고 쉬운 반면 어떤 내용은 아직 기술 수준 미흡으로 이행하기 불가능함
o 실시간 빅데이터 기술은 유전 정보 및 감염 정보를 통합 분석할 수 있기 때문에 감염 확산 예방 및 예측에 기여할 수 있음
사회적 관점의 질병 대응
□ 세계 보건기구는 헬스케어가 단순한 의료행위 아닌 통합 돌봄(integrated care)의 관점에서 아래와 같은 정의를 내림
o 통합 돌봄은 의사를 비롯한 관련 종사자들이 환자의 퇴원 이후에도 지속적인 관리와 도움을 제공한다는 의미임
o 이는 환자와 관련된 데이터를 위한 새로운 영역을 정의할 수 있게 됨: 즉 돌봄 과정에서 발생하는 데이터를 통해 비효율성을 제거하고, 최적화된 치료 기법을 제시할 수 있게 됨
환자 지원 및 참여
□ 의료행위 중간 및 이후에 환자로부터 수집하는 데이터 이외에도 환자에게 권한을 부여하고 참여를 유도하는 방법도 있음
o 가령 의사가 환자에게 다양한 치료 방법을 제시할 경우 데이터를 기반으로 함께 의사결정에 참여할 수 있음
o 이 경우 환자가 자신의 데이터를 적절하게 관리할 수 있어야 하며, 정보 자체도 환자가 쉽게 이해할 수 있고, 디지털 기술 또한 활용이 어렵지 않도록 조정될 필요가 있음
o 가령 환자들이 사용하는 웹 포럼은 질병 관련 정보, 투약, 대응 전략 등이 제시되어 있으며, 통상적인 병원 진료행위를 보완해 주는 역할을 수행함
o 최근 연구에 따르면 웹 포럼 게시물이 의료연구를 위한 가설 설정 및 검증에 중요한 자료로 사용되고 있음이 증명됨
□ 그 밖에 크라우드 소싱이나 검색 로그 분석, 인공지능 기반 챗봇 등은 새롭고 혁신적인 정보 수집 방법으로 각광받고 있음
공동 의사결정
□ 환자의 의사결정 참여로 이해 환자는 자신의 상태에 대한 보다 깊은 이해를 할 수 있음
o 이러한 관점에서 환자는 자신의 데이터를 통해 통찰력을 가질 수 있으며, 이는 질병 단위의 의료행위가 아닌 사람(환자) 중심의 돌봄이 가능케 됨을 의미함
o 라이프스타일 데이터는 기본적으로 환자들에게 보다 높은 참여와 동기를 제공하기 때문에궁극적으로는 의약품 구매 비용을 줄이는 효과도 있음
홈 케어
□ 전문 의료 정보 기록 및 추적 이외에도 개인 의료 정보는 병원과 의사에게만 국한되어서는 안 됨
o 인구통계학적 변화에 따라 집 돌봄, 원외 돌봄을 위한 새로운 모델이 개발되어야 함
o 빅데이터 기술은 일반적인 ICT 기반 변화의 근간이 됨: 스마트홈, 웨어러블 장비, 임상 데이터 및 바이탈 사인 측정 등을 하나로 통합하면 집 돌봄 서비스 제공자들은 원격 진료및 상담이 가능
o 환자들의 입장에서는 건강한 삶을 스스로의 의지에 따라서 증진할 수 있다는 동기를 부여해줌
임상 연구
□ 막대한 양의 건강 데이터 통합과 분석은 의무기록, 소셜미디어 데이터, 의약품 데이터베이스 및 모든 형태의 의학(유전학, 단백질유전학, 대사체학) 정보를 대상으로 하며, 궁극적으로 증거기반 의료에서 정밀의료로 변화할 수 있는 동력이 됨
□ 빅데이터는 임상연구 수준을 아래와 같은 방법으로 향상시킬 수 있음
o 이질적인 데이터, 새로운 바이오마커 발견, 의약품 효능 간의 숨어있는 패턴과 연관관계를 발견하고 예방적 질병 진행모델 개발이 가능함
o 전통적인 임상 실험 기법에 실세계 데이터 분석을 추가하여 새로운 형태의 개인화 의료서비스의 기회 마련: 이 때 고급 통계 모델을 사용하여 대용량 관측 데이터 내 상관관계 분석이 중요함
□ 다양한 형태의 임상연구 데이터 사용을 위해서는 FAIR로 요약되는 4개 원칙이 준수되어야 함
o Findable, Accessible, interoperable, Reusable - 검색, 접근, 상호운용, 재사용 가능
o 이를 위해 월드와이드웹 컨소시움(W3C)는 헬스케어 및 생명과학 분야 상호운용성 가이드라인을 개발해 왔음
헬스케어 데이터 운영상의 어려움
□ FAIR 원칙 이외에도 데이터 보안 및 개인정보 보호의 중요성이 큼
o 의도하거나 의도하지 않은 데이터 공개(예: 의무기록, 라이프스타일 데이터, 건강상의 위험)와 관련된 유럽 국가들의 각종 규제는 현재 매우 까다롭기 때문에 데이터 통합, 수집및 분석에 많은 어려움이 있음
o 사회의 필요를 최대한 반영하기 위해 일반시민, 연구소, 의료기관, 보험사, 헬스케어 서비스 공급자, 기업을 포함한 각종 이해관계자가 두루 참여할 필요성이 큼
□ 현재도 특정 부문에서 분석이 가능한 자료원이 존재하고 있으나 영역 간 다른 데이터베이스 또는 자료 저장소가 있어 이해관계자로 하여금 의료분야 빅데이터 분석의 잠재력을 최대한 살리는 데는 아직 미흡한 실정임
□ 따라서 모든 데이터 분석 단계마다 영역별 전문가들과 데이터 분석가들의 긴밀한 협력이우선시 되어야 함
데이터 보안
□ 디지털화 및 네트워크를 통한 연결성이 증가됨에 따라 다양한 원천에서 확보한 데이터베이스를 결합하고 접근할 수 있는 기회가 많아짐
o 따라서 환자 데이터나 시민의 활동을 통해 보다 많은 정보와 통찰력을 추론할 수 있게 되었으나, 한편으로는 다양한 이해관계자들이 이러한 새로운 발견을 빌미로 데이터를 오용할수 있는 기회도 함께 많아짐
o 따라서 데이터가 어떻게 이동하는지(where the data goes to), 누구에 의해 사용되는지(bywhom it is used), 어떤 목적으로 사용되는지(for what purpose)에 대한 의문과 회의적 시각도 함께 존재하고 있음
o 이러한 문제 해결을 위해 유럽연합 회원국 및 다수의 기관들이 노력하고 있으나 해결이쉽지 않음
□ 1995년에 제정된 데이터보호지침(Data Protection Directive)에 이어 2016년 4월에 제정된 일반데이터보호규정(General Data Protection Regulation, GDPR)은 유럽연합 회원국 간의 데이터 관련 규정을 조율할 수 있는 근거임
o 일반데이터보호 규정은 회원국별 법령에 맞게 해석될 필요 없이 즉각적으로 적용되도록효력을 가지고 있음
o 2018년 중순까지 이에 맞게 공공 및 민간 분야에 자체 법령을 조정토록 권고함
□ 이는 회원국들의 민감한 데이터(sensitive data)로 분류된 항목들에 대한 자체 규정 제정을위한 지침이 됨
o 그러나 이는 회원국이 각자의 상황에 맞게 조항을 추가하거나 예외를 두는 것을 금하지않음으로 유럽연합 회원국마다 의료데이터 보완 관련 규정이 조금씩 상이함.
o 따라서 의료부문 EU 디지털 단일시장의 실현을 위해서는 국가별로 상이한 의료데이터 보안 관련 규정들을 조율하여 비슷한 수준으로 만드는 것이 필요함
□ (데이터 보호를 위한 하향식 접근) 의료 데이터는 많은 도전과 기회를 제공할 수 있음: 데이터를 통해 보다 향상된 임상 결과, 맞춤화된 치료 행위, 질병 관리, 삶의 질 향상이 가능함
o 그러나 개인 의료 데이터는 그만큼 법적, 윤리적 측면에서 조심스런 접근이 수반되어야 함
o 데이터의 잠재력을 최대한 사용하기 위해서 의료(유전정보 포함) 정보 공유 및 사용에 대한 명확한 책임구조를 설계하는 것이 중요함
o 이러한 관점에서, 무제한 데이터 공유나 데이터 보호에 대한 반대 운동은 매우 위험할 수 있음
o 데이터 공유는 개인, 사회 모두에게 이익을 가져다주어야 하며, 장려되어야 하나 그만큼기술적, 조직적으로 개인정보 유출 위험에 대한 대비책도 충분히 고려되어야 함
□ (데이터 보호를 위한 상향식 접근) 데이터 보호를 위해 기업이나 시민들이 자발적으로 참여하는 모델도 존재함
o 가령 데이터 공개 여부를 사용자가 직접 조정할 수 있는 소셜미디어 정책이나 연구를 목적으로 사용자의 동의를 받은 상태에서 이뤄지는 데이터 수집(예: 패시브 센싱)이 있음
o 사용자들의 데이터 수집과 사용에 대한 책임소재, 투명성 및 자동화를 통해 새로운 결과를취득할 수 있을 것으로 예상됨(예: 알고리즘 추론 기반 의사결정, 기계 자율 행위
기술 과제
데이터 품질
□ 의학 및 제약 부문에서 신뢰성이 높은 데이터 즉, 데이터 수집 경로, 조건, 처리 및 변환 방식이 명확하게 정의된 데이터를 저장할 수 있게 되면 분석이나 실험의 재현이 가능하게 됨
o 이는 많은 비용이 소요되지만, 새로운 분석 방법론이 빠르게 나타나고 있는 현 추세에 맞춰 높은 신뢰성의 데이터를 확보하는 것이 매우 중요함
데이터 양
□ 의료 산업은 치료와 각종 의료적 행위에 대한 데이터와 분석 활동 의존도가 높은 이른바지식 기반 산업이라고 할 수 있음
o 치료기법, 유전 정보, 행동, 환경, 재무, 운영 등의 데이터가 생산되고 있지만, 그 중에서도헬스케어 관련 데이터의 양은 다른 부문보다 그 증가 추세가 뚜렷함
o 막대한 용량의 데이터와 그 증가 속도를 적절히 다루며 헬스케어 서비스의 질적 향상을가능하게 하는 기술이 요구되고 있음
o 빅데이터 분석을 통해 환자와 의료인을 보다 깊게 이해할 수 있는 기화가 될 수 있으며,기존의 관련 제품과 서비스를 개선하고 새로운 형태의 치료 방법 제안 또한 가능함
다중 모드 데이터
□ 헬스케어 데이터는 다양한 자료원에서 확보할 수 있음
o 전자 의무기록, 환자 요약정보, 유전 정보, 제약/처장 정보, 임상실험 결과, 이미지(엑스레이, MRI 등), 보험 기록,(원격 의료 솔루션, 모바일 앱, 스마트 홈 솔수션, 실시간 센서, 진행중인 임상 실험 기록), 사회경제적 지표 등이 있음
o 다수의 자료원을 통해 수집한 헬스케어 데이터는 보다 나은 임상 의사결정, 질병 관리를위한 새로운 방법론 등을 제시할 수 있음
o 예를 들어, 다양한 출처의 데이터를 통합 및 분석하여 다른 표현형(phenotypes) 간의 연관
성에 대한 연구를 수행할 수 있음. 또한, 특정 질병 위험인자 예측이 가능함.
o 기존에는 통계와 임상실험에 대한 의존도가 높았으나 이렇듯 자동화된 분석도구와 개인화된 의료를 통해 연구 절차가 단순해 질 수 있음
o 그러나 다중 모드 데이터의 통합과 분석은 상호운용성, 머신러닝, 마이닝(mining) 등의 기술적 문제점들을 극복해야 한다는 어려움이 있음. 다양한 데이터 자료원의 통합은 한편으로는 법적 또는 실질적인 표준(standard)과 데이터 통합 도구(tools)를, 다른 한편으로는 정형화된 데이터와 비정형화된 데이터(음향, 이미지 등)를 통합할 수 있는 기술을 필요로 함
□ 독일의 경우 의사들과 보건 기관들이 사용하는 표준인 xDT famliy of standards이 폭넓게사용되고 있으나 국제적으로 널리 사용되는 데이터 활용 플랫폼인 HL7 프레임워크나,FHIR(Fast Healthcare Interoperability Resources)과는 전혀 공유가 되지 않음
□ 이러한 매핑 스키마가 없을 경우 빅데이터 분석 솔루션은 현존하는 의료 분석 업무와 통합되기는 사실상 불가능함
데이터 공유
□ 의료데이터 분석을 통해 헬스케어 서비스의 질적 향상은 가능하지만, 다양한 기관과 국가사이의 의료 데이터 공유를 제한 없이 개방할 수는 없음
o 정치적인 이유 이외에도, 윤리 및 정서적인 장벽이 여전히 존재하고 있음. 무엇보다 개인이 자신의 질병상태를 타인에게 공개하는 행위 자체에 대한 심리적 저항이 크며, 이를 통해 타인이 수익을 거두는 행위 또한 받아들여지기 어려움
o 이러한 이유로 현재에도 의료 데이터는 같은 기관, 심지어는 같은 기관 내 다른 부서끼리도 공유되지 않는 경우가 일반적임
□ 빅데이터의 활용을 하향식으로 접근하는 방식은 아직 일반적이지 않으나, 상향식 접근 시도는 여러 차례 있음
o 상향식 접근은 환자 중심의 데이터 관리 철학을 기반으로 환자가 자신의 데이터를 직접 접근하고 관리할 수 있도록 기획하는 것을 의미하며, 환자 스스로 데이터 공개의 범위, 대상, 목적을 정할 수 있음
o 예를 들어 PatentLikeMe와 같은 소셜 네트워크 서비스는 환자들이 주도적으로 참여하는플랫폼으로 같은 증상을 경험하는 사용자 간 정보를 공유하고, 의료기관과 연결하여 데이터 분석을 위한 플랫폼 역할도 수행함
PGHD
□ Patient-generated health data (PGHD)는 건강 관련 사안을 설명하기 위해 환자(또는 가족구성원이나 관련자)를 통해 수집되거나 기록된 건강 관련 데이터를 의미하며, 여기에는 건강 이력, 증상, 생체 정보, 치료 기록, 생활습관 등이 두루 포함되어 있음
o 관리 주체가 환자라는 점에서 병원에서의 치료나 관리를 목적으로 수집되는 데이터와는차이가 있음
o 대개 장기적으로 보관되는 경우가 많으며, 환자들을 치료 및 관리에 동참하게 하기 때문에만성 질병 개선에 효과가 있다는 것이 입증된 바 있음
□ 헬스케어 서비스 제공자와 일반 환자와의 정보 격차를 줄여준다는 점에서도 중요함
o 단발성 병원 방문이 아닌 맞춤형 실시간 상시 질병 관리를 위한 기반이 될 수 있음
o 부정맥, 울혈성 심부전, 당뇨병과 같은 주요 만성질환 모니터링 및 관리에 특히 유효하며,환자 자신에게도 예방적 차원의 건강관리에 대한 필요성과 동기를 제공함
□ 그러나 데이터 프로비넌스(Data Provenance, 데이터의 출처 및 근원정보 추척 및 저장) 에대한 우려가 상존하며, 이를 해소하기 위해서는 개선된 데이터 전송 인프라 구축이 필요함
사용성 / 배치 방법론
□ 빅데이터가 가진 높은 잠재력에도 불구하고, 데이터 처리, 관리, 분석을 어떻게 착수할지 막연할 수 있음
o 이 잠재력을 자산화하기 위해서는 전담 정보화팀이 구성되어야 하며, 비즈니스 리더들은전략과 핵심 목표 등을 세워야 함. 또한, 이미 직면하고 있는 문제들뿐만 아니라 향후 새로운 자료원을 통해 공급될 데이터를 다루면서 발생하게 될 문제들까지 고려해야 함.
o 특히 정보화팀은 최적의 소프트웨어와 하드웨어 솔루션을 확보하는 것에서부터 데이터 흐름 매핑, 관리/비관리 데이터 분류, 관련 규정 수립, 데이터 이용 사례 분석, 원하는 결과도출을 위한 알고리즘 설계에 이르기까지 다양한 영역을 다루어야 함
o 데이터 관리 정책 수립과 함께 빠르고 높은 성능을 발휘하기 위한 인프라 구축 방안과 데이터 분석 결과를 소비자에게 쉽고 효율적으로 전달할 수 있는 방법에 대한 점도 고려해야 함
플랫폼, 서비스, 인프라
엑사스케일 컴퓨팅
□ 빅데이터 플랫폼 운용을 위해서는 강력한 컴퓨팅 성능을 요하는 소프트웨어, 도구 및 알고리즘이 필요함
o 1초에 10억개의 연산이 가능한 엑사스케일 컴퓨팅 환경은 오늘날 가장 빠른 컴퓨터보다 100배 빠른 초고성능 컴퓨터로, 막대한 양의 임상 및 유전자 데이터를 다루고 3D 멀티 스케일 시뮬레이션을 통해 질병 발병 예측 및 새로운 치료법 개발에 사용 가능함
인프라
□ 방대한 양의 새로운 데이터의 흐름을 관리하고 활용하기 위해서는 빅데이터를 특징 짓는 4가지 관점을(volume, variety, veracity, velocity) 충족할 만한 인프라 구축이 중요함
o 안정적이며 신뢰성 높은 인프라는 단순히 IaaS(Infrastructure as a Service) 수준에 그치지않고 다른 플랫폼과 서비스의 보급의 기반이 됨
o 가상화, 클라우드 컴퓨팅으로 인해 대용량 데이터를 효율적으로 확보, 저장 및 사용이 가능해졌으나, 여기서 그치지 않고 미래 헬스케어 데이터로의 확장을 염두에 두어야 함
o 오늘날 클라우드 인프라는 빅데이터 활용에 적합하며, 관련 기술(Hadoop, MapReduce,
MongoDB, Cassandra, Lucene 등)들도 이에 맞추어 발전하고 있음
□ 그러나 아직 이를 충분히 만족시키기 위해서는 몇 가지 사항이 보완되어야 함
o 많은 애플리케이션과 플랫폼이 클라우드 인프라를 기반으로 직접 서비스 형태로 사용
(SaaS/PaaS)되고 있으나 확장성이나 분산형 컴퓨팅, 비전통적 데이터베이스 지원, 인프라간 상호 운용성 등의 이슈에 대해서는 아직 유연하지 못함
o 따라서 확장성 강화, 인프라 상호운용성 증대, 대용량 병렬 컴퓨팅 환경 지원, 다양한 애플리케이션 지원(예: 머신러닝 알고리즘, 이미지/언어/미디어 패턴 인식, 인공지능 기술, 시맨틱 기술, 3D 시각화 등)이 가능하도록 현재 클라우드 인프라에 보다 많은 투자가 필요함
o 더 나아가 헬스케어 분야의 경우 빅데이터 인프라와 관련된 특수한 요구사항 많기 때문에이를 고려할 수 있어야 함(예: 각종 규제 및 데이터 신뢰성 문제
□ 현재 헬스케어 관련 다양한 플랫폼과 인프라가 존재함
o 필립스 『HealthSuite Digital Platform』이 대표적인 예로, 클라우드 기반 커넥티드 헬스케어 인프라를 제공함
o 임상 및 의료장비 기기의 데이터 수집, 통합, 분석이 가능하며 개인맞춤형으로 효율적인 서비스를 제공할 수 있음
o 서비스 제공자나 개인이 건강 데이터, 환자 상태 등 열람할 수 있으며, 가정과 병원에서수집된 데이터가 자체 알고리즘을 통해 분석되어 건강 패턴과 트렌드를 파악한 후 최종적으로 의료진의 결정과도 연계됨
□ 유럽연합집행위가 발족한 유럽 클라우드 이니셔티브(European Cloud Initiative)는 클라우드컴퓨팅의 중요성을 강조하고 있음
o 유럽 개방형 과학 클라우드(European Open Science Cloud) 구축을 제안하여 유럽 내 과학기술 커뮤니티로 하여금 과학연구 데이터 및 결과를 자유롭게 저장, 공유, 재사용이 가능하도록 함
o 유럽 데이터 인프라(European Data Infrastructure) 구축을 제안하여 범 유럽 수퍼컴퓨팅 인프라 개발을 시도하고 있음
데이터 통합
데이터웨어하우스와 온톨로지
□ 다양한 자료원에서 수집된 다양한 형태의 데이터는 빅데이터 저장소나 데이터 웨어하우스에 저장됨
o 추출, 변환, 적재(ETL)의 3단계를 거치며, 이 과정에서 의료 데이터는 다양한 자료원을
거쳐 정제됨
o 이 과정에서 시맨틱 웹 기술과 온톨로지 방법론은 데이터의 개념을 정의하고 매핑을 가능케 함
o 따라서 표준 온톨로지의 활용은 이종 애플리케이션 사이의 협업, 공유, 모델링을 용이하게 함
상호 운용성 표준
□ 데이터 중심의 헬스케어 환경에서 상호운용성과 표준은 데이터의 잠재력을 충분히 활용하기 위한 핵심임
o 그러나 데이터 단편화 및 개별 정보시스템에서 생성된 다른 포맷으로 인한 어려움이 상존함
o 결국 영역(임상 활동, 간호 활동, 교육, 행정)간 조율되지 않은 데이터 관리 정책은 빅데이터 가치사슬 구성에 많은 노력을 필요케 함
o 따라서 개방형, 고상호운용성, 환자 중심의 데이터 환경은 개방형 표준 제정과 혁신 촉진의 동력이 됨
전문용어 분류체계
□ SNOMED, ICD분류, UMLS(Unified Medical Language System)의 일부인 MeSH(Medical
Subject Headings) 메타 시소러스 등으로 다양함
o 빅데이터 분석 시스템은 언어 간 인덱싱 및 정보 수집 시나리오를 처리 할 수 있어야 함
o Allotroupe 재단(http://www.allotrope.org/)은 실험실 분석 업무를 위한 전문용어 공동
표준화와 파일형식을 개발 중에 있음
o 특허 데이터의 경우 기술적인 문제 뿐 아니라 법규나 관련 규제로 인해 데이터 공유가 극도로 어려움
o 또한 상이한 언어는 자료 공유와 이에 따른 추가 비용을 요구함: ICD나 SNOMED-CT같은의학정보 시스템은 제한된 다국어 표기만을 사용하도록 규정함
□ PGHD 분야는 기본적으로 Continua Health Alliance 나 the consolidated care document
(CCD)와 같은 기본 표준 프로파일이 제정되어 있으나 아직까지 뚜렷한 산업용 표준이 자리 잡지 않은 상태임
o 이러한 이유로 각각 다른 공급업체(예: Fitbit 스마트 밴드)마다 독자적인 아키텍처를 사용하고 있어서 한 명의 환자가 다른 장비를 가지고 있을 경우 상호 운용성은 매우 낮은 수준이 될 수밖에 없는 실정임
□ 전자의무기록도 현재 산업용 표준이 마련되어 있지 않은 상태라서 특정 벤더의 플랫폼에귀속되기 쉽기 때문에 빅데이터 플랫폼 구축 시 많은 비용과 시간이 소요될 수 있음
o HL7(Health Level Seven)과 같은 산업 표준 기관에서는 이러한 이슈를 해결하고, 특히
PGHD의 수집, 확보 및 상호운용성 보장을 위한 표준화된 의료정보시스템 도입을 위해 노력하고 있음
□ 헬스케어용 IT 표준과 의학 전문용어를 위한 용어 통일 및 그룹간 표준 시도는 존재하고
있으나, 가능하면 모든 이해관계자(환자, 서비스 공급자, 전자의무기록 솔루션 업체, 애플리
케이션 개발자 등)들의 요구사항을 포용할 수 있는 전혀 새로운 형태의 표준이 마련되어야
할 필요성 큼
o 헬스케어 관련 정책과 표준이 지금도 꾸준히 변화하고 있기 때문에 이에 대응하면서도 최신 기술을 담아낼 수 있어야 함
- 데이터 애널리틱스
머신러닝 및 강화학습
□ 다수의 헬스케어 애플리케이션은 이미지, 신호, 영상, 3D 모델, 유전정보 등의 다중 모드 데이터 처리 및 분석 기능을 포함하고 있음
o 고급 머신러닝 시스템은 다양한 자료원을 통해 수집된 정보들 간의 상관관계 분석을 통해 단일 자료원에서는 알 수 없는 의미 있는 정보를 찾아낼 수 있음
o 가령 이미지의 특성정보(예: CT 스캔, 방사선 촬영)와 텍스트(진료기록)를 결합하면 보다 적합한 진료 방법을 도출할 수 있음
□ 다양한 자료원에서 확보한 데이터의 결합은 유전적 관점만으로는 규명할 수 없는 표현형 연구를 가능케 함(예: 질병 또는 위험인자 파악)
o 이러한 발전은 빅데이터 기반 자동 유전정보 분석도구나 개인 맞춤형 의료 발전에 크게 기여할 수 있음
□ 스마트폰 앱을 통해 수집한 라이프스타일 분석은 생활습관에 잠재된 질병 위험요소를 파악하고, 이를 조기에 대응할 수 있는 통찰력을 제공함
o 특정 장비에서 가능한 활동정보, GPS 추적, 감정 기록 등은 기존의 의료체계에서는 사실상 불가능했던 영역임
o 이 정보들은 학습/추천 시스템을 통해 환자 모니터링 및 질병 관리를 위한 대응 방법을추천하는데 활용 가능함
□ 강화학습은 지난 몇 년간 빠르게 부상하고 있는 머신러닝의 한 분야로 시행착오
(trial-and-error) 과정을 거쳐 학습하는 방식임
o 잘 알려진 딥 마인드 사의 알파고(AlphaGo) 시스템이 가장 대표적이며, 이를 헬스케어 영역에 적용할 경우 만성질병을 포함한 다양한 질병 원인과 해결책을 찾아내는데 기여할 수
있을 것으로 기대됨
지식 기반 접근
□ 시맨틱 웹 기술의 도래와 함께 기술 논리(description logics)는 지식 표현 및 추론을 위한중요한 패러다임으로 자리 잡음
o 의학 중에서는 종양학(oncology)이 온톨로지를 통해 지식 베이스를 사용하여 복잡하고 난해한 정보를 효율적으로 구조화하고 표현할 수 있음이 검증된 바 있음
o 그 밖에 복잡한 데이터 형태(그래프 등)를 인간이 쉽게 이해할 수 있는 형태로 도식화가 가능함
딥러닝(Deep Learning)
□ 딥러닝은 여러 비선형 변환기법의 조합을 통해 다량의 데이터 속에서 핵심적인 내용 또는기능을 추출하여 단순하고 낮은 수준에서 높은 수준의 개념을 학습하는 머신러닝 방법론의집합으로 정의될 수 있음
o 딥러닝 알고리즘의 장점을 의료 분야에 적용할 경우 영상, 이미지, 텍스나 기타 비구조적정보 등과 같은 매우 크고 복잡한 데이터를 다룰 수 있게 됨
o 영상의학(방사선학, 병리학)의료 전문가들의 경우 이러한 이미지를 통해 보다 많은 지식을획득할 수 있음
□ Deep Restricted Boltzmann Machines, Deep Belief Networks, Convolutional Neural
Network, 인공신경망(Artificial Neural Networks)등이 각광 받고 있음
o 현재 딥러닝 방법론은 대용량 데이터셋을 분석할 수 있는 알고리즘의 향상과 고성능 컴퓨팅 기술을 통해 가능케 됨
o 음성인식, 자연어 처리, 이미지 분석과 연동되어 의학 발전에 많은 기여할 수 있을 것으로기대됨
실시간 분석
□ 응급실 알람, 응급의료 기기와 같이 위급한 상황에서 사용되는 장비들은 무엇보다도 실시간으로 중요한 정보를 분석, 처리 및 전송할 수 있어야 함
o 실시간 분석(Real-time analytics)은 실시간으로 시스템에 유입되는 모든 가능한 자원과 정보를 분석하고 중요한 지식을 추출할 수 있는 기술
o 데이터 스트림 마이닝(Data stream mining)은 데이터를 저장하여 추후 활용하기 보다는
실시간으로 처리하고 분석하는 기술임
o 복합 이벤트 탐지(Complex event detection) 기술은 마찬가지로 실시간 연속적인 데이터를효율적으로 처리하기 위한 방법으로, 데이터 간의 상호 연관성을 분석하고 빈발항목을 탐지하여 유용한 정보를 사용자에게 전달할 수 있도록 돕는 기술임
임상 추론
□ 사람이 직접 입력한 자료를 사용하여 의료 의사결정을 해야 할 필요 있음: 텍스트, 음성입력, 의무기록, 의료 온톨로지 등
o 인지과학, 신경분류학, 신경생물학 등의 발전은 데이터 처리를 위한 대용량 멀티 레이어,비 무작위 네트워크 등을 시뮬레이션 할 수 있는 수리 모델을 탄생시킴
o 임상 추론은 이를 기반으로 머신러닝, 자연어 처리, 시맨틱 추론, 통계적 추론, 퍼지 로직,이미지 처리, 신호 처리, 뉴런 사이의 시냅틱 커뮤니케이션등을 폭넓게 다룰 수 있음
o 이 중에서 핵심이 되는 인공 신경망 네트워크와 자율학습 기법은 사람이나 동물의 인지시스템을 모사하여 숨겨진 연결고리를 규명하는데 큰 도움이 됨
사용자 주도 데이터 처리
□ 시민 데이터 과학(Citizen Data Science)으로 대두되고 있는 개념으로, 일반 사용자들이 최신 분석 솔루션을 사용하도록 장려하는 것을 말함
o 특정 통계, 데이터 처리, 분석 방법에 대한 깊은 지식 없이도 각 분야 전문가(의사, 병원행정직원, 생물학자 등)인 사용자들에게 손쉬운 분석 도구(tools)이나 비주얼 인터페이스의 사용이 가능하도록 함
o 스스로가 직면한 연구와 업무 관련 문제를 이러한 도구를 통해 해결하면서 보다 수준 높은 관련 지식을 학습하여, 질병이나 보건 관련 통찰력을 확보하도록 함
자연어 처리 및 텍스트 분석
□ 텍스트 형태의 데이터는 그 복잡성으로 인해 이미지나 영상과 같은 소위 비정형 데이터 범주에 속함
o 정보 검색, 텍스트 분석 기법의 발전은 정보 탐색을 용이하게 하고 있음
o 텍스트 분석은 넓은 범위에서 보면 계산 언어학이나 컴퓨터 과학의 영역에 속하며, 그 중 머신 러닝과 통계 모델 활용은 텍스트 분석 영역에서 주된 기법으로 자리 잡았음
□ 헬스케어 빅데이터 영역에서는 텍스트 분석을 텍스트 마이닝, 텍스트를 통한 정보 및 지식발견과 동일한 범주로 분류할 수 있음
o 세부 분야로는 언어적 분석, 개체 인식, 공동 참조 인식, 상호참조, 관계 추출, 의견 및 감성 분석 등으로 나눌 수 있음
o 관련 솔루션으로는 Metamap, Apache cTAKEs, NCBO Annotator 등이 가장 대표적이며,
지금까지 이 분야에는 막대한 양의 연구가 진행되어 왔고 많은 진보가 있었기 때문에 의
료 분야에도 많은 발전을 기대함(표현형 추출, 유전자 추출, 단백질 상호작용 등)
□ 의료 의사결정 수준 향상을 위해 인간이 생성한 다양한 자료(텍스트, 의무기록, 의학연구)의시맨틱을 연계해야 할 필요성 증대
o 거의 모든 의무기록은 일반 텍스트(free text) 형태로 존재하기 때문에, 텍스트 분석은 중요한 지식 발굴에 중요한 역할을 수행할 수 있음
o 대부분의 산업과 마찬가지로 의학 분야에서도 중요한 정보는 일반 텍스트로 저장되고 있으며, 실제 대부분의 의료 현장에서도 수술이나 진단 결과도 같은 형식으로 존재하기 때문에 그 잠재력 큼
o 더 나아가 텍스트로 작성된 의료 연구 결과(논문 전문, 초록, 온라인 컨텐츠)도 의료 정보를 효율적으로 추출하는데 기여할 수 있을 것으로 기대함
□ 텍스트 마이닝과 텍스트 분석과 같은 정보추출 및 분석기법은 자연어 처리와 딥러닝을 포함한 머신러닝 기술의 비약적인 성장에도 불구하고 그 중요성이 계속 유지할 전망이며, 빅데이터의 도입은 이러한 기술 발전에 긍정적 효과를 주고받을 수 있음
헬스케어 지식 베이스
□ 높은 수준의 복합적인 분석 및 다학제적 접근방식은 헬스케어 시스템에 영향을 미치는 다양한 요소들을 파악하는데 필요함
o 빅데이터 기술의 헬스케어 분야에의 활용, 표준 미행에 따르는 각종 문제, 이질적인 자료원 처리, 시맨틱 데이터 모델을 적용한 다학제간 복합형 모델의 사용 등의 활용사례가 다양함
o 온톨로지 기반 시스템은 정책 의사결정권자들에게 헬스케어를 위한 효율적인 이행 방안을제공함
□ 이러한 관점에서 헬스케어용 시맨틱(의미론적) 지식 베이스는 잠재력과 실제 효과 모두 높을것으로 보임
o 이질적인 자료원에서의 데이터 통합을 촉진할 수 있으며, 정보 필터링 시스템을 개발하고,지식 추출 작업 지원 등이 가능함
o 특히 지난 몇 년간 LOD(Linked Open Data) 이니셔티브는 웹에 구조화된 정보를 공개하고 공유하는데 필요한 실질적인 성공사례를 만들어 낸 바 있음
o 다양한 영역에서의 데이터를 통합된 관점에서 통계정리, 분석, 매핑, 공개(publication) 할수 있는 기회 제공
o 이러한 지식들을 연계하면 상관관계나 상호관계를 추론할 수 있고 더 나아가 새로운 결론을 도출하는데 도움이 될 수 있음
□ 다양한 자료원에서 생성한 다양한 형태의 헬스케어 데이터는 다양한 전문용어와 분류체계를 사용
o 이질성 높은 자료 형태와 공통 용어 사전의 부재로 인해 관련 분석 솔루션이나 의사결정 지원시스템의 직접적인 헬스케어 빅데이터로의 접근은 매우 미미한 수준에 그침
o 빅데이터 영역이 아닌 의학 커뮤니티에서는 전문 표준 어휘 구축 시도는 아래와 같이 시도
- Logical Observation Identifiers Names and Codes (LOINC)
- International Classification of Diseases (ICD9 and ICD10)
- Systematized Nomenclature of Medicine-Clinical Terms (SNOMED-CT)
- Current Procedural Terminology, 4th Edition (CPT 4),
- ATC – Anatomic Therapeutic Chemical Classification of Drugs
- Gene Ontology (GO)
- RxNorm
- General Equivalence Mappings (GEMs)
- OBO-Foundry71
□ 헬스케어 시스템은 방대한 양의 데이터와 각기 다른 품질 및 보완 수준 등으로 인한 이질적인 데이터라는 특징을 가지고 있음
o 데이터 역공학, 데이터 연결, 형식 부여, 데이터 소비 분야에 대한 연구는 현재도 활발하게진행 중임
o 구문적(syntactic), 어의적(semantic) 상호운용성의 실현은 데이터 분석 및 통합을 위한 중요한 과제이며, 이는 RDF(Resource Description Framework)와 OWL(Ontology Web
Language)와 같은 온톨로지 언어 사용을 통해 가능함
o 기존에는 RDF와 OWL이 두 가지를 모두 실현하는데 중요한 방법론을 제공해 왔으나, 빅데이터 플랫폼 도입을 위해서는 영역별 전문가와 반자동화 솔루션을 통해 헬스케어 지식베이스와 연계시켜야 함
□ 일단 호환성이 구문적·개념적 수준에서 모두 실현되면, 개발자들은 손쉽게 서비스와 애플리케이션을 기획할 수 있게 됨
o 모든 영역에서의 시맨틱 호환성 확보는 분산된 데이터 통합 및 자동화된 데이터 해석을가능케 함
o 이 방법으로 다양한 자료원에서의 시맨틱 호환성 구현은 애플리케이션 레벨이 아닌 데이터 모델링 단계에서 구현 가능
o 이후 개발자들은 개념 구현 단계에서 데이터 추출, 변환, 연계 등에 필요한 노력을 크게줄일 수 있으며, 솔루션 자체를 보다 직관적이고 효율적으로 제작할 수 있음
o 또한 이를 통해 생산된 데이터는 발견이 쉽고 접근성도 높아서 재사용 및 배포가 용이함
□ 지금까지 많은 국제기구와 기관들이 헬스케어용 시맨틱 지식 베이스를 사용하도록 제안하
고 있으며, 그 중 세계보건기구가 제안하는 내용은 다음과 같음
o 실시간 증상 분석, 실험 결과 및 개인별 의무 기록 진단을 통한 정확도 향상
o 헬스케어용 정보시스템의 성능 및 상호 호환성 확대
o 헬스케어 프로세스 전송, 재사용, 환자 데이터 공유 필요 적극 지원
o 상이한 목적을 가진 통계 집단 지원을 위한 시맨틱 기반 검증요건 마련
o 지식과 데이터 통합 지원을 위한 헬스케어 시스템
고성능 지놈 분석
□ 현재 생물의료 연구 커뮤니티는 차세대 염기서열분석 중 exome sequening (전체 지놈의2-3%) 및 보다 작은 단위의 시료(예: 암 유발 유전자 진단패널)를 중심으로 이뤄지고 있음
o 한편 전장유전체 염기서열 분석 (Whole Genome Sequencing, WGS)은 환자의 지놈에 대한 통합적이고 총괄적인 시각 제공할 수 있으며, 기존의 애드혹 형식의 암 지노믹스,
preimplantation genetic diagnosis (PGD) - screening (PGS), non-invasive prenatal
testing (NIPT) 같은 기법을 대체할 수 있을 전망
o WGS는 IT 기술의 빠른 발전으로 인해 경제적이면서도 빠르고 경쟁력 높은 분석 프레임워크를 제공할 수 있음
o 현재 WGS 을 필요로 하는 환자 수 많으며, 이를 위한 컴퓨팅 및 저장 기술 수요도 폭증
하고 있음
□ 지난 10년간 개발된 대부분의 지놈 분석 소프트웨어는 단일 컴퓨터 시스템에서 작동하도록되어 있음
o 이러한 레거시 시스템은 관련된 병렬처리, 다중접속을 통해 빠르고 효율적인 처리가 가능한 서버 시스템에 최적화 되어 있지 않음
o 이는 기존 백엔드 시스템에서의 클러스터 구성을 위해 많은 비용과 시간이 들어가며, 설령구축이 가능하다 하더라도 런타임 작업중에서 많은 부하를 일으켜 대단히 느리게 작동될가능성 큼
-애널리틱스 이해 및 신뢰성
□ 의료 의사결정 과정에서 중요한 사안은 보통 시간에 쫓기는 복잡하거나 불확실한 상황에서이뤄지기 때문에 오류를 완전히 배제할 수는 없음
o 따라서 데이터 지향적 접근 또한 사람이 하는 의사결정과 마찬가지로 완벽할 수는 없음을인지한 상태에서 의료 애플리케이션 데이터 애널리틱스 표준을 마련해야 함
o 또한 성능 측정 및 관리의(예: 데이터 지향 시스템의 정확성) 중요성도 그렇기 때문에 강조되어야 함
o 종종 매우 우수한 의료용 스마트 솔루션 현업 투입을 고려하다가도 기본적인 윤리 이슈,책임소재 및 안정성의 문제를 해결하지 못해서 어려움을 겪기 쉬움
□ 따라서 애널리틱스 솔루션의 핵심 기능은 실제 사용자들이 사용함에 있어서 신뢰를 제공해 줄수 있는지, 특히 의사나 연구자들이 그 장점과 한계를 명확하게 인지하고 있는지가 가장 중요함
o 즉 솔루션에 대한 사용자의 이해와 높은 신뢰성 확보가 의료 빅데이터 플랫폼 도입에서 비중있게 고려되어야 함
국가 단위 사업
□ 미국 - 정밀의료 이니셔티브 (미국 오바마 대통령 제안)
o 개인의 다양한 유전자 특성, 라이프 스타일, 생활환경 등을 고려하여 모든 사람에게 적용되는 단일화된(one-size-fits-all) 방식이 아닌 개인 맞춤형 질병 치료 및 예방법 적용을 시도함
o 백악관 홈페이지에 6명 우수 사례 소개 https://www.whitehouse.gov/precision-medicine
□ 유럽 - 의료정보 프레임워크 (European Medical Information Framework (EMIF)
o 유럽 혁신의료 이니셔티브(Innovative Medicines Initiative, IMI)의 주도로 의료 정보 시스
템 재사용을 위한 공동 플랫폼 구축 프로젝트임
o 6,000만 유로 예산이 투입되었으며 유럽 내 5,000만 환자가 참여함
□ Open PHACTS Discovery Platfrom
o 유럽 혁신의료 이니셔티브가 지원한 사업으로 주요 의약품 및 물질 정보 데이터베이스를 구축하는 프로젝트임
□ 빅데이터 저장소 구축을 위한 임상연구 네트워크 통합 시도
o 의료 분야 전문가 네트워크 통합 필요성은 많은 연구자들과 펀딩 기관에 의해 꾸준히 제기되고 있음
o 의학 연구를 보다 효율적으로 진행할 수 있으며 경험과 지식을 공유하기 위한 커뮤니티역할 수행도 가능함
o 영국 옥스포드 대학교에 설립된 리카싱 의료정보연구센터 (Li Ka Shing Centre for HealthInformation and Discovery)는 빅데이터 및 신약 발견 이니셔티브를 위해 9천만 파운드를투자함
o 미국 국립보건원의 BD2K (NIH Big Data to Knowledge) 이니셔티브는 생물의료학 연구
자들로 하여금 자신들의 연구 커뮤니티에서 생산한 빅데이터를 연구용 자산으로 활용할
수 있도록 시도함
EU 회원국별 사업1) (국가 보건정책과 연계)
Comet K-Project DEXHELPP – 오스트리아
□ 주로 의료 시스템과 서비스 연구 관련 어플리케이션을 다루고 있으며, 대개 전염병 관련 자료부터 비용 데이터까지 일상적으로 수집되는 데이터 모두 여기에 포함됨
o DEXHELPP (Decision Support for Health Policy and Planning: Methods, Models and
Technologies based on Existing Health Care Data) 의 약자로 오스트리아 비엔나 시와
COMET-K (Competence Centre for Excellent Technologies) 프로젝트를 통해 예산을 확보
함
o 비엔나 공대는 이 사업의 주관 기관으로 다른 10개 기관과 컨소시움을 구성함
□ 궁극적으로는 정책 개발 및 기획에 기여하기 위함
o 헬스케어 시스템의 현재 상황을 분석하고 새로운 방법론과 모델 및 기술을 개발하는데 역점을 두고 있음
o 또한 다양한 정부정책의 시행을 통해 발생 가능한 시나리오도 예측 가능함
□ 기존 및 새로운 데이터 세트를 사용하여 둘 간의 연관성 강화하고, 데이터 관리 기법, 보안기술, 통계 모델, 인과관계 분석, 수학적/의사결정분석 모델링, 데이터 시각화, 시뮬레이션등을 두루 사용할 수 있음
o 한 예로 다양한 출처의 일상적인 데이터를 연결하기 위한 연구 서버를 구축하고, 안전한방법으로 데이터를 교환할 수 있는 인프라를 마련하여 연구/실험 역량 향상에 기여할 수있음
The Shared Care Platform – 덴마크
□ 주로 의료 시스템과 서비스 연구 관련 애플리케션을 다루고 있으며, 보건 서비스 제공자와 사회복지 서비스 제공자의 개별 정보 시스템에서 확보된 데이터를 다루고 있음
o 인터넷을 기반으로 일반 사용자, 지자체 및 의료기관(대개 병원) 간의 협력을 증진시키고자 함
o 지차체인 Southern Denmark 지역이 만성질병 연구사업을 위해 IBM과 공동으로 추진하였으며, 당시에는 만성질병에 한정되어있으나 현재는 그 적용 영역을 확대시킴
□ 보건 서비스 제공자와 사회복지서비스 제공자를 통해 확보한 데이터(환자를 위한 일반적인치료 계획용)를 수집하기 위한 플랫폼을 구축함
o 더 나아가 환자들은 자신의 데이터를 컴퓨터나 태블릿, 스마트폰 등을 통해 접근할 수 있으며, 이를 활용하여 의료관련 문의, 생체신호 전송 등을 집에서도 할 수 있음
o 환자는 시스템에 입력된 자신의 데이터 출처와 유통경로를 추적할 수 있음
□ Shared Care Platform 에 저장된 데이터는 인쇄 및 분석 가능하기 때문에 자신에게 적용된의료 행위가 적절한지 등을 추후에 파악할 수도 있음
E-Estonia – National Identity Scheme – 에스토니아
□ 2015년 에스토니아 e헬스 재단(Estonian eHealth Foundation)은 자국의 의료 제도 내에서전자화된 솔루션을 개발하고 확대하기 위한 전략 강화를 시도함
o 그 일환으로 2005-2008년 전자 의무기록, 디지털 등록, 디지털 이미지, 전자처방전 등의 전자의료 솔루션들이 개발되기 시작하였음
o 이 프로젝트들은 의사들에게 과중하게 주어진 행정업무를 경감시키고, 본연 업무의 효율성을 극대화하여, 궁극적으로는 의료 서비스를 보다 사용자 친화적으로 변혁시키기 위한 제반의 시도라고 해석할 수 있음
o 2005-2008년 EU구조펀드(Structural Funds)의 지원을 받아왔으며, 2010년부터 전자 처방전과 전자의무기록은 E-Estonia 사업을 통해 에스토니아 전역에서 뿌리내림
□ 전자의무기록은 전국에 존재하는 다양한 의료 서비스 제공자의 데이터를 하나로 통합함
o 진단 내역, 병원 방문, 테스트(이미지 파일 포함), 처방전 등이 포함됨
o 모든 환자는 인터넷에 접속하여 자신의 처방전을 확인하여 사용 가능하며, 모든 병원과 약국은 이 시스템에 연결되어 있음
o 처방전에는 ID카드와 같이 사용되며, 동일한 약 처방을 위해서 매번 병원을 방문해야 하는 수고를 줄이기 위해 스카이프나 전화 또는 이메일로도 처방 받을 수도 있음
o 더 나아가 국가 의료보험 펀드를 통해 특정 환자의 경우에는 자동으로 비용을 할인해 주는 기능도 포함하고 있음
□ 에스토니아 전자 의료 서비스는 X-Road 라고 불리는 서비스도 제공하고 있음
o 국가 내에 존재하는 다양한 전자 서비스 데이터베이스로, 공공 및 민간분야 소속 의료정보를 보다 손쉽게 연결하고 운용할 수 있는 기반을 제공함
o 이는 중앙집중식 데이터베이스가 아니라 다양한 시스템에서 생성된 데이터를 수집하고 연결하는 방식으로, 처리된 데이터는 표준화된 방법으로 제공됨
o 그 결과 의료정보에 대한 단일 소유자나 통제가 존재하는 것이 아니기 때문에, 모든 정부기관이나 민간 기업이 자유롭게 이를 기반으로 자신의 역할에 맞는 요구사항을 만족시킬수 있는 기반을 제공함
Arno Observatory – 이탈리아
□ 주로 의료 시스템, 서비스 연구, 공공 보건 모니터링, 전염병 관련 서비스 위주로, 의료 및의무행정 행위에서 취득한 데이터 중심임
□ ARNO(a network system for the epidemiological and economic sur-veillance)
Observatory 는 1987년 70개 이탈리아 대학교와 연구 및 교육부가 구성한 비영리 컨소시움 CINECA 에서 개발한 플랫폼임
o 이 데이터 베이스에는 막대한 양의 환자 의료행정 데이터가 저장되어 있음 (처방전, 퇴원기록, 가정 내 의료 서비스, 임상 진단 기록, 실험 분석 결과)
o 위 정보는 외부의 다른 데이터베이스에서의 데이터 흐름과 연동 (예: 의료보험 기록, 거주등록, 처방 등록, 국가 생체 정보 통계, 국가 표준 처방 종합규정 등) 가능함
□ ARNO 는 전염병 추적관리라는 본래의 목적에 따라, 데이터 품질에 많은 노력을 기울이고있음
o 가령 다른 영역에서 가져온 데이터베이스를 기존의 데이터로 가져올 때 교차검증을 반드시실시함
o 높은 수준의 데이터 신뢰성 보장하기 때문에 기초적 형태의 분석 뿐 아니라 심도 있는 분석 추론도 가능함
□ 2007년부터 이탈리아 7개 주(Venetia, Liguria, Tuscany, Lazio, Abruzzo, Marches,
Campania) 소재 30개 의료기관과 1,100만 시민들을 대상으로 운영됨
PASSI (Progressi delle Aziende Sanitarie) - 이탈리아
□ 주로 공공 보건 모니터링, 전염병 통제, 질병관리 위험요인 파악 등이며 성인 질병 억제 방법과 관련된 행태 자료도 포함하고 있음
o 2006년 부터 이탈리아에서 성인 건강 위협요소를 분석하기 위해 시작
o 장기간에 걸친 질병 발생 요소 분석 및 이를 예방하기 위한 각종 사전적 방법 도출
o 궁극적으로 보건 당국의 전문가들과 지역사회에 필요한 정보를 전파하는데 그 목표가 있음
□ 이 시스템은 국가에서 개발한 표준 설문조사 결과를 지속적으로 수집함
o 자료 수집 방법은 18세 이상 69세 미만의 무작위 표본을 대상으로 한 전화 인터뷰가 주를 이룸
o 2012년 현재 지역 보건 관련 기관의 93%가 이 플랫폼을 활용하고 있으며, 이는 전체 이탈리아 국민의 90%에 해당됨
o 설문조사는 개인의 건강 관련 습관이나 예방적 행동 등을 포함한 다양한 주제를 다루고 있으며, 이는 이탈리아 국가 보건 계획 (National Health Plan) 에서 지정한 우선순위를 따름
□ 피 응답자가 의사와의 진료/상담을 통해 형성한 건강관련 인지, 의견, 지식, 태도 뿐 아니라, 의사의 조언이 실제로 적절한 조언을 제공했는지에 대한 의견도 함께 수집함
o 수집된 데이터는 국가에서 운영하는 코디네이팅 센터로 전송되며, 여기서 수집된 데이터는저장, 관리 가능 형태로 통합됨
o 이후 지자체 및 국가단위에서 분석 및 활용이 가능한 형태로 변환
o 데이터 품질은 꾸준히 모니터링 됨
Hospital Episode Statistics (HES) – 영국
□ 주로 의료 시스템, 서비스 연구, 공공 보건 모니터링 그리고 병원에서 일상적으로 수집된환자(진료)정보를 위주로 함
o 1987년 부터 2차 의료기관의 외래환자 진료예약, 응급 의료 서비스, 진료비 납부 등의 정보를 수집할 수 있는 데이터웨어하우스 형태를 제안함
o 이러한 배경에서 출발했기 때문에 의무기록을 기반으로 하고 있음
□ 영국 국가보건서비스(National Health Service)에 가입된 모든 진료기관(잉글랜드 한정)은이 플랫폼을 사용하고 있음
o 사보험 환자들도 NHS에 가입된 병원에서는 동일한 서비스를 받을 수 있음
o 각 의무기록에는 아래와 같은 정보 포함
- 진료 정보: 진단 및 수술
- 환자 정보: 연령, 성별, 인종
- 행정 정보: 대기시간, 일자, 접수 방법 및 거주지
□ 1989년부터 방문환자, 2003년부터 외래 환자, 2007년부터 응급 의료서비스 환자 데이터를수집하고 있음
o 보안성과 신뢰성을 확보하기 위해 모든 데이터는 보안성 높은 데이터웨어하우스를 활용하며, 엄격한 공개 규칙을 적용하고 있음
o 이를 통해 환자들은 의무기록 및 관련 데이터가 자신이나 특정인의 것인지 파악할 수 없음
Spanish Rare Diseases Registries Research Network (SpainRDR) – 스페인
□ 주로 의료 시스템과 서비스 연구 관련 애플리케션을 다루고 있으며, 대개 전염병 관련 자료부터 비용 데이터까지 일상적으로 수집되는 데이터까지 두루 여기에 포함
o 그 중에서도 희귀질병의 발병 원인, 진단 또는 치료법을 탐색이 가장 큰 목적임
o 또한 희귀질병은 정보 자체 및 출처 등이 다양하고, 다양한 지역에서 수집되어 접근하기어렵기 때문에 이를 해소할 필요성 큼
□ 국제 희귀질병연구컨소시움 (international rare diseases research consortium) 에서 제안되었으며, 카를로스 3세 보건연구소(Institute of Health Carlos III)에서 편성한 240만 유로예산으로 지원임
□ 임상연구와 정책 의사결정을 위한 데이터와 정보를 통합한 단일 플랫폼으로 적극 활용되고있음
o 이 플랫폼 내 데이터는 2개 형태로 구분됨
- 환자 등록 정보: 전염병의 경우 특정 질병 그룹이나 특정 질병 자체에 대한 정보를 저장,치료 경과 연구에 활용됨
- 인구통계 기반 등록정보: 전염병 연구 또는 사회-보건 정책 기획에 활용됨
□ (빅데이터 접근, 가용성 및 품질) 다양한 종류에 저장된 데이터의 양은 실로 막대하며, 현재도 수십억개 이상의 장비나 사람을 통해 데이터가 직접 생성되고 있기 때문에, 프라이버시와 윤리적인 측면을 고려한 적절하고 효율적인 데이터 활용 방법론 마련되어야 함
□ (빅데이터를 통해 환자 및 전문 의료인력에게 이익 제공) 빅데이터 플랫폼을 통해 사람과기계가 긴밀하게 협력할 수 있으며, 이를 통해 연구자, 의사, 간호인력 더 나아가 환자와일반인들의 다른 요구사항을 모두 포괄할 수 있어야 함
□ (다중모드 분석) 상호 연결된 다양하고 복잡한 데이터는 헬스케어 분야에서 이미 충분히 존재하고 있으며, 여기서 헬스케어 서비스의 품질 향상 및 비용 절감이 실현되어야 함
□ (헬스케어 지식) 전통적인 의료 현장의 데이터 이외에도 서적, 연구논문, 의료 전문 인력의암묵지도 중요한 자료원이 될 수 있음
o 더 나아가 웨어러블 센서나 역학처럼 전혀 상이한 것으로 여겨지는 지식 유통 구조도 상호 연결 시 중요한 지식을 발견할 수 있기 때문에 전문 지식과 빅데이터 플랫폼과의 유연한 연결 필요
□ (윤리 및 프라이버시) 증가하는 의료 데이터의 복잡성과 자동화 정도는 스마트폰을 포함한첨단 센서장비의 빠른 보급으로 빅데이터와 관련된 윤리적 측면이나 개인정보 보호에 대한 문제제기에 충분한 준비 되어야 함