Clinical
Trial Analysis Dataset
Clinical Trial Data라고 부르는 일반적인 data의 종류를 보면
1.EDC로 수집되는 raw
data, 2.DM 에서 Query 해결, 이상반응, 병력, 약물에 대한 Medical
Coding 이 추가된 후 DB Lock 이 되는 DM
Data, 3.통계분석을 위해 Random Code, Analysis Set, Drive
value, missing imputation 등의 정보가 추가된 analysis dataset 이
있다. (물론 이 가정은 필요에 따라 더 세분화 하여 나눌 수 있다.)
또한 임상시험에는 data structure 에 관련된 SDTM과 ADaM 등의 data에
대한 개념도 존재한다.
위의 data 중 어떤 data가 필요할까?
이질문의 답을
위해 어떤 것을 알고 싶고, 어떻게 소통하기 위해서 어떤 구조로 만들어야 하는지에 대해서는 정의가 필요할
것으로 생각된다.
먼저 무엇을 알고 싶은가?
임상시험에 대한
정보를 알고 싶다.
어떻게 소통하고 싶은가?
임상시험에 관련된
사람 이외에도 임상지식을 가지고 있는 사람들 모두가 알아 볼 수 있도록 자료가 준비되어야 한다. 임상시험 data는 규제기관, 투자자, 제약회사
개발, 마케팅, 병원 의학자, 약사까지 모두 알고 이해할 수 있어야 한다.
어떤 구조로 만들어야 하는가?
이해하기 쉬운
구조로 정보 추적성, 가독성이 있도록 작성되어야 한다. Data는
한 변수의 한 수치가 모든 것을 정의할 수는 없다. 다른 변수들과 연관성이 있어야 하고 한 수치가 나오게
된 배경이 있어야 한다. 임상결과는 여러 요인들을 종합적으로 판단해야 하기 때문에 연관된 변수들에 대해서
함께 볼 수 있도록 구조화해야 한다. 또한 규제기관에서 정해준 형태나
data를 저장 및 결합(Merge, Join, Union)을 해야 하는 연구소에서 사용이
가능하도록 만들 필요성도 있다.
그럼 위의 조건대로 수집하면 되지 않는가?
임상시험의 진행을 이해해야
한다. Bias 통제를 위한 blind 와 randomization 을 실시하는 임상시험의 경우, 특수한 임상환경에 의한 제한으로 EDC로 수집할
때부터 위의 조건을 모두 만족하는 형태로 data를 수집할 수 없다.
그렇기 때문에 EDC로 수집된 data를 가공할
필요와 재확인, Cleaning 등이 필요하다. 그리고 수집된
모든 data를 사용하는 것이 아니라 data review를
통해 분석에 포함할 Subject(대상자)를 선별하게 된다(Analysis Set or Analysis Population). 통계분석에서는 수집된 data가 통계분석 Method에 맞게 형태를 변경할 필요도 있으며, 필요한 data를
selection, Join, imputation 등의 업무를 진행해야 한다(일반적으로 Program에서 ANOVA와
Mixed 는 data의 구조가 다르다).
결론
필요한 목적을
알고, 그에 따른 data 와 data structure 를 미리 논의해야 한다.
그래서 Data Handling Programming을 통해 data 변환이 적절하게 이루어지는지를 점검해야 한다.
Data의 순도(?)는 Validation이겠지만, 사람이 하는 일이라 Process도 잘 되어 있어야 한다.
CDISC의 SDTM과 ADaM이
국제적인 규약에 따라 많이 활용되고 있으며, 대부분의 연구자 임상관련자 등도 정보를 보는 방식이 CDISC를 따라가고 있는 실정이다. ADaM을 작성하기 어렵더라도 대략적인 rule 을 적용하는 것이 장기적으로 보았을 때 좋을 것이라 생각된다.
참고로 제약회사의 데이터 관리자는 DM data나 SDTM이 필요하고, 통계 및 연구자들은 STAT에서 사용한 Analysis Dataset이나 ADaM이 필요할 것으로 생각된다. 또한 data 파일의 포멧은 SAS와 Excel 로 받아가야 소통할 때, 좋을 듯 하다.
그런데 CRA가 중간에서 Contact person이다보니, 필요한 data를 챙겨가지 못하는 경우가 많은 듯 하다.
첫댓글 잘 정리하셨네요^^