### 사전지식
# CRF (case report form)
임상시험에서 환자의 기록은 CRF에 기록한다. 상당히 방대한 form인데, 아래는 그중 하나인 vital signs(키, 몸무게, 혈압, 체온등)의 CRF이다. 요즘은 electronic CRF 즉 eCRF를 사용해서 web에서 직접 입력하면 데이터베이스에 들어간다.
# SDTM (study data tabulation model)
CRF로 입력한 raw data를 table을 만들기 쉽게 가공하여 어느정도 표준화한 데이터 형식이 SDTM이다.
위의 그림을 보면 height, weight, SBP, DPB등이 SDTM에 어떻게 입력되는지 빨간 글씨로 적어놓았다. 이런 CRF를 annotated CRF라 부른다. 대충 이런식으로 데이터가 입력될것이다. VSTESTCD에, 해당되는 값이 VSORRES에는 값들이 들어간다.
usubjid VSTESTCD VSORRES
1 HEIGHT 68
1 WEIGHT 150
1 SYSBP 110
예전에는 이런 식으로 데이터를 입력했었고 이게 좀 더 직관적이지만,
usubjid HEIGHT WEIGHT SYSBP
1 68 150 110
반복적으로 자동으로 VSTESTCD에 있는 값들마다 table을 만들려면 위의 방식이 더 쉽다. 특히 Lab의 경우 수십 종류의 lab이 있다. 이걸 모두 일일이 변수로 옆으로 나열하는건 efficient하지않은 방법이다.
# ADaM (analysis data model)
SDTM으로도 table을 만드는데 지장이 없지만, treatment, 나이, 성별로 vital sign의 summary를 정리하자면 treatment, 나이, 성별등에 대한 정보가 있어야하고 BMI를 보려고하면 height, wiehgt으로부터 구해야한다. 이렇게 필요한 변수들을 추가하고 새로운 변수를 추가해서 더이상 데이터 가공없이 table, listing, figure를 만들수 있는 데이터가 ADaM이다.
# SAP (statistical analysis plan)
프로토콜에는 어느 visit에 무슨 검사를 하고, 환자가 중간에 그만두면 어떻게 처리하고 기타등등 임상시험의 모든 과정이 설명되어 있다. sample size와 어느 통계분석을 사용하고 어떤 결과물(TLFs)를 만들지도 간략하게 설명되어 있다. 이 통계부분을 자세히 설명한 것이 SAP이다.
# TLF shells
보통 프로토콜에는 간단히 설명되어 있다. vital signs를 예로 들면 각 vital signs 파라메터마다 treatment 별로 기술통계량을 제시하겠다. 이런식으로 되어있을것이다. 그러면 SAP는 좀 더 자세히 쓰고, 구체적으로 어떤 테이블을 만들지 아래와 같이 구조를 제시해준다. 이런걸 TLF shells라고 부르는데, 아래는 vital signs table shell의 예이다. TLF shells는 보통 SAP와 함께 만든다.
# TLF를 만드는 과정은 다음과 같다.
statistician이 임상시험 초기부터 함께했다면 protocol을 만들고 review하는 과정에 참여했을터이고, CRF를 만들지는 않아도 검토는 했을것이다. 즉 그 임상시험에 대해서 잘 알고 있고 100 page가 넘는 방대한 CRF 어느 부분에 필요한 정보가 있는지 대충 안다.
1. statistician은 SAP를 만들면서 TLF shells를 같이 만들다.
2. statistician은 anotated CRF와 TLF shells를 보며 table을 만드는데 어떤 변수가 필요한지 생각하고, 필요한 변수들을 ADaM의 형태로 만드는데, 이 ADaM 데이터를 어떻게 만드는지 자세히 설명한 문서가 ADaM spec이다. spec은 specification의 약자이다. 이 ADaM spec에는 만들 모든 변수를 나열하고 라벨, 변수의 속성(문자, 숫자), length, 어떻게 derive하는지등 모든 정보를 excel file에 나열한다.
3. TLF shells을 ADaM 변수들로 annotation을 한다. 즉 어떤 값은 어느 데이터 어느 변수에서 얻는다는 식의 정보를 적어놓는것이다. 통계분석이 필요하다면 SAS procedure도 넣는다.
4. 각 ADaM 데이터마다 두명이 독립적으로 데이터를 만들고 proc compare로 비교하면서 만든 데이터가 완전히 일치할때까지 반복한다. 이걸 ADaM dataset validation이라고 한다.
5. 모든 데이터가 validate되면 SAS programmer 두명이 TLF spec을 보고 독립적으로 TLFs를 만들고 서로 validate한다.
lead statistician은 1, 2, 3을 만들었기에 데이터 구조에 대해서 잘 알고 있다. 그래서 4, 5에 작업하는 Statistician, SAS programmer들의 질문에 답변할 수 있다.
첫댓글 잘 보고 갑니다.^^
혹시 아직도 Quintiles에 계신가요??
전 Quintiles에 다닌적 없고, 올 초에 제 처가 거기 biostatistician으로 들어갔습니다.