임상시험은 단순한 의료 시술이 아니라, 의약품이나 의료기기의 효과와 안전성을 입증하기 위한 과학적 연구입니다.
이때 수집된 데이터를 근거로 결론을 도출하려면 통계적 분석이 필수적으로 사용됩니다.
하지만 처음 임상시험 실무에 입문한 사람이라면 ‘p-value’, ‘신뢰구간’, ‘ITT 분석’ 같은 용어가 낯설게 느껴질 수 있습니다.
이 글에서는 임상시험에서 자주 사용하는 핵심 통계 용어와 분석 기법을 초보자도 이해할 수 있도록 정리하고, 실무에 어떻게 적용되는지 구체적인 사례를 통해 설명합니다.
p-value: 통계적 유의성 판단 기준
p-value(유의확률)는 연구 결과가 우연히 발생할 가능성을 나타내는 지표입니다.
- 예: p = 0.04 → 4% 확률로 우연히 이런 결과가 발생할 수 있다는 뜻
- 일반 기준: p < 0.05일 경우 통계적으로 유의하다고 해석
주의할 점은 p-value가 작다고 해서 반드시 임상적으로 의미가 있는 것은 아니라는 점입니다. 실제 효과의 크기나 해석 가능성은 별도로 판단해야 합니다.
신뢰구간(CI, Confidence Interval): 추정값의 신뢰도
신뢰구간은 관찰된 통계 수치가 포함될 수 있는 범위를 나타냅니다. 일반적으로 95% 신뢰구간을 사용합니다.
- 예: 평균 혈압 감소량 = -8.5mmHg, 95% CI (-10.2, -6.8)
→ 실제 평균 효과가 -10.2에서 -6.8 사이에 있을 가능성이 95%
신뢰구간이 0을 포함하지 않는다면 통계적으로 유의한 차이로 해석할 수 있습니다. CI가 넓을수록 불확실성이 크다는 해석도 가능합니다.
ITT vs PP 분석: 분석 집단 정의의 차이
임상시험에서의 분석은 어떤 대상자를 포함시켜 분석하는가에 따라 결과가 달라질 수 있습니다.
ITT (Intention-to-Treat) | 무작위 배정된 모든 대상자 포함 | 실제 처치와 관계없이 분석에 포함. 보수적 해석 |
PP (Per Protocol) | 시험계획서에 따라 시험 수행 완료한 대상자만 분석 | 효과가 더 크게 나타날 수 있음 |
ICH E9 가이드라인에서도 1차 분석은 ITT로 수행할 것을 권고하고 있으며, PP는 보조 분석으로 병행하는 방식이 일반적입니다.
평균과 중앙값: 대표값 선택 기준
- 평균(Mean): 데이터를 모두 더해 개수로 나눈 값. 정규분포 데이터에 적합
- 중앙값(Median): 데이터를 크기 순으로 나열했을 때 중간에 위치한 값. 이상치에 덜 민감
예를 들어 입원 일수처럼 한쪽으로 치우친 분포에서는 평균보다 중앙값이 더 적절한 대표값일 수 있습니다.
정규분포와 검정법 선택
임상시험 데이터가 정규분포(종 모양)를 따르는지 여부에 따라 통계 분석 방법이 달라집니다.
정규분포 | t-test, ANOVA 등 (모수 검정) |
비정규분포 | Mann-Whitney, Wilcoxon 등 (비모수 검정) |
정규성 검정은 Shapiro-Wilk 또는 Kolmogorov-Smirnov test 등을 통해 진행합니다.
대표 통계 분석 기법 정리
아래는 임상시험에서 가장 자주 사용되는 분석 기법과 그 용도를 간단히 정리한 표입니다.
분석 기법 | 적용 예시 | 데이터 유형 |
t-test | 두 군의 평균 비교 | 연속형, 정규분포 |
ANOVA | 세 군 이상 평균 비교 | 연속형, 정규분포 |
Chi-square test | 그룹 간 빈도 비교 | 범주형 |
Kaplan-Meier | 생존률 분석 | 시간-사건 데이터 |
Cox 회귀 | 위험요인 분석 | 생존분석 자료 |
분석 결과 해석 예시
다음은 실제 임상시험 보고서에서 사용되는 문장의 예시입니다.
“치료군의 수축기 혈압 변화는 평균 -8.5 mmHg, 위약군은 -3.2 mmHg였다. 두 군 간 평균 차이는 -5.3 mmHg로 나타났고, 95% 신뢰구간은 (-7.1, -3.5), p < 0.001로 통계적으로 유의하였다.”
이 문장에는 다음의 핵심 정보가 모두 포함되어 있습니다.
- 평균 변화량
- 두 군 간 차이
- 95% 신뢰구간
- p-value
- 분석 집단 정의(생략된 경우 후속 문장에서 언급 필요)
실무 사례: 혈압 감소 시험 분석 흐름
사례 개요
신약 A의 혈압 저하 효과 평가를 위한 임상시험에서 1:1 무작위 배정을 통해 치료군 50명, 위약군 50명으로 나누고 8주간 추적 관찰을 시행했습니다.
분석 흐름
- 정규성 확인 (Shapiro-Wilk test)
- 군 간 비교: 정규성을 만족하면 t-test, 그렇지 않으면 Mann-Whitney test
- 주요 변수: 수축기 혈압 변화
- 유의성 판단 기준: p < 0.05, 95% CI 확인
결과 예시 문장
“A 약물군은 위약군 대비 평균 수축기 혈압을 5.3mmHg 더 낮췄으며, 95% 신뢰구간은 (-7.1, -3.5)로 나타났다. 분석 결과는 p<0.001로 통계적으로 유의하였다.”
주의할 점: 통계적 유의성과 임상적 유의성은 다를 수 있음
통계적으로 유의한 결과라도 실제 임상에서의 의미는 제한적일 수 있습니다.
예를 들어, 혈압이 1mmHg 감소했다는 결과가 p<0.001로 나왔더라도, 임상의 입장에서는 임상적 효과로 간주하지 않을 수 있습니다.
반대로, p=0.06이라도 신뢰구간이 일정 방향성을 보이며 임상적으로 의미가 있다면 추가 연구가 권장될 수 있습니다.
전문가 의견 인용
“통계 분석은 연구자가 임상적 질문에 과학적 근거로 답하는 방식일 뿐입니다. 통계 결과만 보고 의미를 단정하는 것이 아니라, 임상적 맥락에서의 해석이 병행되어야 합니다.”
— 임상통계 전문가, 서울대병원 의생명정보학과 김ㅇㅇ 교수 (2024 인터뷰 요약)
결론: 통계를 이해하는 것은 질문의 구조를 이해하는 것
임상시험에서 통계를 이해한다는 것은 단순히 수식을 다루는 것이 아니라, 임상적 질문에 정교하게 답하기 위한 사고 구조를 배우는 것입니다.
초보 실무자는 처음부터 모든 통계 기법을 외우기보다는, 통계 분석이 어떤 상황에서 어떤 질문에 적용되는지를 파악하는 것이 중요합니다.
이후에는 각 분석 기법을 조금씩 깊이 있게 학습하고, 실제 보고서나 논문을 통해 반복적으로 익히는 것이 도움이 됩니다.
참고자료 및 공식 가이드
- ICH E9 – Statistical Principles for Clinical Trials
- FDA Statistical Guidance for Clinical Trials (2023)
- 식약처 의약품 임상시험 관리기준 고시 (2023.9.15)
- Altman DG. Practical Statistics for Medical Research, Chapman & Hall, 1991.
'임상시험 입문 및 기본 개념' 카테고리의 다른 글
임상시험에서 자주 묻는 질문(FAQ) – 초보자와 일반인을 위한 실무 가이드 (2025년 기준) (0) | 2025.05.18 |
---|---|
임상시험이 끝난 후 – 후속 절차와 결과 해석 (2025년 기준) (0) | 2025.05.17 |
임상시험에 참여하는 방법 – 일반인이 알아야 할 절차 (2025년 기준) (0) | 2025.05.16 |
임상시험에서 지켜야 할 규정 – GCP와 법적 근거 (2025년 기준) (0) | 2025.05.15 |
임상시험에서 필수적인 문서 – 기본 서류와 작성 요령 (2025년 기준) (0) | 2025.05.14 |
임상시험에서의 주요 역할 – 각 직무와 책임 (2025년 기준) (0) | 2025.05.14 |
임상시험에서 자주 사용하는 용어 정리 – 입문자를 위한 기본 해설 (2025년 기준) (0) | 2025.05.13 |
임상시험의 참여자 – 누가 참여할 수 있을까? (2025년 기준) (1) | 2025.05.12 |