統計・データ解釈

p値・信頼区間・効果量:
論文統計の基礎を理解する

著者: PaperSearch編集部·公開: 2026年5月9日·更新: 2026年5月9日

読了時間:約12分

なぜ統計を理解する必要があるか

学術論文を読んでいると、必ずといってよいほど「p<0.05」「95%CI」「Cohen's d」といった統計用語が登場します。 これらの数値を正しく読み取れないと、論文の結論を鵜呑みにしてしまったり、 逆に重要な発見を見落としてしまう危険があります。

統計は「結果が偶然の産物ではないか」「効果はどれほど大きいか」を判断するための道具です。 医療・看護・リハビリ・栄養学・教育など、あらゆる応用分野において、 根拠に基づいた実践(EBP)を行うためには統計の基本的な読み方が欠かせません。 この記事では、論文で最もよく登場する統計概念を、数式を使わずに直感的に解説します。

p値とは何か:よくある誤解を解消する

p値(p-value)は「帰無仮説が正しいと仮定した場合に、観察されたデータと同等か、 それ以上に極端なデータが得られる確率」を意味します。 たとえばp=0.03なら、「差がない(帰無仮説)」と仮定した世界で今回と同等の結果が得られる確率が3%ということです。

慣習的にp<0.05(5%)を「統計的有意」と呼びますが、この閾値には恣意性があります。 1925年にRonald Fisherが提案した「5%は便宜的な目安」に過ぎず、 生物学的・臨床的な意義を保証するものではありません。 p値が0.049でも0.051でも、実質的な差は微小です。

p値についての主なよくある誤解:

  • 「p<0.05なら効果がある」→ 誤り。統計的有意性は効果の存在を証明しない
  • 「p値は帰無仮説が正しい確率」→ 誤り。帰無仮説のもとでのデータの確率
  • 「p値が小さいほど効果が大きい」→ 誤り。サンプルサイズが大きければ小差でもp<0.05になる
  • 「p>0.05は効果なし」→ 誤り。効果がないことの証明ではなく「有意差を検出できなかった」だけ

統計的有意性と臨床的意義の違い

統計的有意性とは「偶然ではない差が存在することの統計的根拠」であり、 臨床的意義(clinical significance)とは「その差が患者や現場にとって意味のある大きさかどうか」です。 この2つは全く別の概念です。

たとえば、新しい降圧薬が収縮期血圧を平均1.2mmHg下げたとします。 サンプルサイズが10,000人なら統計的にはp<0.001で有意かもしれませんが、 1.2mmHgという差は臨床的にほぼ意味がありません。 逆に、小規模のパイロット研究で15mmHgの改善が見られてもp=0.08であれば、 統計的には有意ではないが臨床的には重要な示唆をもつ可能性があります。

論文を読む際は必ず「効果の大きさ(magnitude)」を確認する習慣をつけましょう。 p値だけで判断するのは片手落ちです。効果量の指標(後述)が重要になります。

信頼区間の読み方

信頼区間(confidence interval, CI)は「真の効果量がおそらくこの範囲に収まる」という推定区間です。 95%CIは「同じ手順で100回研究すれば95回はこの区間が真の値を含む」という意味です。 点推定値(平均値など)より幅のある情報を提供してくれます。

CIの幅は研究の精度を示します。幅が狭いほど推定が精確(サンプルサイズが大きいか、データのばらつきが小さい)で、 幅が広いほど不確実性が高い(サンプルが少ない、ばらつきが大きい)ことを意味します。

CIの解釈ポイント:

  • 差の95%CIが0(またはRRなら1)をまたぐ → 有意差なし(p>0.05に対応)
  • CIの下限が臨床的最小重要差(MCID)を超える → 臨床的にも意義あり
  • CIの上限・下限の両方が同じ方向にあるか確認する
  • OR(オッズ比)やRR(リスク比)は1を基準にCIが1をまたがないか見る

リスク比(RR)1.0は「差なし」、RR 2.0は「2倍のリスク」を意味します。 95%CIが[1.3–3.1]であれば「少なくとも1.3倍、最大3.1倍のリスク上昇」と解釈できます。

効果量:実際の意味を測る指標

効果量(effect size)は「効果がどれほど大きいか」を標準化した指標です。 サンプルサイズに影響されないため、p値より実質的な効果の大きさを反映します。 主な効果量指標を以下に示します。

Cohen's d(平均値の差)

2群の平均値の差をプールされた標準偏差で割った値。d=0.2が小、0.5が中、0.8以上が大とされる。群間比較(t検定・ANOVA)でよく使われる。

オッズ比(OR)・リスク比(RR)

二値アウトカム(発症あり/なし等)に使う。OR=1.0が差なし。RRは「介入群のリスク÷対照群のリスク」で直感的に理解しやすい。コホート・RCTでよく使われる。

相関係数 r

2変数の関連の強さ(−1〜+1)。r=0.1が小、0.3が中、0.5以上が大。ただし相関は因果を示さない。

NNT(治療必要数)

臨床で最も直感的な指標。「1人のアウトカムを防ぐために何人治療が必要か」。NNT=1/ARR(絶対リスク減少)。小さいほど効率的な介入。

検出力とサンプルサイズ

検出力(statistical power)は「本当に効果があるとき、それを正しく検出できる確率」です。 慣習的に80%(0.80)以上が望ましいとされます。 検出力が低い研究は、効果があっても「有意差なし」と誤判断(偽陰性)するリスクが高くなります。

検出力はサンプルサイズに直結します。効果量が小さければ大きなサンプルが必要で、 効果量が大きければ少ないサンプルでも検出できます。 論文の「方法」セクションにサンプルサイズの計算根拠(想定効果量・α水準・検出力)が記載されているか確認しましょう。 記載がない場合、結果の解釈に注意が必要です。

小規模研究で「有意差なし」だった場合、「効果がない」のではなく「検出力不足で効果を見逃した」可能性も考慮してください。 この文脈で95%CIの幅を確認することが重要で、CIが広ければ「まだわからない」という解釈が適切です。

多重比較と偽発見率

1つの研究で複数のアウトカムや仮説を同時に検定することを多重比較(multiple comparisons)といいます。 α=0.05で20回検定を繰り返すと、偶然だけで1回は有意になる計算です(Type I error inflation)。

この問題に対処するための補正手法があります。 Bonferroni補正(α/検定回数)は保守的すぎる場合があり、 FDR(偽発見率)制御(Benjamini-Hochberg法)はよりバランスが良いとされます。 探索的研究ではp値に「FDR補正済み」や「調整済みp」と記載されているか確認しましょう。

論文の「考察」セクションで著者が多重比較の問題に言及しているかどうかも評価ポイントです。 言及なしに多くの副次エンドポイントを報告している論文は、 「有意だった結果だけを抜き出している(p-hacking)」可能性に注意が必要です。

論文を読む際の統計チェックリスト

以下の項目を確認する習慣をつけると、論文の統計的信頼性を素早く評価できます。

サンプルサイズの根拠が記載されているか

方法セクションに検出力・想定効果量の記載があるか

p値だけでなく効果量や95%CIが報告されているか

点推定値+区間推定がセットで示されているか

主要評価項目(primary endpoint)が事前登録されているか

ClinicalTrials.govやUMIN等の登録番号があるか

多重比較の補正がされているか

副次エンドポイントが多い場合は補正手法の記載を確認

欠損値の処理方法が明記されているか

脱落例・ITT解析かPP解析かを確認

統計ソフトとバージョンが記載されているか

再現性確保の観点で確認

まとめ

  • p値は「帰無仮説のもとで観察データが得られる確率」であり、効果の大きさや存在を直接示さない
  • 統計的有意性(p<0.05)と臨床的意義(効果量の大きさ)は別概念
  • 95%信頼区間はp値より豊富な情報を持ち、効果の方向と大きさの不確実性を示す
  • 効果量(Cohen's d、OR/RR、NNT)でサンプルサイズの影響を除いた効果の大きさを評価する
  • 検出力が低い研究では偽陰性(見逃し)リスクに注意が必要
  • 多重比較では補正の有無を確認し、p-hackingの可能性を評価する
  • 統計的結果と臨床的解釈を切り分けて論文を評価することが重要