こんにちは、えびかずきです。
仮説検定でよく使う手法としてt検定がありますが、
t分布の意味をきちんと理解できていますか?
t分布とは、下記t値が示す確率分布のことで、
\(t \equiv \dfrac{\overline{X}-\mu}{\sqrt{\dfrac{s^2}{n}}}\)
要するに、
・母平均\(μ\)と母分散\(σ^2\)は不明
・標本平均\(\overline{X}\)と不偏標本分散\(s^2\)は分かっている
という条件の時に、\(\overline{X}\)とμとの差を評価するための分布です。
では、具体的に中身を見ていきましょう!
t分布の式
まずt分布とは、何かを確認しておきましょう。
t分布は以下の数式で表される確率分布です。
t分布:
\(g(t,m)=\dfrac{1}{\sqrt{m\pi}}\dfrac{\Gamma\left(\dfrac{m+1}{2}\right)}{\Gamma\left(\dfrac{m}{2}\right)}\left(1+\dfrac{t^2}{m}\right)^{-\dfrac{m+1}{2}}\)
\(\Gamma\):ガンマ関数、\(m\):自由度\((=n-1)\)
ただし:
\(t \equiv \dfrac{\overline{X}-\mu}{\sqrt{\dfrac{s^2}{n}}}\)
かなり複雑な形をしていますね。。
でもt分布の意味を大雑把に理解するだけなら、
この式の中身一つ一つを理解する必要はありません。
最低限必要なことは、
ここで考えている統計量t値がこの複雑な式に従って分布する。
ということを認識しておくことです。
ではなぜt値の分布を考えるのかについて、下で説明していきます。
どうしてt値の分布を考えるの?
\(\overline{X}\)の分布が知りたいというのがここでの真の目的です。
これを考える上での大前提として、中心極限定理より、
\(\overline{X}\)は、\(N(μ,σ^2/n)\)の正規分布に従うことがわかっています。
そしてさらに、
\(z \equiv \dfrac{\overline{X}-\mu}{\sqrt{\dfrac{\sigma^2}{n}}}\)
と定義して変数変換すれば、
\(z\)が\(N(0,1)\)の標準正規分布になるので扱いやすいということもわかっています。
しかしここでひとつの本質的な問題が発生します。
\(σ^2\)(母分散)が不明な条件では\(\overline{X}\)(標本平均)の分布はどう頑張ってもわからない!
さて困りました。
でもせめて\(σ^2\)の推定量\(s^2\)を使って何か言えることはないか?
ということを考えた時に、t値が登場します。
下式のように、z値の\(σ^2\)(母分散)を\(s^2\)(不偏標本分散)に変えたt値であれば分布がわかります!
※なぜなら\(s^2\)の分布は\(\chi^2\)という分布から導けるからです。
\(t \equiv \dfrac{\overline{X}-\mu}{\sqrt{\dfrac{s^2}{n}}}\)
ただし、\(s^2=(n/n-1)\hat{σ^2}\)
\(\hat{σ^2}\) :標本の分散
というわけで、\(\overline{X}\)の分布に、\(s^2\)の分布も取り込んだt値の分布がどうなるのかをゴリゴリと解いていって導かれるのが、上で説明したあの複雑な形をしたt分布になるというわけです。
※t分布の導出は参考書籍やリンク先にありますので、ご興味ある方は参考にしてみてください。
意外と難しいT分布についての証明
従って、t分布を考えることで母分散がわからなくても仮説検定ができるということになります。
めでたしめでたし。
t検定とz検定の違い
上述の通り、
t検定で使うt分布は\(\overline{X}\)の分布に加えて\(s^2\)の分布も加味されています。
つまりその分だけ分布が広がるので、
t検定は正規分布をつかうz検定よりp値が大きくなりやすく厳しい検定になってしまいます。
これは母分散がわからないという条件によってもたらされる代償ですね。
原理的に仕方のないことです。
ただ一方で、
t検定でもサンプルサイズnを大きくしていくとt分布は正規分布に近づいていきます。
つまり、nが大きい時はt検定をz検定で代用して、σをsに近似しても実用的には差し支えありません。
とはいえ原理原則に従って、
母分散がわからない時は迷わずt分布を使いましょう!
まとめ
なかなか今回の記事は難しかったかもしれませんが、
最低限の知識として、t分布は\(\overline{X}\)の分布に加えて\(s^2\)の分布も加味されているということを理解しておきましょう。
t分布の意味をちゃんと理解するには、中心極限定理と\(\chi^2\)分布を理解している必要があります。
参考書籍が丁寧にt分布を説明していて、とてもわかりやすかったので紹介します。
きちんと理解したい人はぜひ読んでみてください。
参考書籍
今回の記事を作成するにあたって参考にさせていただきました。
高校数学でわかる統計学 本格的に理解するために (ブルーバックス)
おまけ
Wikipediaのt検定の説明には誤りがあります。
sを標本の標準偏差としていますが、
正しくは不偏標本分散の平方根(あるいは標本標準偏差←たぶんこれの誤記)です。
\(s^2=\dfrac{n}{n-1}\hat{σ^2}\)
s :不偏標本分散の平方根
\(\hat{σ}\) :標本の標準偏差
の関係があるので、これでは結果が変わってきてしまいます。
不偏標本分散と標本の標準偏差とを混同しないように注意が必要です。
Youtubeなんかでも標本の標準偏差を使ってt検定を説明している人がいます。要注意です。
[…] ※t分布の意味については別記事で解説していますので、そちらをご参照ください。(仮説検定をデータ解析に使ってみよう!【t分布の意味編】) […]