統計学の基本と無作為抽出の問題(2)

記事
学び

1.統計学とはなにか。

統計学とは一言で言えば「データを整理し,わかりやすくするための学問」です。膨大なデータをそのまま眺めても,そこから有益な情報を直感的に読み取るのは難しいものです。

例えば,日本人100人の体重を測定したとします。このデータをそのままリストとして眺めても,全体の傾向を把握するのは容易ではありません。そこで,データの代表的な特徴を示す「要約値」を求めることで,情報を簡潔に表現することができます。

ここで,すでに専門用語が出てしまいました。

要約値(要約統計量/基本統計量/記述統計量)とは,平均値や中央値,最頻値,最小・最大値,分散,標準偏差,四分位範囲・・・など,データの分布や特徴した値を指す。このうち,平均値や中央値,最頻値などは,データの中心を代表するものとして,代表値と呼ばれる。[1]

たくさん呼び方があってややこしいですが,これは統計学の特徴でもあります。これら細かい概念については,一つずつ抑えていきましょう。

話は戻り,先の日本人100人の体重の測定についてです。

最も基本的な要約値の一つが,平均値(mean)です。これは,すべてのデータを足して個数で割ることで求められ,データの「中心的な値」を示します。たとえば,100人の体重の平均値が50kgだったとすると,「この100人の体重はおおよそ60kgである」と表現できます。
  ※どの要約値や関連値についても,計算方法を理解する必要はあまりな 
   いです。機械計算できるので,概念の理解を先に行いましょう。

しかし,「おおよそ」という表現に疑問を持つ人もいるかもしれません。

つまり,「データがどのくらいバラついているのか?」という疑問です。

そこで,データの散らばり具合を示す指標として「標準偏差(SD:Standard Deviation)」が用いられます。仮に標準偏差が10kgだった場合、「この100人の体重はおおむね40〜60kgの範囲にある」と考えることができます。

このように,統計学を活用すれば,膨大なデータを簡潔に表現する(=要約する)ことができ,データの特徴をより理解しやすくなります。

2.無作為抽出とはなにか。

データを要約するだけであれば,全数調査(全員に調査すること)を行って,その平均値や中央値などの要約値を得ればよいだけです。

しかし,多くの場合,全数調査を行うことは大変で難しいです。そのため,標本調査(対象者を限定して調査すること)を行います。

標本調査は,全数調査の代わりであるため,そこで選ばれた対象者は全数調査で対象にしたい集団ミニサイズになっただけであることが理想的です。
    ※イメージで言えば,カレーの食品サンプルは,実際の商品と同じ比
     率で具材やルーがあってほしいわけです。

このように,統計学では,標本集団のデータをもとに母集団の特性を推測するため,標本集団は母集団の代表として適切に選ばれる必要があります。そのために考案された方法が無作為抽出(random sampling)です。

専門用語を整理しましょう。

標本集団とは,研究で対象とする標本(サンプル)の集まりを指します。多くの場合は,人間や動物のことです。一方で,母集団とは,標本が所属する大きな集まりを指します。例えば,日本人や人類,学生などを指します。[2]

初学者にとって,母集団のイメージはかなり難しいと思います。
それこそが無作為抽出の問題なのです。なので,安心して読み進めてください。

ここで,無作為抽出とは,「母集団の個体を等しい確率で標本に選ぶこと」を意味します。つまり,作為的に標本を選ばない方法ということです。

いくつかの文献では,「統計学では,無作為抽出が必須だ!」と述べているものもあるのではないでしょうか。

しかし,そうではありません。
その鍵は,「母集団」にあります。

例えば,日本人の体重の平均値を調べたい研究と日本の中学生の平均値を調べたい研究では,想定する母集団が異なります。

つまり,母集団とは流動的なのです。

ひとつ踏み込んで言えば,あなたの研究の対象が特定のクラスに所属する学生の場合,彼ら自身が母集団になります。

3.無作為抽出の方法と問題

ここでは,先の例示にしたがって,日本人を母集団とします。

先述したとおり,無作為抽出を行う理由は,「人間が作為的に選ぶよりも確率に従おう!」という考えにあります。

無作為抽出を実際に行うためには,母集団全体の個体(ここでは日本人)に番号を付与し,乱数(ランダムに数字を出す手法)を用いて標本を選ぶ必要があります。

しかし,無論,そんなことはできません
できるのは国が組織する調査くらいでしょう。

ここまでの流れで分かるように,一研究者に母集団からの無作為抽出というのは,ほとんど不可能であって,対象となる標本集団は無作為抽出とは縁のないものがほとんどなのです。

そこで,研究で対象とする標本集団のより大きな集団は,母集団ではなく「準母集団(quasi-population)」と呼ばれます。

準母集団は,標本集団の性格がそのまま適用されます。例えば,日本人の体重の平均値を推測するケースを示します。

標本集団(n=100)・・・男性:女性=60名:40名,年齢=30±10の日本人

準母集団(n=???)・・・男性:女性=6:4,年齢が20歳から40歳の日本人

つまり,無作為抽出をできない場合,我々はあくまでも準母集団に関わる数値の推測をできるだけで,間違っても母集団の推測をすることはできません。

逆に言えば,だからこそ,同じテーマの研究であっても,対象者が異なればデータや要約値が異なるのです。

こうした無作為抽出に関わる問題の理解はかなり重要です。
ぜひ理解をして次に進めて行きましょう。

おわりに

最後までお読みいただきありがとうございました。

次回では,より詳細な統計量(要約値)の概念について解説していきます。
内容の誤りや説明の不備があれば,ぜひご連絡ください。

今回の内容がタメになったと感じられた方は,ぜひいいね♡フォローをお願いします。

また,当方は,統計の代行論文執筆のサポートなども行っております。お気軽にご連絡ください。

引用文献

[1] 荒瀬康司. (2018). 論文投稿に際しての統計学的記述の留意点. 人間ドック (Ningen Dock), 33(4), 557-570.
[2] 統計局(不明)「第1部 データ分析の基礎知識」
サービス数40万件のスキルマーケット、あなたにぴったりのサービスを探す