1.データはどのように要約するか。
(1)度数分布図
統計学では,大量のデータをどのように要約し,集団の特徴を記述するのでしょうか。
データを要約する方法として,一般的なものに「度数分布図(frequency distribution)」があります。これは,横軸にデータの値,縦軸にその頻度(度数)をとった棒グラフです。
このように度数分布図(ヒストグラム)で表すと,データの「分布」が直感的に分かります。例えば,データの中央値や平均値,偏りなどがだいたい把握できますね。
(2)代表値
また,データをグラフではなく,数値で要約する場合,代表値を使用することがあります。具体的な概念は以下のとおりです。
・平均値(mean)・・・データの総和をデータの個数で割った値
・中央値(median)・・・データを小さい順に並べたときの中央の値
・最頻値(mode)・・・最も頻繁に出現する値
母集団の平均値→母平均,母集団の標準偏差→母標準偏差などと呼びます。
対して,標本集団の平均値→標本平均のように区別します。
(3)データのばらつき
一方で,データの散らばり具合を測定する指標もあります。
具体的な概念は以下のとおりです。
・偏差(deviation)・・・各データ値と平均値の差
・分散(variance): 偏差の2乗の平均
・標準偏差(SD): 分散の平方根。元のデータと同じ単位になるため、理解しやすい。
こちらも同様に,母標準偏差や標本標準偏差と呼ばれます。
あまり重要ではないですが,母標準偏差はσ:シグマ,母分散はσ²:シグマ2乗と呼ばれることもあります。
また,標準偏差は,「平均値±標準偏差」の形で表されることが多いです。
この標準偏差の報告がデータの要約としてなぜ重要なのかについては,初学者にとって大きな壁でもあります。
標準偏差については,次以降の記事でより詳しく説明しようと思います。
(4)四分位範囲
データの範囲を示すものとして,「四分位範囲(Interquartile range: IQR)」があります。
中学校などでも習ったことがあると思いますが,四分位範囲は,第1四分位数・中央値・第3四分位数からなります。
手順は,中央値(データを小さい順で並べたときの中央の値)を求めた後,それを基準とした最小値と最大値の中央を見つけます(以下,具体例)。
前者が第1四分位数(25%地点),後者が第3四分位数(75%地点)です。第3四分位数から第1四分位数を引くと,「四分位範囲」を求めることができます。
nが偶数の場合 10 20 30 40 50 60 70
・第1四分位数・・20
・中央値・・40
・第3四分位数・・60
・四分位範囲・・60-20=40
nが奇数の場合 10 20 30 40 50 60 70 80
・第1四分位数・・25
・中央値・・45
・第3四分位数・・65
・四分位範囲・・65-25=40
※nとは標本の数を指します。
四分位範囲は標準偏差と同様に,データのばらつきを表す指標です。数が大きければ大きいほど,データのばらつきが大きいことを意味します。
では,四分位範囲と標準偏差はどのように使い分ければよいのでしょうか。
結論から言うと,平均値ー標準偏差,中央値ー四分位範囲というセットで理解されておけば良いと思います(細かい内容は筋がブレるので次の記事で)。
2.正規分布とはなにか。
ここで,一番最初に上げたヒストグラムと似た分布が「正規分布(normal distribution)=ガウス分布(Gaussian distribution)」と呼ばれていることをご存知ですか?
統計学の指南書では,これが最も誤解をもたらす概念となっています。いくつかの指南書では,以下のような記述が見られます。
この世のデータに基づくヒストグラムは,例数を増やすことで釣鐘型に近いかたちになります。