#028 分散

記事
コラム
分散とは、データのばらつき度合いであると前回申し上げました。分散の値は、各々の値から平均値を引いて2乗した値の合計を、個数で割った値となります。
具体的にイメージできるよう、極端な例を挙げて説明します。
データが6個あったとして、Aグループは値が{1, 2, 3, 4, 5, 6}、Bグループは{3.5, 3.5, 3.5, 3.5, 3.5, 3.5}であるとします。この場合平均値は両方とも3.5となります。でも図に示したら、平均は同じでも、Aグループの方が散らばっているように見えます。

分散.jpg
その散らばり具合を数学的に表現するために、分散を計算してみます。
 Aグループの分散
SNS Aグループの分散.png
   =2.9
Bグループの分散
SNS Bグループの分散.png
   =0
 Bグループの方が、値が小さくなりました。つまり、Aグループより散らばってないことを示しています。
 ここでなぜ差を2乗するかと言うことですが、散らばり具合を見たいだけなら、差の絶対値の平均を計算するだけでよいのです。(各々の数値と平均の差(これを「偏差」と言います)を合計したら、+と-が相殺されて必ず0になるので、絶対値にしないと意味がありません)でも絶対値の計算は、一般的な計算をする時に、差がマイナスなら(-1)をかけて正の数にするという、場合分けの計算をしなければなりません。それは面倒なので、必ず正の値をとる2乗の計算をして合計し、個数で割ることとしたようです。
分散をイメージする図を以下に示します。
分散説明図.png

サービス数40万件のスキルマーケット、あなたにぴったりのサービスを探す