#038 統計の活用(4) 一部の意見から全体の意見を推定(例えば視聴率) 標本比率・母比率区間推定

記事
コラム
世の中には視聴率というものがあります。各テレビ局は、その値に一喜一憂して、視聴率争いに日々しのぎを削っています。
さて視聴率の調査方法ですが、ランダムに抽出された、全国で約10,000のご家庭に測定装置を置かせてもらい、データを収集して値をはじきだしています。関東地区は2,700世帯、関西地区なら1,200世帯など、地区により調査対象世帯が違っているようです。(ビデオリサーチ社「テレビ視聴率」よりwww.videor.co.jp/service/media-data/tvrating.html)本当なら全世帯に測定装置を置けば正しい値を得られるのですが、コストの問題もあり現実的ではありません。そこで約10,000世帯から得られたデータを基に、統計処理をすることで全体(母集団=全国民)の視聴率を推定しています。したがって、視聴率は100%この値!というものではなく、ある値とある値の範囲の中に95%の確率で入っていますという表現になります。
そこで例として、無作為に3000世帯選び、ある番組の視聴率を調査したとします。その結果が10%であったとすると、母集団の視聴率は、95%の確率(95%の信頼区間)でどんな値の範囲内に収まるでしょうか。ここでのポイントは、抽出した調査対象数(標本数)と割合がわかっているときの母集団の推定です。
ここで変数を以下の通り定義します。
p:母集団の視聴率
:標本集団の視聴率(3000世帯の視聴率=0.1)
n:調査数(=3000)
すると、母集団の視聴率(p)は、95%の確率で以下の範囲に入ります。
母比率区間推定  式1.jpg
z0.025 というのは、標準正規分布表中の0.025(2.5%)の値におけるz値を示します。z値とは、平均が0、分散が1となるようにデータを標準化した値のことで、あるデータが平均値からどれだけ離れているかを、標準偏差で示した値のことです。(まあ、そういうものだという程度で構いません。)なので、母集団が正規分布となっている場合に適用される値ですが、だいたい正規分布をとっていると考えてよいと思います。
そこでなぜ0.025の値かというと、以下に示す正規分布表中の値は、グラフの片側(右側)の面積の値を示しているため、片側だと2.5%であるためです。したがって表よりz値は1.96となります。
母比率区間推定  正規分布.jpg
母比率区間推定 表.jpg

したがって上式は、
母比率区間推定  式2.jpg
となり、
0.0892≦p≦0.1107
が導かれます。これは、「母集団の視聴率は、8.9%から11.1%の間に95%の信頼区間で当てはまる」という意味です。今回3000世帯でしたが、もっと少ない世帯で調査した場合は、平方根の中の値が大きくなるため、範囲が広くなります。例えば300世帯の場合は、6.6%から13.4%の間に95%の信頼区間で視聴率が当てはまることになります。
最近お話ししている統計の活用ですが、いろいろな式がでてきて、「なんでそうなるの?」という疑問を持たれることでしょう。私はなぜそうなるのかを考えるよりも、それを使うとこんなことがわかる・言えるということを重要視しています。車がどういった仕組みで走るのかを知るよりも、車の運転を習って活用することのほうが重要と思うことと同じだと思ってください。目の前の課題を解決するために、どの式を使えばよいかをわかるようになれば良いと思います。
サービス数40万件のスキルマーケット、あなたにぴったりのサービスを探す