大学4年間の統計学が10時間でざっと学べる 読書感想文

記事
コラム
薄さとグラフィックに惹かれて「10時間で学べるならええやん」と言う下心で買ってしまった。

結論から言うと、10時間かからなかった。3時間くらい。でもそれは「簡単だったから」ではなく「途中で読み飛ばした」からだ。いくら簡単そうに見えても、高校では数Iから脱落し、大学は3教科で勝負して私立。社会人になるまで数字をもっぱら避けてきた自分が隅から隅まで読める本ではなかった。が投げ出さずにとりあえず読み飛ばしながらでも最後まで読めた理由は業務でデータサイエンティストさんやアナリストさんとお付き合いしており、各種用語に聞き覚えがあって「あー、これこないだ◯◯さんがおっしゃってたやつ、、、」など要は①必要にかられている②フリークエンシーが2回以上の単語が割と出てくるの条件が揃ったから読めた、と言うか気合いで読んだ感じだ。

なので、上記私のような経歴の数字が好きなじゃない人間で差し迫って業務に必要なかったり、また「統計用語なんて全て初見にゃん」という方は何か別の方法、別の本へご厄介になったほうが良いような気がする。たかが1000円、されど1000円である。

ちなみにレイアウトと構成に2点ツッコミどころがある。1点目は、各項目にミニコラムが付いているのだがそのコラムが「この続きは次のコラムね」と言いつつ最長6ターン続く。まとめて書いて欲しかったなぁ。きっと、先にレイアウトが決まってからコラムの文章量が長短出てきてしまったに違いない。2点目は、未来の説明ページで解説される統計用語が初期から登場してしまうことだ。「えっ?今ナチュラルにその用語出してきてますけど、そんな説明過去にしてくれましたっけ?」と頭の中を「???」で一杯にして読み進めると未来にその説明が出てきて「なーる」ってなる。笑。「一旦わからないものは読み飛ばせ。なぜなら後から説明されるからだ」とお気楽な気持ちで読む姿勢が大事である。統計の説明ってきっと簡単にまとめるのが難しいんだろうなぁ、、、と編集者の苦労が偲ばれる構成であった。

と言うわけで、私は自分の業務で「そのワードは初見ではない」ってポイントだけを読んだ。また、いつか読み返すともうちょっとわかるかも、しれない。

以下自分用の忘れたくないことメモ欄。知ってる人には退屈なメモ書きなので、読み飛ばしてくれていい。

●ヒストグラムで峰が複数ある場合
測定対象が異質な集団を含む可能性があるので注意
→死亡年齢分布とかで乳幼児、高齢者両方に山ができるやつとかその典型
●標準化と標準偏差
平均値から何メモリ離れているか?を測るための指標
標準偏差は分散の正の平方根だから、データの散らばり具合を見るやつ
測定値=平均+標準化×標準偏差
標準化=(測定値ー平均)/標準偏差
→乳幼児の集団と、男子高校生の集団での1kgの違いがどのくらいの差なのか?なんてのが比較できたりする
●加重平均
複数集団の平均値を比較するために数値の分布を揃えた形で平均を出すこと
→2社の平均給与を計算するために、各年齢の人数をどちらかに寄せた形で平均を出す方法
●相関係数は1に近いほど相関性が強い
●推定と検定
推定は母集団の何か (平均やら分散やら)を当てようとするもの
検定は2つある仮説のうちどっちがイケてるかを選ぶときに使うやつ
●有意水準は5%ととりあえず覚えておく
●臨界値
これ超えたら有意差あるんじゃね?と言うボーダーライン。有意水準が決定されたら決まる
●その差は差と言えるのか問題
(標本平均ー元の平均)/標準偏差>臨界値
↑超えてたら有意差あるんじゃね?という感じ
サービス数40万件のスキルマーケット、あなたにぴったりのサービスを探す