「ネット購入」の最終分析です。
総務省が公表している「インターネットを利用した1世帯当たり1か月間の支出」に公表されている全てのデータベースを組み合わせて分析をしていきます。
データベースを作る
公表されているデータベース(ネット購入①参照)を全てダウンロードしてそれぞれを各タブに貼り付けます。
毎年公表されるデータベースを各タブに貼り付ければファイル更新ができます。
ファイルをテーブルに替えて、各データベースをマージすればこのような作業は不要になりますが、ファイルが重たくなる、ファイル更新に時間がかかる、ダウンロードファイル名を固定する必要があるなどの理由から、私はテーブル機能を使わずに作成する方を好んでいます。
各データベースは縦軸に同じ項目が記載されていてN列以降の横軸にデータベースごとの項目が記載されています。
後々引用が面倒な事になるのでこれらのデータベースを1つにまとめます(タブ名:DB)。
A1セルの関数は単純に下記です。
地区別DB!I13
これを右にコピーして値が「0」となったら次のタブのデータを反映させ(年齢別DB!N13)全ての項目が入ったら下方向に「0」になるまでコピペしました。色々と方法はありますが、これが一番楽と判断しました。
このDBタブがデータベースとなっているのかをCOUNTIF関数を用いて確認します。
データベースは各セルが1対1で対応する必要があります。例えばDBタブのF3セルにある 2122 は2024年(A列)の集計世帯数【世帯】(D列)の全国【2行目】を検索すると抽出することができます。
このDBではA列とD列に同じ文字が入っていますが、「A列(2024年)かつD列(集計世帯数【世帯】)」とすることで1つの特定の行が指定できます。
一方、列の指定に関しては2行目のみで検索しているため、2行目に同じ文字が入っていると特定のセルを指定することができなくなります。
この確認のため、1行目に「行を挿入」して下記関数で確認を行いました。
COUNTIF(2:2,A2)
この結果、2行目には「~34歳」「 35~59歳」「 60歳~」「平均」という文字が3回づつ表示されていることがわかりました。
「~34歳」「 35~59歳」「 60歳~」は年齢別DBで「総数 平均」「男 平均」「女 平均」でそれぞれ1回づつ使われています。「平均」は「就業別DB」「収入別DB」「住居別DB」でそれぞれ1回づつ使われています。
DBタブは各DBのデータを反映させたDBですので、各DBの表示を変更すればこれらの重複はなくなりますが、来年度公表されたデータをそのまま張り付けてデータベースを更新したいので元の各DBは変更したくありません。
年齢別DBのデータ(「~34歳」等)は『「総数 平均」から2つ目の列』等と指定することで対応が可能になります。
「平均」はよく見ると「全国」と同じ値なので、「平均」をキーワードに検索する必要がないことがわかりました。
このようにダウンロードデータはデータベースの要件を満たしていないケースが散見されます。このダウンロードデータの特徴をよくみれば、このように重複データが含まれる場合も検索は可能になります。
ダウンロードデータの特徴を把握することで正確な分析表を作ることができます。
分析表を作る
これまでの分析結果から「有業人数」「年齢」がネット購入率と関連する可能性が想定されます。また母集団傾向の違いのようなサンプリング・エラーの可能性も想定できました。
これらを確認するためにまずは下記項目(年齢、就業、収入、住居)で全体像を把握します。
関数は「ネット購入②」と同様のINDEX-MATCH関数になります。
INDEX関数
INDEX(DB!$A$1:$AR$362,MATCH($A$1&B$1,DB!$D:$D&DB!$A:$A,0),MATCH($A2,DB!$2:$2,0))
【配列】DBタブのデータ範囲全てを絶対参照で指定します。
【行番号】MATCH関数で指定する年度(DBタブのA列)の世帯数分布(DBタブのD列)に合致する行を検索します。
【列番号】MATCH関数でDBタブの2行目から指定する項目のある行を検索します。
MATCH関数(行番号)
MATCH($A$1&B$1,DB!$D:$D&DB!$A:$A,0)
【検査値】指定する世帯数分布(A1セル)& 指定する年度(B列)の組み合わせを検索します。
【検査範囲】世帯数分布が含まれる列(DBタブのD列)と年度が含まれる列(A列)から検索します(検査値と同じ順番で指定します)
【照合の種類】最初に検索される行数を指定します。
このINDEX-MATCH関数では「2015年」の「全国」「「世帯数分布」を検索し、結果として「10,000」が表示されました。
このセルの計算式を縦横にコピペしてこの分析表は完成となります。
この分析表を元に色々とみていきます。
分析する
このデータは実測値を統計学的に処理した1万人あたりの推測値です。分析表には年齢、就業、収入、住居の各データベースの値を反映させているので、まずは小計を出します(SUM(B3:B5))。あわせて見にくいのでシャドーを入れます(手作業でしました)。
次にそれぞれの項目別の比率を算出します。
年齢
どの年度を見ても「60歳~」が5割を超えている一方、「~34歳」の割合は年々増加しています。
就業
「雇用されている人(勤労者)」は年々増加し5割弱となっています。また「雇用されていない方」は「無職」の方が8割を占めますが、この割合は年々減少しています。
住居
持ち家比率が6割前後で給与住宅の方は3%前後です。持ち家の方が年々減少し、民間の賃貸住宅の方がその減少分程度増加しています。
年収
追加で比率を累計しました。
300万円未満の方が全体の6割を超え、3/4の方の年収が400万円未満となっています。この割合は年々減少しそれ以上の年収の方が10年でそれぞれ2%程度増加しています。
この分析表をネット購入した方の切り口で見るためにA1セルで「インターネットを通じて注文をした世帯数【世帯】」を選択して情報を更新します。
この切り口で分析することでネット購入している方々の傾向が見えてきます。
ネット購入をしている方は2割(2015年)から4割(2024年)に倍増しています。なお本データは単身世帯が対象なので世帯数=人数と読み替えています。
年齢
「35歳~59歳」が最も多く、「60歳~」の割合が最も少なくなっていますが、「60歳~」の割合は10年で約10%増加しています。
就業
「勤労者」の割合が最も多いのですが、年々減少しています。「無職」の割合はほとんど変わっていないことから自営等の方がネット購入をする割合が高くなったことが推測できます。
住居
「持ち家」「民営の賃貸住宅」で9割を占め、この傾向は10年間変わっていないように見えます。
年収
「100万円未満」「500万円~600万円」を除き、平均的にネット購入を行っています。特に200万円から500万円の方々の割合が高く、年収とネット購入者の割合には相関がないように見えます。
この調査自体は年金生活を送っておられる高齢独居者が中心と思われますが、ネット購入動向は現役世代の年収200~500万円の方々の情報が中心になっています。
A1セルを選択することで様々な切り口のデータが表示される仕様になっています。例えば「支出総額【円】」を選択すると下記のように世代、年収、住居等にかかわらず平均的に支出していることが伺えるデータが確認できます。
ご興味のある方にはお譲り致しますので、下記URLよりお申し付けください。
このデータベースの構造上、地区別のこれらの傾向を分析することはできませんが、「ネット購入②」で取り上げた「中国・四国」の傾向の理由はこの調査対象者の傾向と関連があるのかも知れません。
このようなデータベースの限界はありますが、各種分析をお受けいたしますので下記URLよりご用命ください。