「情報量の増大とデータ駆動型」周南公立大学情報科学2024年中期

記事
学び

(1)問題




資料1



①  私が学生の時,今日のコンピューターには二つの機能があると習いました。一つは「非常に高速に計算すること」。この機能に関する研究を象徴するのが京や富岳のようなスーパーコンピューターで,いかに高速に計算するコンビューターを作るかを目指す研究です。



②  もう一つは「無限ともいえるほど膨大な情報を記憶し,管理すること」です。私はこの二つ目の機能に注目し,データの管理に関する研究に40年近く取り組んできました。こちらの研究のフォーカスは、データをどう集め,どう管理し,それを柔軟に利用可能にするか。対象はマシンパワーではなく「データ」です。



一中略一



③  新型コロナウイルス(COVID-19)の流行によって大量のデータを瞬時に全国で共有することの重要性はますます明確になってきています。たとえば、感染が疑われる患者さんの CT 撮影をする時に、 CT を撮ってすぐに新型コロナウイルス肺炎か否かが分かれば、その患者さんが CT 検査室を出る前に、一般病棟へ連れて行くか、専用病棟かを判断できます。そのためにはAI による迅速かつ的確な画像診断が不可欠ですが、 CT 画像はレントゲン画像と違って一人につき多数の画像がありますから,膨大な量のデータをやりとりしなくてはなりません。しかし国立情報学研究所が日本全国の大学·研究機関等を結ぶ情報通信ネットワークとして構築·運用しているSINET を使えば、全国から大量の CT 画像が集まりますし,そのデータを使って AIによる画像判断を瞬時に行うことができるのです。国立情報学研究所は放射線学会と連携して医療画像のプラットフォームも構築しました。100名以上の研究者が登録して利用していますが、コロナ肺炎は名古屋大学の森健策先生のチームがいち早く開発され、 約83%の精度を達成しています。データが増えればもっと精度は上がるでしょう。



④  このようなデータ駆動型のシステムが有効なのは医療だけではありません。私はどんな研究もデータ駆動に変えていくべきだと思っています。例えばスポーツ科学などもいまや,データがなければ始まりません。体操競技などでは AI が採点支援をするようになってきています。



⑤  練習のときに演技を動画で撮影すれば AI がその人に必要な練習を提案してくれる,というシステムも開発されています。あらゆる分野がこのようにデータから始まるようになっていくと見ています。



⑥  しかしこの先が難しいところで、個々の研究者がデータを他の人と共有しない限り、データはなかなか増えていきません。データが大量にないと、実用に足る AI を構築することもできません。今のところ、大型研究は別として、個人個人の小さな研究プロジェクトでは、苦労して集めたデータは自分の財産であり、人と共有するものではない,という考え方が支配的です。とくに人文学や社会科学ではデータ共有に抵抗がある研究者が現時点では多いでしょう。共有を拒絶する習慣が続きますと学問全体がデータ駆動になっていかないわけですが、今後,研究者のマインドが大きく変容していってほしいと期待しています。



⑦  とはいえ、いま、メジャーな論文誌では論文提出の際,データの提出も求めるところが増えてきています。研究に対する評価は「集めたデータ」ではなくそのデータで何を見出したかで決まる,データは学問の世界の共有財産である,という考え方に踏み出そうとしています。データが共有されれば、そのデータを今度は別の研究者が別の視点で研究に用い、新たな発見をすることができる。つまりデータには、研究成果以上に「共有される価値」があるともいえるのです。



⑧  「ネットワーク基盤とデータベース基盤の融合によってデータがアカデミアで共有され、そこから新たな研究がどんどん生まれてくる世界を作ること、すなわち「『データ駆動型学術』が進展すること」が私の夢です。著名なコンピューター科学者であった故ジム·グレイ博士は科学的発見の歴史的変遷を4つのパラダイムの変遷であるとされました。まず観測に基づく科学、次に17世紀ごろからの理論に基づく科学、そして20世紀半ばからの数値計算に基づく科学です。スパコンはまさに第3となる計算科学の象徴でしょう。そしてデータが中核になる科学が第4のパラダイムであると解いておられます。データ駆動型学術を進めていくことこそ21世紀に私たちがなすべきことなのです。



⑨  データ駆動型に変わっていくのはアカデミアだけではありません。社会も大きく変わりつつあります。



⑩  私の研究室には、マラリアで苦しむ国民を抱えたアフリカの国からリアルタイムでデータが来ます。これを用いて、マラリアの突発的発生や流行の予測をする支援を行っています。これまでは物資や資金の援助が中心だった国際支援のやり方も、データが変えていくのです。経済的に脆弱ぜいじゃくになりつつある今の日本に、途上国に提供できる潤沢な資金は残念ながらそれほどにはありません。



⑪  しかし、データ駆動型の社会になることによって、日本は「知恵」で途上国を助けることができるのです。          


⑫  世界がデータ駆動型に変容してゆきますと、 結局はマシンパワーをもつ先進国や GAFAのような超大型 IT 企業がデータ集約や解析において優位に立ち、持つ者と持たざる者の格差が広がるのではないかという指摘もあります。たしかにそういう将来像もありえるでしょう。しかし私は今のところ、マシンパワーに対するデータの優位性はゆるがないと見ています。なぜなら,マシンは買えますが、たとえば国民全体の長期にわたる健康調査のようなデータは買えるものではないからです。その証拠に, Google は機械学習など AI のプラットフォームを無料で公開しています。重要なのは解析能力の独占より,そのプラットフォームに集まってくるデータだ、と彼らも考えているのではないでしょうか。課題があり,それを解くためにどんなデータが必要か、それをどう集めればいいか、 これがポイントです。AIの手法そのものはほとんどがオープンです。学問の世界でも産業の世界でも、そうしたことを考える「データの設計学」のような分野が生まれると考えています。この学問が最もエキサイティングになるでしょう。



出典:東京大学未来ビジョン研究センター(編)『未来探究2050 東大30人の知性が読み解く世界』,日経 BP日本経済新聞出版, 2021,P178-186,「社会をデータ駆動に変えるデータ工学」喜連川優 本文は出題者により一部改変されています。





資料2



図1 世界で世界で生まれるデータの総量
データの総量.png


ヨコ軸は西暦年(2010~2025年)

タテ軸はゼタバイト

(注)ⅠDC、シーゲイト、スタティスタの予測。ゼタは兆の10億倍



図2 ネットワークにつながるIoTの機器の台数
IoT機器の台数.png


ヨコ軸は西暦年(2019~2030年)

タテ軸は億台





(出所)トランスフォーマー・インサイツ



図1・2ともに出典:「日本経済新聞」2023年1月6日朝刊「データ量爆発 25年に2倍」



資料3 日本の企業における3~5年先のそれぞれの領域におけるデータ活用予定
日本の企業における3~5年先のそれぞれの療育におけるデータ活用予定.png


出典:総務省(2020年)「デジタルデータの経済的価値の計測と活用の現状に関する調査研究」



問1 多くの研究者のデータ共有に対する認識の変化と、 データ駆動型によってどのような新たな価値が生まれると考えられるか。資料1を参考に200字以内でまとめなさい。



問2 資料2は世界で生まれ利用されるデータの総量及びネットワークにつながる IoT 機器の台数に関して、それぞれの年ごとの推移と今後数年間の見込みを表したものである。資料3は日本の企業において3から5年先の各業務領域におけるデータ活用の意向を示したものである。資料2も参考にしながら、資料3のグラフを分析したときにわかる問題点は何かを200字以内で論じなさい。



問3 資料1の最後で“「データの設計学」のような分野が生まれると考えています”とあるが、これはどのようなものであり、その発展にとって重要なことは何か。すべての資料を参考に400字以内で自分の考えを含めて述べなさい。

ビッグデータ.png

(2)解答例




問1



ネットワーク基盤とデータベース基盤の融合によってデータがアカデミアで共有されると共有されたデータを今別の研究者が別の視点で研究に用い、新たな発見をすることができ新たな研究が生まれてくる。アカデミアだけでなく、社会も大きく変える。マラリアの突発的発生や流行の予測をする支援のようにこれまでの物資や資金の援助が中心だった国際支援のやり方もデータが変え、データには研究成果以上に共有される価値が生まれる。(199字)



問2



経営改革・組織改革、マーケティング、製品・サービスの企画開発、といったイノベーティブな業務を行う企業では20%以上が今まで以上にデータを活用してきたいと積極的であるが、生産・製造や物流・在庫管理、保守・メンテナンス・サポートといった旧来の産業分野ではデータ活用への姿勢が消極的である。世界で生まれるデータの総量やI o Tの機器の台数が加速度的に増加しているなか、日本の企業はDX化の趨勢に立ち遅れている。(197字)



問3



「データの設計学」とは、社会課題の解決のために必要となるデータを考察し、なるべく多くの良質なデータを世界から収集し、スパコン搭載のAIで速やかに解析、正確に予測するものである。これには官学民の連携や国際的な協力体制の構築が必要となる。

知的財産権の適用はデータについては例外規定を設け、特にインターネット上のデータについてはオープンデータを徹底させる。新しい研究につながるデータについては、いつでも誰でもどこからでも利用できる法的な枠組み作りも重要となる。

公的機関や研究機関、プラットフォーマーについては、集まってくるデータや解析能力を独占するのではなく、個人情報や軍事機密などを除いて、原則的には情報公開に努めなければならない。DX化が遅れている発展途上国や中小企業については、国を挙げての支援も求められる。何より、企業の経営者のデータ駆動へ向けての意識改革が不可欠となる。(400字)



「OK小論文」では、小論文のオンライン個別授業を開講しております。



周南公立大学小論文はもちろん、その他、私立・国公立の大学・学部などの推薦、総合選抜型、一般入試で小論文を使う多くの入試に対応できます。



小論文の塾探しをされている皆さま、ふるってご受講ください。



受講を希望される方は、以下の概要をご覧ください。




サービス数40万件のスキルマーケット、あなたにぴったりのサービスを探す ココナラコンテンツマーケット ノウハウ記事・テンプレート・デザイン素材はこちら