X (twitter)の投稿データを自然言語処理でリアルタイム解析してみる [ネタメモ]

記事
IT・テクノロジー
Pythonのコーディングが、楽しくてたまりません。

さて今回は、ネタメモです。(作ってないけど、できそうじゃん?みたいな)

(1) Python, tweepyを使用すると、tweetをまとめて読み込める。
(2) MeCabなどの自然言語ライブラリを使用すると、英語や日本語の文法に沿って、分節や品詞単位で分割できる。
(3) Python, reを使用すると、正規表現を使用したワード検索ができる。

tweepyは、デベロッパアカウント申請やAPIキーの発行があったり、APIの実行回数に制限があったりしますが、
それでも サクッとpythonでコードを組めるので、メリットが大きいと思います。

スレッドを使用して、python上で定周期処理を組んで、ある程度の周期で ガバッとツイートをダウンロード →解析みたいなイメージですね。
自然言語ライブラリは、オープンソースに絞っても結構なライブラリがあります。
私が使ってみたいのはMeCab。いろんなOSで動きます。

……………………………………………………………

推定ですが、大きな組織では分散コンピューティングなどと組み合わせて、いわゆるビッグデータの解析を行っているのではないかと。

ですが、私のような個人事業主レベルでは、そこまで大掛かりな仕組みは、時間的にも作業ボリューム的にも現実的ではありません。
なので、いろんなアイディアを出して、「こうすれば、いけんじゃん?」みたいな感じで、プロトタイプを開発して、「あー!できた!やったね!」で終わり。
完全に趣味の世界です。

……………………………………………………………

仕事のプログラミングと、趣味のプログラミングの最大の違いはココです。

ひらめいたアイディアが、徐々に形造られていくプロセスが楽しい。すごく楽しい。
私にとっては、これこそがプログラミングの醍醐味です。

人や自分が過去に作ったコードをメンテ/改修するのも大切な作業なんですけれど、私が最も楽しさを感じるのが、だんだん形ができていくところです。


サービス数40万件のスキルマーケット、あなたにぴったりのサービスを探す ココナラコンテンツマーケット ノウハウ記事・テンプレート・デザイン素材はこちら