すべてのカテゴリ

3 件中 1 - 3 件表示

X (twitter)の投稿データを自然言語処理でリアルタイム解析してみる [ネタメモ]

Pythonのコーディングが、楽しくてたまりません。さて今回は、ネタメモです。(作ってないけど、できそうじゃん？みたいな)(1) Python, tweepyを使用すると、tweetをまとめて読み込める。(2) MeCabなどの自然言語ライブラリを使用すると、英語や日本語の文法に沿って、分節や品詞単位で分割できる。(3) Python, reを使用すると、正規表現を使用したワード検索ができる。tweepyは、デベロッパアカウント申請やAPIキーの発行があったり、APIの実行回数に制限があったりしますが、それでもサクッとpythonでコードを組めるので、メリットが大きいと思います。スレッドを使用して、python上で定周期処理を組んで、ある程度の周期でガバッとツイートをダウンロード →解析みたいなイメージですね。自然言語ライブラリは、オープンソースに絞っても結構なライブラリがあります。私が使ってみたいのはMeCab。いろんなOSで動きます。……………………………………………………………推定ですが、大きな組織では分散コンピューティングなどと組み合わせて、いわゆるビッグデータの解析を行っているのではないかと。ですが、私のような個人事業主レベルでは、そこまで大掛かりな仕組みは、時間的にも作業ボリューム的にも現実的ではありません。なので、いろんなアイディアを出して、「こうすれば、いけんじゃん？」みたいな感じで、プロトタイプを開発して、「あー！できた！やったね！」で終わり。完全に趣味の世界です。……………………………………………………………仕事のプログラミングと、趣味のプログラミングの

IT・テクノロジー

生産技術プログラマ

2024/09/29

日本語の文章の解析は簡単？

(*)本文中にリンクが貼られているような記述がありますがココナラの投稿ではリンクは有効になっていません。（あらかじめご了承ください）日本語の文章の解析は簡単？先日、日本語の文章で使われる単語の傾向を調べたいという話をいただきました。英語の場合は、単語と単語の間に必ずスペースがあるので、簡単なプログラムで単語を抜き出すことができます。しかし、日本語の場合は単語と単語の切れ目は日本語の文法を考慮しないと難しくなります。そこで、インターネットで検索したところ、単語の抽出をやってくれるパッケージがある事がわかりました。幾つか公開されているパッケージがある様でしたが、「MeCab」というバッケージがよく利用されている様なので、試してました。この記事では、簡単に MeCab について調べたことをまとめてみました。MeCab について詳細は、インターネットを「MeCab」検索すれば出てくると思いますのでここでは詳しくは触れません。一応、MeCab の公式ページと言われるリンクを貼っておきます。公式ページに行くと、Windows 版はインストレーションパッケージが配布されているので、ダウンロードしてインストールをすればすぐに利用できます。 Linux 版は、ソースコードが公開されているので、ダウンロードして自分でコンパイルをすれば使用できます。本体と日本語の解析に利用している辞書を作成してインストールします。公式ページのインストラクションを見れば、Linux のコンパイルも殆ど問題なくできます。MeCab の利用MeCab を使用する場合、MeCab の処理した結果を利用する場合が多いと思い

IT・テクノロジー

シリコンバレースーパーウエア

2021/03/03

日本語の文章から単語の出現回数を調べる

日本語の文章から単語の出現回数を調べる前回の続きです。前回の投稿で、MeCab の設定でビルドをする方法を書きましたが、記事を読まれた方から pip で全てインストールできるというご指摘をいただきました。ご指摘を受けて改めて、mecab-python ３のサイトを確認したところ、ご指摘の通り pip でインストールできることが書かれていました。ご指摘くださいましてどうもありがとうございます！さて、MeCab の利用は、日本語の文章の単語の分割に利用しようというのが目的でしたので、そちらの話を進めていこうと思います。単語に分けるだけでは不十分！実際に、MeCab で日本語の文章の単語を抽出すれば簡単にできると思っていましたが、それだけでは不十分という事がやってみたらわかってきました。前回最後に実行結果の例として、Jupyter notebook の実行結果を載せました。考えてみれば当然なんですが、MeCab は助詞や句読点も抽出します。目的は、文章で使われる単語の出現回数を調べることでした。実際に、相談された方の目的も、こうした単語の数には余り興味が無いようでした。品詞を指定して抜き出せば十分実際の、要望としては、文章から名詞の単語を抜き出せば十分目的を果たせそうでした。そう考えると、実際に抜き出した単語の文字列と、品詞の部分を条件にして抽出した単語を振り分ければ良いことになります。そう考えると、まずは品詞をチェックして名刺のみを抜き出して、その上で、同じ単語かどうかを判別して出現回数を数えれば当初の目的は達成できます。拡張性を考えると上のような方法で、名詞の単語を抜き出してあと

IT・テクノロジー

シリコンバレースーパーウエア

2021/03/04