日本語の文章から単語の出現回数を調べる
日本語の文章から単語の出現回数を調べる前回の続きです。前回の投稿で、MeCab の設定でビルドをする方法を書きましたが、記事を読まれた方から pip で全てインストールできるというご指摘をいただきました。ご指摘を受けて改めて、mecab-python 3のサイトを確認したところ、ご指摘の通り pip でインストールできることが書かれていました。ご指摘くださいましてどうもありがとうございます!さて、MeCab の利用は、日本語の文章の単語の分割に利用しようというのが目的でしたので、そちらの話を進めていこうと思います。単語に分けるだけでは不十分!実際に、MeCab で日本語の文章の単語を抽出すれば簡単にできると思っていましたが、それだけでは不十分という事がやってみたらわかってきました。前回最後に実行結果の例として、Jupyter notebook の実行結果を載せました。考えてみれば当然なんですが、MeCab は助詞や句読点も抽出します。目的は、文章で使われる単語の出現回数を調べることでした。実際に、相談された方の目的も、こうした単語の数には余り興味が無いようでした。品詞を指定して抜き出せば十分実際の、要望としては、文章から名詞の単語を抜き出せば十分目的を果たせそうでした。そう考えると、実際に抜き出した単語の文字列と、品詞の部分を条件にして抽出した単語を振り分ければ良いことになります。そう考えると、まずは品詞をチェックして名刺のみを抜き出して、その上で、同じ単語かどうかを判別して出現回数を数えれば当初の目的は達成できます。拡張性を考えると上のような方法で、名詞の単語を抜き出してあと
0