すべてのカテゴリ

3 件中 1 - 3 件表示

ポルノグラフィティが「幸せについて本気出して考えてみた」結果をword2vecで探してみた【R】

背景マイブームのテキストマイニングについて調べてたら「word2vec」というものが出てきました。調べてみたら、、、実に面白い。（cv福山雅治）ざっくり言うと、単語をベクトルで表現して足し算や引き算したり、似ている単語を抽出したりできるらいいです。（素人考え）ということで、これらを参考にして私の大好きなポルノ（意味深）の歌詞を分析してみました！Word Cloudで頻出単語を可視化とりあえずポルノグラフィティの歌詞データを集めて、単語に分解して動詞・形容詞・名詞のみを抽出してWord Cloudで可視化してみました！（情報過多）歌詞で使われている回数が多いほど大きく表示されているので、全体像を把握するのに役立ちます。「君」「あなた」「自分」「心」といった単語がよく使われていることがわかります。（この辺は他のアーティストでも同じになりそう）「誰」「どこ」「？」も大きいので、ポルノグラフィティは"よく問いかけてる"説を提唱しておきます！（左上の「Baby」を見て、"ヒトリノ夜（インディーズ版）"を思い出した人とはいいお酒が飲めそうですw）「幸せについて本気出して考えてみた」結果は？歌詞の可視化が終わったところでここからが本題です。2002年にリリースされた8thシングル「幸せについて本気出して考えてみた」をご存知でしょうか？曲の中で幸せについて考えてくれてますが、答えを出してくれてないんです！！考えた結果としては、「同じところに行き着く」「意外になくはない」という感じです。この未解決問題に決着をつけるべく、ポルノグラフィティが考える"幸せ"とは何なのかをword2vecで探ってみま

音声・音楽

オズヤンマ

2022/11/25

【歌詞分析】名探偵コナンの楽曲を分析！"謎"を解き明かしてたった一つの"真実"を見抜きたかった…【word2vec/R】

背景名探偵コナン…ってご存じですか？（みんな知ってる）漫画は100巻を超えてアニメも1000話を超えて勢いすごいですよね！ただ…いつまでも"謎"が生まれ続け、"真実"を見抜けてないのでは？とも思いますよね！（思え（圧））ということでコナン関連の楽曲の歌詞を分析して"謎"を解き明かしてたった一つの"真実"を見抜いてやろうと思います(ﾟ∀ﾟ)（少し強引）分析方法分析の方法は前回と同じword2vecを使用します。ざっくり言うと、単語をベクトルで表現して足し算や引き算したり、似ている単語を抽出したりできるらしいです。（素人考え）ベクトルで表現できるということは「似ている単語」を抽出できるということです。つまり、"謎"≒○○という感じで謎を解くことができるのです！！（やや大げさな気がしますが笑）Word Cloudで歌詞可視化前回と同様にまずは歌詞を可視化してみます！中央左側に"謎"があり、中央下側に"真実"があるのが見えます。どちらも意外と小さいなーという印象です。（"世界"という単語からGARNET CROWの「世界はまわると言うけれど」を思い出した人と友達になりたい）あとから気づいたのですが、・英単語の大文字化・ひらがな一文字の削除・記号の削除などすればよかったなぁと思いました。。。"謎"を解き明かした結果コナン関連楽曲の歌詞から"謎"を解き明かした結果がこちら（1に近いほうが"謎"に似ていることを表す）↓なるほど…謎とは「スタート」謎とは「出会う」もの謎とは「降り続く」もの（「波」のように押し寄せるもの）いかにもコナンのストーリーを物語ってますねwwその他は…謎とは「虹」謎とは

音声・音楽

オズヤンマ

2022/11/26

Pythonを使った日本語テキストマイニング：夏目漱石「こころ」

テキストマイニングとは、テキストデータから有用な情報を抽出するための方法です。それを行う言語としてPythonは非常に優れています。この記事では、Pythonとそのライブラリを使い、夏目漱石の「こころ」をテキストマイニングする基本的な手順を解説します。０．必要なライブラリのインストール今回使用するライブラリは、MeCab、gensimです。MeCabはオープンソースの形態素解析エンジンであり、日本語テキストを単語に分割し、それぞれの単語の品詞情報などを提供することができます。gensimは自然言語処理ライブラリで、主にトピックモデリングとドキュメント類似性の分析に利用されます。これらのタスクは、大量のテキストデータから主要なトピックを抽出したり、文書間の類似度を計算したりするためのものです。コマンドプロンプトからインストールを行ってください。pip install Mecabpip install gensim１. データの取得まずは、青空文庫から「こころ」のテキストをダウンロードします。ここでは、事前に手動でダウンロードしたテキストデータを使うこととします。 2. データの読み込みPythonの標準ライブラリを使ってテキストファイルを読み込みます。f= open('kokoro.txt', encoding="utf-8") text = f.read()f.close()3. データの前処理日本語テキストデータを解析するためには、形態素解析という前処理が必要です。ここでは、日本語に対応した形態素解析器「MeCab」を用いてテキストを単語に分割します。また、不要な単語（ストッ

IT・テクノロジー