阿修羅ワークスプラグイン講座02 コンテンツミックスとノイズ

記事
IT・テクノロジー

SEO=ライティング=テキストマイニング

前回、WordPressを使ったブログアフィリエイトは集客の要となるSEOが重要だと説明しました。
「SEO=ライティング=テキストマイニング」とも説明しました。
で、問題はテキストマイニングです。テキストマイニングとはなにか知りたい方は前回の講座を読んて下さい。

ただ文章をライティング(執筆)するだけだと、コピーコンテンツとして扱われてしまい評価されないんでしたよね。
オンリーワンの文章(コンテンツ)を作ることが求められているわけです。

 SEOを考えなければフリー

注意して欲しいのは、類似したコピーコンテンツを作っては駄目だということではなく、あくまでもSEOで集客を成功させたいのなら、という条件付きです。

個人の趣味で作るブログであれば、基本的に法律に触れなければどんな表現をしても問題はありません。

コピーコンテンツが評価されないと標榜しているのはあくまでも検索エンジンという民間会社であり、世間ではありません。
SEOなんて関係ない! と考えているのなら自由な発想で自由に情報発信すればいいのです。

どこからどこまでがコピーなの問題

話は戻ります。では、コピーコンテンツってどこからどこまでがコピーなの? 問題。
コピーといってもその類似度にはグラデーションがあります。
文頭から文末まですべてをコピーするというのは逆に難しいのです。

例えば誰かのテストの答案を丸写しするにしても、論文を参考にさせてもらうにしても、最低限固有名詞ぐらいは書き換えないと駄目ですよね。
ですから文頭から文末まで丸写しは問題外ですが、大抵は部分的に参考にさせてもらう程度の類似度になることが多いと思われます。

アルゴリズムはブラックボックス

どのくらいの類似度がアウトなのか気になりますよね?
95%の類似度? 95%の類似度? 50%の類似度?
残念ながら、どの程度かというのは公表されておらず、情報の需要と供給によって時価のようです。

ただ、言えることは類似度判定を厳しくし過ぎると、ネットにある情報のほとんどはコピーコンテンツとなってしまいます。
まったく独自のオリジナル言語を話している人はいないし、いたとしても誰もそれを理解できません。

基本的に人々が話題にしていることは、年がら年中同じテーマでちょっとだけ細部が違うものだったりします。
これらをひとまとめに「同じ」としてしまうと大抵の人は誰かのマネということになってしまいます。

逆に類似判定をガバガバにすぎると一文字変えただけとか、結論の前後を入れ替えただけで「オリジナル」と判定されてしまいます。

また、数値やグラフといった値ベースのコンテンツは正確性が求められますから、勝手に数字を書き換えたものは駄目ですよね。こういうジャンルのコンテンツは逆に類似度が高いことが求められます。

今の検索エンジンに小細工は一切通用しない

一昔前の検索エンジンのアルゴリズムは貧弱だったので、ちょっと変えただけで通用していました。しかし、現在ではビッグデータとAIによって、文章の表記揺れや別表現を理解でき、その文章が何を意味しているのかまで解析できるようになっています。

そういった意味でいうと小細工は一切通用しなくなっています。
というわけで、後発でテキストマイニングをするのはかなり至難の業だと言えます。

「それじゃぁーやる意味がないの?」というと、そうではありません。
確かにテキストマイニングで文脈は枯渇していくのですが、金やダイヤ、ビットコインなんかと違うところは、総量が決まっているわけではない、ということです。

ですから、毎年新しい言葉が生まれるように、新しい文脈も次々と誕生しているのです。
とはいえ、後発になればなるほどテキストマイニングの難易度が上がっていくことは間違いないので、コンテンツミックスというテクニックを使います。

コンテンツミックスとはコンテンツの掛け算

コンテンツミックスというのは、平たく言えばコンテンツとコンテンツを掛け算することです。
前回の講座で「猫と私」というテーマで100本とか1000本のコラムを書くのは難しい、という話をしました。

しかし、テーマを「○○猫と私の○○」にしたらどうでしょうか?
「○○」に入る言葉はたくさんありますよね。テーマに柔軟性があると掛け算の答えが増えていきます。

さらに「○○猫に○○してみたら○○だった」「○○」を増やすだけで、バリエーションは膨大になります。
「○○」ひとつにつき10個のネタを当てはめると、10×10×10=1000通りのテーマが生まれて、1000本のコンテンツを書けるようになります。
これがコンテンツミックスです。

冗長化は人のために

もう1つ大事なテクニックがあります。それはノイズです。
文章というのは必要最小限の情報だけを削り落としていくと、格言やことわざのようにシンプルになります。

シンプルだということは類似度が高くなることを意味します。また、読み手側にもシンプルな情報から行間を読み取る教養が求められます。
シンプル・イズ・ベストという言葉があるように、シンプルはとても良いことなのですが、あくまでも複雑さを理解した上で成立します。

例えば若者の間で流行っている「エモい」という言葉。説明なしに分かる人もいれば、分からない人もいます。
分からない人に「エモいはエモさを表現したものだよ」と説明しても通じません。

なにがエモーショナル(情動的)なのかの定義が曖昧な人にとって、「エモさ」というのは伝わらないのです。
そして、実際、人間の情動処理は複雑で人工知能が苦手とするところです。
「エモさ」をいまいち理解できない人にとっては、なにがエモーショナルなのかを膨大な凡例によってしか理解する術はありません。

その場合、情報をミニマイズするのではなくマキシマイズしていく必要があります。つまり、冗長化(リダンデンシィ)です。
情報というのはシンプルにミニマイズしていく一方で、あえて結論を先延ばす冗長化や物語化も必要とされます。

推理小説を結論から読む人はいないように、既に分かっていること、結論が出ていることにあえてノイズを加えることで「エモく」なるんですね。
コンテンツは枯渇する一方ではあるのですが、ノイズを加えることで意味は同じでも印象や感じ方を変えることができるのです。

ロシアの文豪トルストイは小説アンナ・カレーニナの冒頭で「幸福な家庭はどれも似たものだが、不幸な家庭はいずれもそれぞれに不幸なものである」と書いています。
「それぞれに不幸」がどのような不幸なのかひとつひとつ掘り下げて行けば小説が出来上がるわけです。

まとめ

テキストマイニングで文脈は枯渇するが、コンテンツミックスとノイズで乗り切れる
サービス数40万件のスキルマーケット、あなたにぴったりのサービスを探す