言語間の距離の測り方について

記事

学び

2016年8月号の数学セミナーに面白い話があったので簡単に紹介したいと思います。

とりあえずここでは A, B という 2 つの言語が与えられたときにその距離をどうやって定義するのかを考えてみましょう。

最初に N 種類の意味を与えてそれがそれぞれの言語で何というのかを表にまとめておきます。

言語 A, B での表にあるそれぞれの単語を w(i, n) としておくと

( i = A, B でこれは言語の添え字で n = 1, 2,... N でこれは単語の意味の添え字になります。)

数学セミナーによると言語間の距離は、

d(A, B) = ∑ eq(w(A, n), w(B, n))

としておけば良いようです。

(この和は n に関する和になっています。)

eq(x, y) というのは x と y は等しいときに 0, 異なれば 1 を取るような関数になっています。

ここでの「等しさ」は「同起源である」ということを指しています。

数学セミナーに挙がっている手を意味する単語をいくつか例にとってみると、

hand, Hand, hand (それぞれ英語, ドイツ語, オランダ語)

main, mano (フランス語, スペイン語).

この上段、下段がそれぞれ「同起源である」単語として扱われています。

このように距離を定義しておくとこれはほとんど数学的な用語としての距離にもなっており (実際には擬距離になるようです) 、語彙の残存率の数式と組み合わせると言語の系統樹を作成することが出来るようです。

ところで、今月号の ENGLISH EXPRESS でも語源に関する特集が組まれており、

「形態素」という概念をつかって単語を分解すると覚えやすくなる

というような内容でした。

特集の最初では分子が原子へ原子もさらに細かく分解して...

というように言葉と原子の類似が述べられていましたが、実は語彙の残存率の式は半減期の計算式とそっくりなのです。

言語学には明るくないのですが、意外と物理っぽい研究をしているのかもしれませんね

というお話でした。