“文章の指紋”がカギ
それにしてもいったい、どのようにして鑑定をするのか? 筆跡ならまだしも、デジタル上に記録された文言となると、いくらでも装えそうなもの。
「みなさんの文章には長年培われてきた“癖”があります。句読点のタイミングや助詞の使い方など、それぞれに個性があるんですね。われわれの世界では、“文章の指紋”と呼んでいるのですが、個人の文章の特徴を集め、アルゴリズムやビッグデータ解析などによって、その人にしかない特徴を浮き彫りにすることができます。
また、日本語は“ひらがな” “カタカナ” “漢字” “アルファベット”を使い分ける言語なので、その組み合わせに非常に個性が出やすい。デジタルで作られた文章だからこそ、手書きより条件が安定しているため、解析がしやすいのです」
確かに、Aさんのメールは硬い表現や挨拶が多いとか、Bさんは幼稚な言い回しやニュアンスが多いという具合に、人の文章を見返してみると、“人となり”ならぬ“文字となり”のような個性がある。
堀田さんによれば、こういった癖は文章の長短にかかわらず「必ずある」という。
興味深いことに、子どもを装って漢字の部分を意図的にひらがなに変えても、前述のように助詞の使い方などを統計的に照らし合わせることでウソが発覚してしまうとか。
また、アルファベットを使用する英語においても、アラブ人を装って書いた文章が、実はアメリカ人によるものだと発覚したケースなど、文章のなりすましは、海を越えて横行している。
それゆえ、“文章の指紋”による解析は極めて精度が高く、研究も日進月歩で行われているのだ。ネット上だからといって、安易になりすましやウソがつけると思ったら大間違いというわけ。