3.技術トレンド | Internet Infrastructure Review（IIR）Vol.33 | IIJの技術

目次

3.6 統計的自然言語処理と"コーパス"

さて「特別なチューニングなし」に「それなりの精度で抽出できる」不思議さを知るには統計的自然言語処理の研究を勉強するしかないのでしょうが、解説書を読むと頻繁に登場するのが"コーパス"という用語です。

Wikipedia英語版によると、"コーパス"とは言語学において使用される「巨大で構造化されたテキストのセット」で「統計的な分析や仮説検定、頻度のチェック、特定の言語のルールに基づく正当性の確認に使われる」そうです。筆者のような門外漢にはこの説明だけではピンと来ないのですけども、一般に広く知られているジップの法則（Zipf's law）「出現頻度がk番目の単語が全体に占める割合は1/kに比例する」という経験則を思い出してもらうと「人手が書いた文章と統計学の不思議な関係」を少しイメージしやすくなるのではないかと思います。つまり「人間は作文において無意識のうちに統計学的に偏りのある振る舞いをしている」。それが統計的自然言語処理がうまく機能する理由なんだろうと想像しています。

実は、この統計学的に偏りのある振る舞いを、筆者は「Unix考古学」の執筆経験を通して直感的に体験していました。例えば、Dennis Ritchieはホームページ（※5）でUNIXの開発経緯に関して述べた多数の文書を公開しています。執筆の際には大変お世話になったのですが、複数の文章をなんども読み直すうちに「あれ、この言い回しは他のどこかでも見たことがある・・・」と気づくことが度々ありました。つまり、読者には「執筆者の癖」と理解できる記述が、統計的なテキスト分析では「統計学的な偏り」として把握できるようです。

ちなみにDennis Ritchieの最も分かりやすい癖は、PCCの開発者をSteve Johnsonと記していたところです。Ritchieの記述にはすべてこの名前が使われていたのですが、実は彼の本名はStephen Johnsonで、彼自身が執筆した論文やWikipediaページなどではStephenと記述されてます。Ritchieの誤解だったのか、それとも彼はベル研ではSteveという愛称で呼ばれていたのか定かではありませんが、いずれにせよ、事実の後追いをしている筆者には「どんな条件で検索しても文献がまったく引っかからない」非常に困惑させられる経験をすることになりました。

どうやら統計的自然言語処理とは人間が書いたテキストを対象に統計学的な偏りから様々な新たな知見を得る研究のようです。

（※5）Dennis Ritchie（https://www.bell-labs.com/usr/dmr/www/）。

3.技術トレンド

IIJの技術

関連リンク

Internet Infrastructure Review（IIR）Vol.33 2016年12月15日

3.6 統計的自然言語処理と"コーパス"

Internet Infrastructure Review（IIR）Vol.33
2016年12月15日