ページの先頭です


ページ内移動用のリンクです

  1. ホーム
  2. IIJの技術
  3. セキュリティ・技術レポート
  4. Internet Infrastructure Review(IIR)
  5. Vol.33
  6. 3.技術トレンド

Internet Infrastructure Review(IIR)Vol.33
2016年12月15日発行
RSS

目次

3.5 Natural Language Toolkit(NLTK)で利用できるNER

今日ではNatural Language Toolkit(NLTK)にNERが搭載されているので、図-1のようなPythonスクリプトを使って比較的お手軽に固有表現の抽出を試すことができます。

このスクリプトは英文のテキストファイル名を渡すとNERを実行して図-2のような出力をします。

図-1 named_entity_recognition.py

図-2 サンプルの英小文とNLTKの固有表現認識の実行結果

出力は各行単語、品詞、NEタグが表示されています。NEタグの先頭がB-の場合は固有表現の先頭、I-の場合は継続語を意味します。PERSONは人名、ORGANIZASIONは組織名、GSPは"Geo-Socio-Political group"の略です。"Hillary Clinton"や"Donald Trump"が人名として認識されていることが分かります。

図-3 PERSON of "Twenty Years of Berkeley Unix"

次に、もう少し大きなテキストでの事例として「Unix考古学」の執筆でもお世話になったMarshall Kirk McKusickの"Twenty Years of Berkeley Unix"のテキストから人名を抽出してみました(図-3)。

誤認識もありますが、Ken ThompsonやDennis Ritchie、Bill Joyと言った有名人だけでなく、Kirk Mckusick以外のBSD UNIXの開発メンバーであったOzalp Babaoglu、Sam Leffler、Mike Karels、Keith Bosticの名前も正しく認識されています。このように、特定の目的(例えばUNIXの歴史に関するトピック)のために特別なチューニングをしなくても、それなりの精度で固有表現を抽出できるのが、最近の統計的自然言語処理の研究成果なのでしょう。

3.技術トレンド

ページの終わりです

ページの先頭へ戻る