Wikipediaを用いた日本語の固有表現抽出データセットの公開
Tags
ML事業部の近江崇宏です。
ストックマークではプロダクトで様々な自然言語処理の技術を用いていますが、その中のコア技術の一つに固有表現抽出があります。固有表現抽出はテキストの中から固有表現(固有名詞)を抽出する技術で、例えば「Astrategy」というプロダクトでは、固有表現抽出を用いてニュース記事の中から企業名を抽出しています。(企業名抽出については過去のブログ記事を参考にしてください。)
一般に、固有表現抽出を行うためには、大量のテキストに固有表現をアノテーションした学習データをもとに機械学習モデルの学習を行います。今回、ストックマークは固有表現抽出のための日本語の学習データセットを公開いたします!ご自由にお使いいただければと思います!
レポジトリ:https://github.com/stockmarkteam/ner-wikipedia-dataset
固有表現をハイライトしたサンプル:https://stockmarkteam.github.io/ner-wikipedia-dataset/index.html
このデータセットは日本語版Wikipediaから抜き出した文に対して、固有表現のタグ付けを行なったもので、全体で約4千件ほどとなっています。アノテーションを行なった固有表現のカテゴリーと固有表現数は下のようになっています。分類は関根の拡張固有表現階層を参考にしました。
タイプ | 固有表現数 | 備考 |
---|---|---|
人名 | 2382 | |
法人名 | 2311 | 法人または法人に類する組織 |
政治的組織名 | 707 | 政治的組織名、政党名、政府組織名、行政組織名、軍隊名、国際組織名 |
その他の組織名 | 658 | 競技組織名、公演組織名、その他 |
地名 | 1443 | |
施設名 | 512 | |
製品名 | 576 | 商品名、番組名、映画名、書籍名、歌名、ブランド名等 |
イベント名 | 526 |
今後、このデータセットを用いた実験やスクリプトなども公開できればと考えています。