Skip to content

Japanese IOB2 tagged corpus for Named Entity Recognition.

Notifications You must be signed in to change notification settings

Hironsan/IOB2Corpus

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 

Repository files navigation

概要

hironsan.txtは、ウィキニュース日本語版をMeCabで形態素解析してIOB2タグでタグ付けしたコーパスです。

全部で500文にタグ付けしています。

タグ付けの基準はIREXの定義に基づいています。(だいたい)

ウィキニュース日本語版のライセンスはクリエイティブ・コモンズ-表示-2.5です。

ja.wikipedia.conllは、Wikipedia日本語版から抽出したテキストをMeCabで形態素解析してタグ付けしたコーパスです。

Releases

No releases published

Packages