日本語判決書を用いたデータセットの構築

Date:

More information here

近年、法律ドメインにおいても自然言語処理研究が活発になりつつあるが、海外では判決書を元に作成されたデータセットが容易に入手可能な状況となっている一方で、日本語で書かれた日本法に対応するデータセットの普及は進んでいない。日本の言語及び法制度の特徴が反映されたデータに基づいて既存手法を検証するため、そして新規手法の研究開発を促進するためにも、日本語・日本法に基づくデータセットの整備・共有は急務である。
本発表では、過去に構築した日本語判決書議論マイニングデータセットおよび、現在構築中の日本語判決書判断予測データセットについて、各データセットの概要とその構築の過程を紹介する。特に、法律ドメインにおけるアノテーションに関して、作業者の選定から、アノテーションスキームの開発・専門家を動員したアノテーションの運用とその課題まで、実際のデータセット構築を通して得られた知見について共有する。