Extracting argument structure from Japanese judgment documents for structure-based summarisation

Published in Doctoral Thesis, 2021

Abstract
本論文では,日本の判決書の自動要約への応用を目的として,判決書からその議論構造を自動抽出する手法を提案した.裁判官や検事，弁護士等，法律の運用に携わる人々は，過去の関連事件の調査に膨大な時間を費やしている.裁判の記録として最も重要な判決書は数十ページに及ぶことも多く，長く複雑な文が使われるため，専門家でも分析に時間を要する.そのため，専門家に対する支援は必要不可欠であり，計算機による判決書の要約は重大な意義を持つ.判決書は裁判官が法的議論を文章として記録したものであり，その重要な特徴として，裁判官の最終的判断である判決を最上位とする階層的議論構造を持つ.階層的議論構造とは，ある議論が根拠として別の議論を支持する構造である.「争点 (Issue Topic)」と呼ばれる論点ごとの議論が判決を支持し，各争点の結論はさらに下位の階層の議論によって支持される.そこで,本論文ではこの構造を自動抽出した上で,判決書の要約へ応用するシステムの枠組みを提案した.本論文の貢献はこの枠組みを構成する,1)議論構造抽出の定式化および人間による注釈付けのための基準の策定, 2)定式化した議論構造抽出タスクに基づいた日本国判決書コーパスの構築，3)議論構造自動抽出モデルの提案, 4)議論構造の判決書自動要約への応用の4点である.
提案した議論構造抽出タスクは，修辞役割分類，議論的支持関係抽出，争点の特定，及び，争点関連付けの4つからなる.修辞役割分類は各文が文書中で果たす役割を分類するタスクで，本論文では「結論」や「法条の引用・参照」を含む計7つの分類を定義した.　議論的支持関係抽出は文同士の関係のうち，一方が根拠となりもう一方がその根拠を踏まえた主張を展開するような支持関係を特定するタスクである.　争点の特定では，ある判決書中での中心的な議題として提示されているトピックを含む文を特定する。争点関連付けでは，判決書中の各文を特定された争点に対して関連付ける.これら各タスクについて，人手による注釈付けが安定的にできることを検証するために Cohen の Kappa をはじめとする注釈付け一致度を計測した結果，各タスクの注釈付けが安定的に実施できることを確認した.　提案した各タスクの注釈付けを行い，日本語の法律分野では初となる議論構造注釈付きの判決書コーパスを構築した.コーパスは計120の民事判決書から構成され，文数にして約4.5万文，文字数にして320万文字の規模となっている.また，コーパス中の各判決書に対して専門家により作成された判決書要約が付与されている.
構築したコーパスに基づいて議論構造の各タスクの自動抽出手法を提案した.本論文の顕著な貢献として，判決書中に存在する節の見出し文と議論構造の関係に着目し，見出し文の情報を議論構造の自動抽出手法に組み込んだ点が挙げられる.修辞役割分類では，階層型再帰ニューラルネットワーク(RNN)を用いて文間文脈を考慮するモデルを元に，文が属する見出し文を専用に処理する独立した見出しエンコーダからの素性を考慮して各文の修辞役割を予測する手法を提案した.また，見出しエンコーダを用いて，見出し文からその見出しの配下にある文が担いうる修辞役割の集合を予測する副タスクを同時に学習する手法を提案した.提案したモデルはいずれも従来の階層型RNNモデルを用いた手法に対して有意に高い性能を示した.議論的支持関係の抽出タスクでは，支持関係の支持文と被支持文が特定の修辞役割を担うことから，支持関係抽出タスク単独で学習する手法に加えて，修辞役割分類を同時に学習する手法を提案し，比較実験を行った.実験結果から，修辞役割分類との同時学習は支持関係抽出タスクの性能を有意に向上させることを示した.争点抽出および関連付けタスクでは，事前学習済みモデルBERTを各タスクにfine-tuningすることで抽出・関連付けの自動化を行った. 争点抽出タスクでは，入力文に対してその文が属する見出しとその上位に連なる見出しを付加した上で学習することで，性能が有意に向上することを示した. 争点関連付けタスクでは，見出し配下の文が同一の争点に関連付けられることを利用し，争点-見出しのペアの二値分類タスクに簡約化した.
議論構造を考慮することが要約の性能向上に資することを検証するため，議論構造を用いて要約内容を誘導する機構を導入した要約器と通常の要約器の性能を比較する実験を行った.要約内容の誘導機構は，修辞役割分類と見出し情報を用いて要約器への入力を制御する前段処理と，争点の情報と議論的支持関係を用いて要約器からの出力を編集する後段処理から構成される.自動抽出した議論構造を誘導機構に用いた実験では，ROUGE-1を基準とした評価において有意な性能向上がみとめられ，コーパスに人手で付与された議論構造を誘導機構に用いた実験では，ROUGE-1, 2, L を基準とした評価において誘導機構による有意な性能の向上が認められた.
以上要するに，本論文は 4 つのサブタスクから成る議論構造抽出タスクを定式化し，そのための安定的な注釈付け基準を提供し，各サブタスクの自動化に対して見出しを活用した抽出モデルを提案した. 議論構造を利用した自動要約の枠組みは，議論構造抽出の精度の更なる向上が必要であるものの，要約性能の向上に資するものであるという結論が得られた.

Recommended citation:
Hiroaki Yamada. 2021. Extracting argument structure from Japanese judgment documents for structure-based summarisation. Doctoral thesis.

Share on

Twitter Facebook LinkedIn