Extracting argument structure from Japanese judgment documents for structure-based summarisation
Published in Doctoral Thesis, 2021
Abstract
本論文では,日本の判決書の自動要約への応用を目的として,判決書からその議論構造を自動抽出する手法を提案した.裁判官や検事,弁護士等,法律の運用に携わる人々は,過去の関連事件の調査に膨大な時間を費やしている.裁判の記録として最も 重要な判決書は数十ページに及ぶことも多く,長く複雑な文が使われるため,専門家でも分析に時間を要する.そのため,専門家に対する支援は必要不可欠であり,計算機による判決書の要約は重大な意義を持つ.判決書は裁判官が法的議論を文章として記録したものであり,その重要な特徴として,裁判官の最終的判断である判決を最上位とする階層的議論構造を持つ.階層的議論構造とは,ある議論が根拠として別の議論を支持する構造である.「争点 (Issue Topic)」と呼ばれる論点ごとの議論が判決を支持し,各争点の結論はさらに下位の階層の議論によって支持される.そこで,本論文ではこの構造を自動抽出した上で,判決 書の要約へ応用するシステムの枠組みを提案した.本論文の貢献はこの枠組みを構成する,1)議論構造抽出の定式化および人間による注釈付けのための基準の策定, 2)定式化した議論構造抽出タスクに基づいた日本国判決書コーパスの構築,3)議論構造自動抽出モデルの提案, 4)議論構造の判決書自動要約への応用の4点である.
提案した議論構造抽出タスクは,修辞役割分類,議論的支持関係抽出,争点の特定,及び,争点関連付けの4つからなる.修辞役割分類は各文が文書中で果たす役割を分類するタスクで,本論文では「結論」や「法条の引用・参照」を含む計7つの分類を定義した. 議論的支持関係抽出は文同士の関係のうち,一方が根拠となりもう一方がその根拠を踏まえた主張を展開するような支持関係を特定するタスクである. 争点の特定では,ある判決書中での中心的な議題として提示されているトピックを含む文を特定する。争点関連付けでは,判決書中の各文を特定された争点に対して関連付ける.これら各タスクについて,人手による注釈付けが安定的にできることを検証するために Cohen の Kappa をはじめとする注釈付け一致度を計測した結果,各タスクの注釈付けが安定的に実施できることを確認した. 提案した各タスクの注釈付けを行い,日本語の法律分野では初となる議論構造注釈付きの判決書コーパスを構築した.コーパスは計120の民事判決書から構成され,文数にして約4.5万文,文字数にして320万文字の規模となっている.また,コーパス中の各判決書に対して専門家により作成された判決書要約が付与されている.
構築したコーパスに基づいて議論構造の各タスクの自動抽出手法を提案した.本論文の顕著な貢献として,判決書中に存在する節の見出し文と議論構造の関係に着目し,見出し文の情報を議論構造の自動抽出手法に組み込んだ点が挙げられる.修辞役割分類では,階層型再帰ニューラルネットワーク(RNN)を用いて文間文脈を考慮するモデルを元に,文が属する見出し文を専用に処理する独立した見出しエンコーダからの素性を考慮して各文の修辞役割を予測する手法を提案した.また,見出しエンコーダを用いて,見出し文からその見出しの配下にある文が担いうる修辞役割の集合を予測する副タスクを同時に学習する手法を提案した.提案したモデルはいずれも従来の階層型RNNモデルを用いた手法に対して有意に高い性能を示した.議論的支持関係の抽出タスクでは,支持関係の支持文と被支持文が特定の修辞役割を担うことから,支持関係抽出タスク単独で学習する手法に加えて,修辞役割分類を同時に学習する手法を提案し,比較実験を行った.実験結果から,修辞役割分類との同時学習は支持関係抽出タスクの性能を有意に向上させることを示した.争点抽出および関連付けタスクでは,事前学習済みモデルBERTを各タスクにfine-tuningすることで抽出・関連付けの自動化を行った. 争点抽出タスクでは,入力文に対してその文が属する見出しとその上位に連なる見出しを付加した上で学習することで,性能が有意に向上することを示した. 争点関連付けタスクでは,見出し配下の文が同一の争点に関連付けられることを利用し,争点-見出しのペアの二値分類タスクに簡約化した.
議論構造を考慮することが要約の性能向上に資することを検証するため,議論構造を用いて要約内容を誘導する機構を導入した要約器と通常の要約器の性能を比較する実験を行った.要約内容の誘導機構は,修辞役割分類と見出し情報を用いて要約器への入力を制御する前段処理と,争点の情報と議論的支持関係を用いて要約器からの出力を編集する後段処理から構成される.自動抽出した議論構造を誘導機構に用いた実験では,ROUGE-1を基準とした評価において有意な性能向上がみとめられ,コーパスに人手で付与された議論構造を誘導機構に用いた実験では,ROUGE-1, 2, L を基準とした評価において誘導機構による有意な性能の向上が認められた.
以上要するに,本論文は 4 つのサブタスクから成る議論構造抽出タスクを定式化し,そのための安定的な注釈付け基準を提供し,各サブタスクの自動化に対して見出しを活用した抽出モデルを提案した. 議論構造を利用した自動要約の枠組みは,議論構 造抽出の精度の更なる向上が必要であるものの,要約性能の向上に資するものであるという結論が得られた.
Recommended citation:
Hiroaki Yamada. 2021. Extracting argument structure from Japanese judgment documents for structure-based summarisation. Doctoral thesis.