[Japanese|English]
文間の関係の解析
以下の3文について考えてみましょう
- 太郎は,朝,学校に向かっていた.
- 途中,獰猛そうな犬に出くわしたので,遠まわりした.
- そうしたら,学校に遅刻した.
これらの3文を読めば,われわれは,1〜3の間に何らかのつながりがあるこ とがわかります.例えば,3文目で「遅刻した」とあるのは,2文目の 太郎が「遠まわりした」のが原因になっています.また,3文目には主語 がありませんが,このテキストをちゃんと理解できれいれば「太郎」であるこ とはすぐにわかります.このように,テキスト中の文間のつながりを明らかに することを「談話構造解析」と呼んでいます.
文間の関係にどのようなものがあるのかについては,いろいろな定義があ ると思います.ここでは以下に示す因果と背景という2つの関係を定義します.
- 因果: (原因→結果)
ある文で原因が,別の文でその結果が述べられている - 背景: (背景→事実)
ある文で述べられている事実の背景が,別の文で述べられている
この定義に従えば,上の3文の関係を次のように表すことができます.
1─┐ │背景 ↓ 2─┐ │因果 ↓ 3
われわれのグループでは,テキストの談話構造を自動的に解析する手法につい て研究しています.このような解析ができると,「太郎はなぜ遅刻したのか?」 という質問に対して,文3と因果関係にある文2を答えとして返すような質問 応答システムが実現できそうです.また,背景を述べている個所よりも事実を 述べている個所が,原因を述べている個所よりも結果を述べている個所が重要 だと考えれば,上の3文から最も重要な文(この場合,文3)を抜き出す要約シ ステムなども作れそうです.もっとも,この場合「(文3)そうしたら,学校に 遅刻した.」だけ抜き出して提示しても意味が分からないので,文2とのつな がりをしめす「そうしたら,」を削除したり,「太郎は」という主語を補う といった処理も同時に行う必要があります.われわれは, 抜き出した文を書き換えて読みやすい要約を生成する 方法についても研究しています.
ある一つの話について書かれた複数の新聞記事を集めてみましょう。
例えば、「iモードのサービス開始」に関する複数の新聞記事を集めてみます。
新聞記事A
- NTT移動通信網(ドコモ)は九日、携帯電話による情報提供サービス 「iモード」の契約件数が百万件を突破したと発表した。
- 今年二月二十二日のサービス開始以来、約半年で大台に乗った。
- iモードは、情報配信からチケット予約や通信販売などの電子商取引まで の多様なサービスが売り物。
新聞記事B
- NTT移動通信網(ドコモ)は十九日、携帯電話による情報提供サービス 「iモード」の契約件数が十八日で二百万件を突破したと発表した。
- 「iモード」は、今年二月二十二日のサービス開始以来、一貫して好調な 伸びを見せ、約半年たった八月八日に百万件を突破した後、わずか十週 間で二百万件の大台に乗った。
- 「iモード」は、情報配信からチケット予約や通信販売などの電子商取引 まで多様化したサービスが売り物だ。
ここで、新聞記事Aの1番目の文と新聞記事Bの1番目の文を比較してみましょう。 2つの文間では、「iモード」の契約件数が100万件から200万件へと変化し ています。 また、新聞記事Aの3番目の文と新聞記事Bの3番目の文を比較してみましょう。 2つの文間では、「iモード」について、同じ内容を述べています。
この例のように、同じ一つの話について書かれた複数の新聞記事を集めて、異な
る新聞記事中の文間を比べてみると、文間には様々な関係があります。
先程の例では、新聞記事Aの1番目の文と新聞記事Bの1番目の文の間では、数値が
変化しているので「推移」という関係が成り立ち、
新聞記事Aの3番目の文と新聞記事Bの3番目の文の間では、同じ内容を述べている
ので「同等」という関係が成り立ちます。
われわれのグループでは、異なる新聞記事中の文間関係を自動的に解析する手法 につい て研究しています。このような解析ができると、様々な分野で役に立ちます。 例えば、異なる文書中の文間で同じ内容を述べていると分かれば、複数のテキス トから要約文を抽出するとき に、内容が重複した冗長な要約を避けることができます。 また、テキスト間で数値の変化を述べていると認識できれば、数値が時間ととも に変化 する動向情報の可視化が可能となり、情報をテキストで出力するよりも分かり易 い要約となります。