TSC 第3回ミーティング議事録
by 難波
日時:2001年2月9日
場所:国立情報学研究所 12階 1208号室
参加者一覧(11名):
(敬称略,順不同)
東京工業大 奥村
追手門学院大 福島
富士通研 仲尾
豊橋技科大 増山
立命館大 福本
東京大 加藤
IBM 武田
リコー 亀田, 望主
CRL 野畑
北陸先端大 難波
======================================================================
1. はじめに
TSC-1について
- 主催者側の負荷が大変大きかった.
- 次回(TSC-2)は, 少し規模を縮小して実施したい.
- TSC-2は, TSC-1の課題A-2「人間の自由作成要約との比較」を継続し,
また, 新しい課題として複数テキストの要約を考えている.
======================================================================
2. TSC-2に関する議論
TSC-2のタスクとして以下の2課題を検討(仮)
a) 人間の自由作成要約と比較可能な要約
TSC-1 課題A-2 の継続.
検討課題:
人間の作成する要約は主観が入る. 従って, 現状のように一テキスト
あたり一人の要約筆記者が要約を作成するのでは必ずしも十分ではない.
今後は, 一テキストあたり作成する要約筆記者数を増やす方が良いので
はないか.
b) 複数テキストの要約
対象テキスト:
b)-1 複数の新聞記事の要約
* ある事件に関する報道記事とその続報記事から, 一つの要約を作成
* ある事件に関する複数の新聞社の記事から, 一つの要約を作成
* 似たような傾向を持つ(あるいは共通点がある)複数の記事から,
一つの要約を作成. (例えば, ある短い期間に毒薬の事件が多発した
ような場合, 複数の事件間に直接関連がなくても, 毒薬に関する
事件として一つの要約にまとめることが出来る)
b)-2 ウェブ文書の要約
* ある検索クエリ(例えばある人物, ある事件)に関する検索結果の
集合から一つの要約を作成
→ 一種のQAタスクと捉えることができ, 将来的には
QAC(Question and Answering Challenge)との統合も考えられる.
※ 現状では, 著作権の問題がクリアできそうなウェブ文書は,
政府機関のものが中心的.
b)-3 特許, 論文等の要約
* 複数の特許あるいは論文から一つの要約を作成.
現在利用できそうなフルテキストの論文データとして「言語処理
学会」論文誌のデータなどがある.
要約率:
タスクを設定する上で, 対象文書数(要約率)を考慮する必要がある.
例えば,
2-3文書から一つの要約を作成
5-7文書から一つの要約を作成
10以上の文書から一つの要約を作成
など.
評価方法:
- 生成された要約の内容, 可読性等を人間が主観的に評価する.
(今年の夏に行われる TIDES, Document Understanding Conferenceにおける
評価方法と同じ)
- タスク参加者が要約結果を持ちより, ディスカッション形式でお互いの結果
の評価を行う.
- ベースラインシステムとの比較
検討項目:
- b)-1について, 要約対象のテキストに, 事件とは無関係の(non-relevantな)
記事を含めるかどうか. 含める場合, ロバストな要約システムが要求される.
- 要約システムには, 被要約対象のテキスト集合だけでなく, そのテキストが
どのような観点で集められたか, といった情報も一緒に与える必要があるの
ではないか. (b)-2の場合は検索クエリに相当する)
- どの程度の品質の要約を目指すのか.
* informativeで, かつ人間の作成する要約に近い高品質の要約
* informativeではあるが, 重要点がわかる程度の要約
- 人間が要約を作成する際, 様々な作成方法(観点)が存在しうるので, 一
課題について, 複数の被験者が要約を作成する必要があるのではないか.
======================================================================
3. TSC-1に関する議論, 報告
正解データの作成(現況報告):
dry runおよびformal runで, それぞれ30記事に対し, 被験者に課題A-1,
A-2, Bの正解データを作成してもらった. これらの記事とは別の120記事
に対しても, 現在正解データを作成してもらっている.
その他:
- 課題A-1 (重要文抽出タスク) 評価について
A-1タスク参加システムの多くが共通にランク1位と判定した文と, 被験者に
よる評価結果を比較すれば, 両者の間にある程度の関係が見い出せるのでは
ないかと考えられる.
従って, A-1参加システムに, 課題A-1で用いた記事とは別に, 大量の新聞
記事に対して各記事中の文を重要度に応じてランク付けしてもらったデー
タを用意しておけば, 大量記事に対してA-1参加システム以外のシステムが
選択した上位n件の重要文と, A-1参加システムが選択した上位n件の重要文
と比較することで, システムの評価ができるのではないか.
また, このようなデータは, IRやquery-biased summary等, 色々な目的に
利用できるのではないか.
======================================================================
4. 連絡事項
- TSC2 日程:
2001年6-7月 CFP
? dry run
?? formal run
2002年10月 ワークショップ
======================================================================