|
About Research
大量の文書を読む代わりに,その簡潔な要約を読むことで済ませたいという状況は多く存在します.本研究室では,そのような要約を自動的に生成する,すなわち文書要約のための手法に関する研究を行っています.特に,文書が要約される仕組みを数理的なモデルで表現することにより,文書要約を実現するというアプローチを採っています.
最大被覆モデル
文を概念のかたまりの集合として表現し,なるべくたくさんの概念を含むような文書を生成することで要約とする最大被覆モデルを提案しました.
(EACL2009,人工知能学会論文誌2008)
施設配置モデル
文と文の推論関係を利用し,文書全体を推論関係で被覆するような文書を生成することで要約とする施設配置モデルを提案しました.
(CIKM2010,人工知能学会論文誌2010)
ツイッター要約
ある特定の話題に関するツイートを収集し,そこでどんなことが発言されているかをまとめた要約を生成する,ツイッター要約問題にも取りかかっています.
(ECIR2011)
いわゆる風評被害と呼ばれる現象が,インターネットの普及で新たな性質を帯びてきています.これまでは,噂は個人から個人へと伝わるもので,噂を聞く人の真偽判断や信頼性判断が防波堤となるため,あまりに無根拠な噂は現状と比較すると広まりにくいものでした.しかしインターネットでは,電子掲示版あるいは電子メールという形で, 誰でも安価に噂を流すことが可能であり,しかも瞬時に何百万人という人の目に触れる状態を作ることが可能です.たとえば, 「○○会社の○○というパソコンは壊れ安い」という電子掲示版への書き込みは,そのパソコンの売上げを左右しかねず,企業だけでなく,「○○大学の○○研究室は雰囲気が悪い」などという大学機関への風評や,個人への攻撃も,その威力は増すばかりです.逆に,「○○というパソコンは使い易い」など,消費者の生の意見が書かれた書き込みも多くあり,これらは例えば自分がパソコンを購入しようとしているときに役に立ちます.どちらも,真偽はさておき,人の意見・感情が表現されたものであるといえます.
本研究室では,テキストにおけるこのような人の意見・感情を抽出し,分類する研究を行っています.インターネットのような巨大なデータに対応するために,主に統計学習によるアプローチを採っています.
単語の感情極性
テキストにおける感情を扱う際の第一ステップとしては,単語の感情極性分類(各単語が良い意味か悪い意味かを判定)があります.私たちはこの問題に対し,統計物理的アプローチを提案しています.まず,辞書,シソーラス(類義語辞典),コーパスデータを用いて,極性が同じになりやすい単語ペアを抽出し,そしてそれらのペアを連結することにより巨大な語彙ネットワークを構築します.たとえば,「良い」と「良好」が類義語関係にあるので,この二単語を結ぶなどの作業を行います.ここで,単語の感情極性を電子スピンの方向とみなし,語彙ネットワークをスピン系とみなして,語彙ネットワークの状態(各スピンがどの方向を向いているか)を計算します.この計算結果を見ることにより,単語の感情極性がわかるのです.
(SIGNL-166, NLP2005, ACL2005, NLP2011)
句の感情極性
次に単語から一つレベルを上げて,句の感情極性を考えます.つまり,「感染率が高い」はネガティブ(悪い意味)ですが,「成功率が高い」はポジティブ(良い意味)ということを判定したいのです.私たちはこの問題に対し,隠れ変数モデルと呼ばれる,単語のクラスタ(似た単語のグループ)を自動的に発見するような枠組を用いることを提案しています.これにより,たとえば,高いことがネガティブであるような名詞(リスク,死亡率,感染率,発症率など)が集まったクラスタを自動的に発見することができ,それにより正確な分類が可能になります.
(SIGNL-168, EACL2006, NAACL2007)
また,感情表現や評価表現が現れやすい文脈を自動的に学習していくことにより,表現を分類する手法も提案しています.これは,半教師付き学習として有名なEMアルゴリズムを利用することにより実現しています.
(IEICE2007)
文書の感情極性
さらに上のレベルとしては,文書の感情極性分類というタスクが考えられます.これに対しては,テキストマイニングを利用した手法を提案しています.評価が書かれた文書をたくさん収集して,そこに頻出する表現をマイニングし,それらを文書の分類に利用することにより,より高精度な分類を可能にしました.また,単語の感情極性が文脈によりどのように反転するかをとらえたモデルも提案しています.
(PAKDD'05, IJCNLP2008)
これら以外に,進行中の研究としては,「評価対象、評価属性などの抽出」,「賛成・反対などの意見分類」などがあります.
自然言語テキストは1次元の文字列で表現されますが,そこに出現する語と語,節と節,文と文の間,さらには文書と文書の間には様々な関係が存在しており,自然言語の“意味”を理解するためには,これらの関係を認識することが必要となります.本研究室では,自然言語テキスト中に存在する様々な関係を計算
機で認識することを目指した研究を行なっています.
照応解析
照応とは、代名詞や指示語など(照応詞)を用いて、主に先行文に出現した表現 (先行詞)を指し示す現象のことです.たとえば「太郎は車を買ったらしい.彼に価格を聞いたところ高いので驚いた.」というテキストでは「彼」は「太郎」のことを指しています.さらに,「高い」のガ格にあたる表現は省略されていますが,この省略されたガ格は「車」のことを指しており,また,直接同一のものを指してはいないものの,「価格」は「車」の価格を意味しています.このような関係はそれぞれ「ゼロ照応」,「連想照応」などと呼ばれ,その認識はテキストの高度な理解を目指す上で必要不可欠な処理であると考えられます.そこで,大規模なコーパスから得られる知識を基に,テキスト中に存在する種々の照応関係の認識を目指した研究を行っています.
(Sasano et al. Coling08, NAACL09, EMNLP09)
テキストの一貫性モデル
テキストを理解するためには,語と語の関係だけでなく,文と文の繋がりや,話題の繋がりを捉える必要があります.また,文と文の繋がりの良さなど,テキストの局所的な一貫性を評価する技術は,文章の添削・校正などにも有用であると考えられます.そこで,テキストに出現する要素の構文的な役割の遷移の傾向に基づき,テキスト中の各文について,その先行文脈における局所的一貫性を判定するモデルを提案しています.
(自然言語処理,Vol.17,No.1,2010)
文書横断文間関係
同一の話題に関して書かれた文書であれば,異なる文書間であっても,同じ内容を表す文(同等)が存在したり,ある対象の異なる時点の状態を表す文(推移)が存在したりします.このような複数文書間の文同士の関係を特定することは,複数文書要約や情報抽出等において有用であると考えられます.そこで,文書間の関係のうち「同等」と「推移」に着目し,これらの関係を機械学習を用いて特定する手法を提案しています.
(言語処理学会第12回年次大会, pp.496-499, 2006)
近年のblogや口コミサイトなどのようなCGMの流行から,一般的な消費者が発信する情報がWeb上に数多く存在するようになりました.このようなテキストから社会の動向や消費者の意見を抽出し分析する手法,また,そのために必要な要素技術についての研究を行っています.たとえば,blogや口コミサイトなどから大量のテキストを収集し分析することで,ある製品についての評判や,あるキーワードがどの程度注目されているか,また,いつから注目されるようになったのか,といった情報を得ることが可能になります.本研究室では,blogを自動的に収集し,マイニングを行うWebサービス,blogWatcherを開発しました(現在は公開終了).このサービスには評判情報の抽出をはじめ,以下のような技術が使われています.
blogの著者の性別推定
blogのエントリは話し言葉に近い文体で書かれることが多いという特徴があります.そこに着目し,日本語の話し言葉の特徴を素性に利用した著者の性別推定モデルを提案しました.
(言語処理学会第12回年次大会, 2006)
トピックワードの検出
ある話題に注目が集まると,その話題に関係する特定の語句の出現頻度が急激に上がるという現象が起こります.このような急激な増加を検出する手法にKleinbergの提案するものがありますが,この手法を拡張し,より現実的なblogの出現傾向に対応した手法を提案しました.
(自然言語処理研究会報告, Vol.2004, No.23, pp.85-92, 2004)
また,この他にもYahoo!知恵袋などのコミュニティ型のQAサービスやWikipediaに着目した研究も行っています.
QAサイトの発言間の関係を考慮した要約
Yahoo!知恵袋のようなコミュニティ型のQAサービスでは,一つの質問に複数の回答が寄せられることがあります.これらの回答には互いに似ているものや反対のことを述べているようなものもあり,こういった回答間の論理関係を同定する手法を提案しています.
(人工知能学会第24回全国大会(JSAI2010), 2010)
Wikipediaの語彙資源を利用したWeb型質問応答システム
Wikipediaは多くのユーザによって編纂されている更新頻度の高い百科事典であり,ここから同義語・関連語などの情報を抽出し言語資源として利用する質問応答システムを提案しています.
(情報処理学会DICOMO2008シンポジウム, pp.1793-1802, 2008)
それ以外にも,以下のような研究テーマでこれまで研究を進めています.
ヴァーチャルエージェントの自然言語での制御
ロボットや,コンピュータ上で動作するヴァーチャルエージェントとコミュニケーションを取りながら,指示を出すことでその行動をコントロールするシステムを開発しています.
(言語処理学会第11回年次大会発表論文集(NLP2005), pp.113-116, 2005)
テキスト中の登場人物間の人間関係の推定
小説などのテキスト中に記述されている人間間の関係(たとえば,「仲が悪い」)を,テキスト中の記述から推定するシステムを開発しています.
(言語処理学会第14回年次大会発表論文集, Vol.2008, No.14, pp.380-383, 2008)
Web pageの携帯端末向け表示への自動変換
WWW上のページはすべてが携帯端末向けに表示されることを前提に書かれておらず,そのようなページを携帯端末で表示しようとすると,画像が多量に含まれていて,表示に問題が生じることも多々あります.そこで,携帯端末向けにページを加工する際,ページ中の画像をどのように表示するべきか自動で判定し,ページを携帯端末向けに適切に変換するシステムを開発しています.
(情報処理学会研究報告. DD, [デジタル・ドキュメント], Vol.2009, No.35, pp.15-22, 2009)
WWW上のテキストからのオノマトペ辞書の自動構築
「ぱくぱく」などの擬音語,擬態語を総称してオノマトペといいますが,このような単語は感覚的なものなので,新しい単語がどんどん生まれては消えていっています.そこで,WWW上のテキストから,辞書に載っていないようなオノマトペ単語を自動的に発見し,辞書を自動構築するシステムを開発しています.
(自然言語処理研究会報告, Vol.2003, No.23, pp.63-70, 2003)
テキストの校正支援
Wordなどにも同様の機能がありますが,我々が書いているテキスト中のおかしい個所を検出して教えてくれる機能が校正支援です.これまでの校正支援では,どんなテキストを書くときでも同じように間違いを指摘してくれますが,書くテキストが特定のジャンルならば不自然であるような間違いも色々あります(たとえば,論文を書くときに「うまく行った」と書くと変で「成功した」と書いた方がよい).このようなジャンルごとに不自然となるような誤りを自動で検出する校正支援システムを開発しています.
多様性を考慮した推薦システム
ユーザごとにお勧めの商品,情報を提示してくれるシステムが推薦システムです.これまでの推薦システムは,似たような商品,情報を提示しがちでしたが,提示する商品,情報の多様性を考慮して,提示するものの画一性を減らし,よりよい推薦が行えるシステムを開発しています.