Research

文書要約

大量の文書を読む代わりに,その簡潔な要約を読むことで済ませたいという状況は多く存在します.本研究室では,そのような要約を自動的に生成する,すなわち文書要約のための手法に関する研究を行っています.特に,文書が要約される仕組みを数理的なモデルで表現することにより,文書要約を実現するというアプローチを採っています.

最大被覆モデル

文を概念のかたまりの集合として表現し,なるべくたくさんの概念を含むような文書を生成することで要約とする最大被覆モデルを提案しました.
(EACL2009,人工知能学会論文誌2008)

施設配置モデル

文と文の推論関係を利用し,文書全体を推論関係で被覆するような文書を生成することで要約とする施設配置モデルを提案しました.
(CIKM2010,人工知能学会論文誌2010)

ツイッター要約

ある特定の話題に関するツイートを収集し,そこでどんなことが発言されているかをまとめた要約を生成する,ツイッター要約問題にも取りかかっています.
(ECIR2011)

文圧縮と文選択を同時に行う要約モデル

文選択だけに依存した要約手法では,余分な部分を削除することができないために限界がある.そこで我々は,文を短くしつつ,文選択を行う手法を提案した.特に,依存構造木の部分木を抽出する問題として定式化し,高速デコーディング方法も開発した.また最近では,文間の構造を利用しつつ文圧縮と文選択を同時に行うモデルも新たに提案している.
(ACL2013, ACL2014)

Sentiment Analysis

いわゆる風評被害と呼ばれる現象が,インターネットの普及で新たな性質を帯びてきています.これまでは,噂は個人から個人へと伝わるもので,噂を聞く人の真偽判断や信頼性判断が防波堤となるため,あまりに無根拠な噂は現状と比較すると広まりにくいものでした.しかしインターネットでは,電子掲示版あるいは電子メールという形で, 誰でも安価に噂を流すことが可能であり,しかも瞬時に何百万人という人の目に触れる状態を作ることが可能です.たとえば, 「○○会社の○○というパソコンは壊れ安い」という電子掲示版への書き込みは,そのパソコンの売上げを左右しかねず,企業だけでなく,「○○大学の○○研究室は雰囲気が悪い」などという大学機関への風評や,個人への攻撃も,その威力は増すばかりです.逆に,「○○というパソコンは使い易い」など,消費者の生の意見が書かれた書き込みも多くあり,これらは例えば自分がパソコンを購入しようとしているときに役に立ちます.どちらも,真偽はさておき,人の意見・感情が表現されたものであるといえます.

本研究室では,テキストにおけるこのような人の意見・感情を抽出し,分類する研究を行っています.インターネットのような巨大なデータに対応するために,主に統計学習によるアプローチを採っています.

単語の感情極性

テキストにおける感情を扱う際の第一ステップとしては,単語の感情極性分類(各単語が良い意味か悪い意味かを判定)があります.私たちはこの問題に対し,統計物理的アプローチを提案しています.まず,辞書,シソーラス(類義語辞典),コーパスデータを用いて,極性が同じになりやすい単語ペアを抽出し,そしてそれらのペアを連結することにより巨大な語彙ネットワークを構築します.たとえば,「良い」と「良好」が類義語関係にあるので,この二単語を結ぶなどの作業を行います.ここで,単語の感情極性を電子スピンの方向とみなし,語彙ネットワークをスピン系とみなして,語彙ネットワークの状態(各スピンがどの方向を向いているか)を計算します.この計算結果を見ることにより,単語の感情極性がわかるのです.
(SIGNL-166, NLP2005, ACL2005, NLP2011)

句の感情極性

次に単語から一つレベルを上げて,句の感情極性を考えます.つまり,「感染率が高い」はネガティブ(悪い意味)ですが,「成功率が高い」はポジティブ(良い意味)ということを判定したいのです.私たちはこの問題に対し,隠れ変数モデルと呼ばれる,単語のクラスタ(似た単語のグループ)を自動的に発見するような枠組を用いることを提案しています.これにより,たとえば,高いことがネガティブであるような名詞(リスク,死亡率,感染率,発症率など)が集まったクラスタを自動的に発見することができ,それにより正確な分類が可能になります.
(SIGNL-168, EACL2006, NAACL2007)
また,感情表現や評価表現が現れやすい文脈を自動的に学習していくことにより,表現を分類する手法も提案しています.これは,半教師付き学習として有名なEMアルゴリズムを利用することにより実現しています.
(IEICE2007)

文書の感情極性

さらに上のレベルとしては,文書の感情極性分類というタスクが考えられます.これに対しては,テキストマイニングを利用した手法を提案しています.評価が書かれた文書をたくさん収集して,そこに頻出する表現をマイニングし,それらを文書の分類に利用することにより,より高精度な分類を可能にしました.また,単語の感情極性が文脈によりどのように反転するかをとらえたモデルも提案しています.
(PAKDD'05, IJCNLP2008)

音象徴の利用

オノマトペを含む日本語文の感情分類に音象徴を利用することを提案しています.例えば,「彼はニコニコと笑っていた」はポジティブですが,「彼はゲヒゲヒと笑っていた」はネガティブな感じがします.このように音から受ける印象が,評価極性にどのように影響するかを考察しています.
[自然言語処理2013]

 

これら以外に,進行中の研究としては,「評価対象、評価属性などの抽出」,「賛成・反対などの意見分類」などがあります.

人間の言語理解のモデル化

自然言語テキスト中に出現する語と語,節と節,文と文の間,さらには文書と文書の間には様々な関係が存在しており,自然言語の“意味”を理解するためにはこれらの関係を認識することが必要となります.本研究室では,自然言語テキスト中に存在する様々な関係を計算機で認識することを目指した研究を行なっています.

照応解析

照応とは、代名詞や指示語など(照応詞)を用いて、主に先行文に出現した表現(先行詞)を指し示す現象のことです.たとえば「太郎は車を買ったらしい.彼に価格を聞いたところ高いので驚いた.」というテキストでは「彼」は「太郎」のことを指しています.さらに,「高い」のガ格にあたる表現は省略されていますが,この省略されたガ格は「車」のことを指しており,また,直接同一のものを指してはいないものの,「価格」は「車」の価格を意味しています.このような「高い」と「車」,「価格」と「車」の関係はそれぞれ「ゼロ照応」,「連想照応」などと呼ばれ,その認識はテキストの高度な理解を目指す上で必要不可欠な処理であると考えられます.そこで本研究室では,大規模なコーパスから得られる知識を基に,テキスト中に存在する種々の照応関係の認識を目指した研究を行っています.
(EMNLP09 , IJCNLP2011)

テキストの一貫性モデル

テキストを理解するためには,語と語の関係だけでなく,文と文の繋がりや,話題の繋がりを捉える必要があります.また,文と文の繋がりの良さなど,テキストの局所的な一貫性を評価する技術は,文章の添削・校正などにも有用であると考えられます.そこで,テキストに出現する要素の構文的な役割の遷移の傾向に基づき,テキスト中の各文について,その先行文脈における局所的一貫性を判定するモデルを提案しています.
(自然言語処理,Vol.17,No.1,2010)

文書横断文間関係

同一の話題に関して書かれた文書であれば,異なる文書間であっても,同じ内容を表す文(同等)が存在したり,ある対象の異なる時点の状態を表す文(推移)が存在したりします.このような複数文書間の文同士の関係を特定することは,複数文書要約や情報抽出等において有用であると考えられます.そこで,文書間の関係のうち「同等」と「推移」に着目し,これらの関係を機械学習を用いて特定する手法を提案しています.
(IJCNLP2008)

格交替に関する語彙知識の獲得

日本語において受身文や使役文を能動文に変換する際,格交替が起こる場合があります.ある受身文・使役文の格が能動文ではどのような格に対応するかを認識することはテキストの意味を理解する上で必要な技術であると言えます.我々は対応する受身文・使役文と能動文の格の用例や分布の類似性に着目し,Webから自動構築した大規模格フレームと,人手で記述した少数の格の交替パターンを用いることで,受身文・使役文と能動文の表層格の対応付けに関する知識を自動獲得に取り組んでいます.
(EMNLP2013)

ソーシャルメディア(Social Media)を対象とした研究

10年くらい前からブログや口コミサイトなどが流行を始め,一般的な消費者が発信する情報がWeb上に数多く存在するようになりました.このようなテキストから社会の動向や消費者の意見を抽出し分析する手法,また,そのために必要な要素技術についての研究を行っています.たとえば,ブログや口コミサイトなどから大量のテキストを収集し分析することで,ある製品についての評判や,あるキーワードがどの程度注目されているか,また,いつから注目されるようになったのかといった情報を得ることが可能になります.本研究室では,ブログを自動的に収集し,マイニングを行うWebサービスblogWatcherを開発しました(現在は公開終了).このサービスには評判情報の抽出をはじめ,以下のような技術が使われています.

Twitterからのスポーツ速報生成

Twitterには時々刻々「今」起きていることに関するツィートが投稿されます.そ
の中には,スポーツなどのイベントを見ながら実況するものも数多くあり,それらを利用することで,イベントの速報を生成する手法を提案しています.
(言語処理学会第19回年次大会, 2013)

複数のソーシャルメディアアカウントの関連付け防止システム

年々新しいソーシャルメディアが誕生し,複数のメディアを利用するユーザも一般的になっています.ソーシャルメディア上の情報から書き手のプライバシーが明らかになってしまうこともよくありますが,複数のメディアを利用しているユーザの場合,それらが紐づけられてしまうとさらにプライバシーが表に出る危険性が高まります.そのため,Twitterのアカウントから,同一著者のブログを特定する技術を開発するとともに,それを用いて,Twitterとブログの間の紐付け防止システムを開発しています.
(情報処理学会第216回自然言語処理研究会,2014)

blogの著者の性別推定

blogのエントリは話し言葉に近い文体で書かれることが多いという特徴があります.そこに着目し,日本語の話し言葉の特徴を素性に利用した著者の性別推定モデルを提案しました.
(言語処理学会第12回年次大会, 2006)

トピックワードの検出

ある話題に注目が集まると,その話題に関係する特定の語句の出現頻度が急激に上がるという現象が起こります.このような急激な増加を検出する手法にKleinbergの提案するものがありますが,この手法を拡張し,より現実的なblogの出現傾向に対応した手法を提案しました.
(自然言語処理研究会報告, Vol.2004, No.23, pp.85-92, 2004)
また,この他にもYahoo!知恵袋などのコミュニティ型のQAサービスやTwitter
に着目した研究も行っています.

QAサイトの発言間の関係を考慮した要約

Yahoo!知恵袋のようなコミュニティ型のQAサービスでは,一つの質問に複数の回答が寄せられることがあります.これらの回答には互いに似ているものや反対のことを述べているようなものもあり,こういった回答間の論理関係を同定する手法を提案しています.
(人工知能学会第24回全国大会(JSAI2010), 2010)

Wikipediaの語彙資源を利用したWeb型質問応答システム

Wikipediaは多くのユーザによって編纂されている更新頻度の高い百科事典であり,ここから同義語・関連語などの情報を抽出し言語資源として利用する質問応答システムを提案しています.
(情報処理学会DICOMO2008シンポジウム, pp.1793-1802, 2008)

その他

それ以外にも,以下のような研究テーマでこれまで研究を進めています.

漢字詳細読みの自動生成

コンピュータ上のテキスト情報を音声で読み上げるソフトウェアアプリケーションであるスクリーンリーダに搭載されている重要な機能の1つに漢字詳細読みの出力があります.多くの漢字には同音異字が存在しており,漢字詳細読みには音声による説明のみでユーザに漢字を正しく想起させることが求められています.しかし,既存のスクリーンリーダに塔載されている漢字詳細読みの中には,同音異字語の存在や親密度の低さなどの要因で正しい漢字が想起するのが困難なものも含まれています.そこで我々は,同音異字の情報と単語の親密度を考慮に入れることで,大規模なコーパスから漢字詳細読みを自動生成する研究に取り組んでいます.
(COLING2012)

くだけたテキストに頑健な形態素解析

ブログやSNS(Social Networking Service)などのCGM(Consumer Generated Media)の一般化により,多様な発信者が書いたテキストを目にする機会が増えています.このようなテキストには「ググる」や「リムる」のような新しい語や,「知らなぃ」「もしも〜〜〜し」のような,くだけた表記など従来のテキスト処理技術では対応できない表現が多く出現します.我々は,従来のテキスト処理技術では対応できない表現のうち,辞書に含まれる語から派生した未知語,および,未知オノマトペを対象に着目し,これらの未知語を効率的に処理する手法を提案しています.
(IJNLP2013)

テキスト中の登場人物間の人間関係の推定

小説などのテキスト中に記述されている人間間の関係(たとえば,「仲が悪い」)を,テキスト中の記述から推定するシステムを開発しています.
(言語処理学会第14回年次大会発表論文集, Vol.2008, No.14, pp.380-383, 2008)

Web pageの携帯端末向け表示への自動変換

WWW上のページはすべてが携帯端末向けに表示されることを前提に書かれておらず,そのようなページを携帯端末で表示しようとすると,画像が多量に含まれていて,表示に問題が生じることも多々あります.そこで,携帯端末向けにページを加工する際,ページ中の画像をどのように表示するべきか自動で判定し,ページを携帯端末向けに適切に変換するシステムを開発しています.
(情報処理学会研究報告. DD, [デジタル・ドキュメント], Vol.2009, No.35, pp.15-22, 2009)

WWW上のテキストからのオノマトペ辞書の自動構築

「ぱくぱく」などの擬音語,擬態語を総称してオノマトペといいますが,このような単語は感覚的なものなので,新しい単語がどんどん生まれては消えていっています.そこで,WWW上のテキストから,辞書に載っていないようなオノマトペ単語を自動的に発見し,辞書を自動構築するシステムを開発しています.
(自然言語処理研究会報告, Vol.2003, No.23, pp.63-70, 2003)

テキストの校正支援

Wordなどにも同様の機能がありますが,我々が書いているテキスト中のおかしい個所を検出して教えてくれる機能が校正支援です.これまでの校正支援では,どんなテキストを書くときでも同じように間違いを指摘してくれますが,書くテキストが特定のジャンルならば不自然であるような間違いも色々あります(たとえば,論文を書くときに「うまく行った」と書くと変で「成功した」と書いた方がよい).このようなジャンルごとに不自然となるような誤りを自動で検出する校正支援システムを開発しています.

多様性を考慮した推薦システム

ユーザごとにお勧めの商品,情報を提示してくれるシステムが推薦システムです.これまでの推薦システムは,似たような商品,情報を提示しがちでしたが,提示する商品,情報の多様性を考慮して,提示するものの画一性を減らし,よりよい推薦が行えるシステムを開発しています.