研究テーマ一覧
精密工学研究所 奥村研究室では、ことば(対話、テキスト)を計算機で処理する技術に関する研究と、その技術を用いた応用システムの開発を行なっています。
具体的には、以下の項目をご覧下さい。
- 「人間の言語理解のモデルを目指して」
- 統計的手法や機械学習を用いた自然言語処理
- Web上のテキスト情報の収集、加工、利用(エージェント)技術
- 意見分析、テキストマイニング
- テキスト情報の「わかりやすい」提示技術
これらの研究成果を生かした応用システムの開発にも意欲的に取り組んでいます。その一部は一般に公開しています。詳しくは公開ツールのページをご覧下さい。
「人間の言語理解のモデルを目指して」
(頑健な自然言語の意味、文脈解析に関する研究)
ことばの理解というテーマでは、これまで研究が難しいとされている、意味、文脈理解を中心に行なっていきたいと考えています。すなわち、一文だけではなく、複数の文の集まりであるテキストの意味を理解することを目指します。
統計的手法や機械学習を用いた自然言語処理
言語処理の手法としては、現在WWW上などに大量の言語データ(コーパス)が蓄積されるようになってきたことから、それらのコーパスを情報源として、統計的手法あるいは機械学習手法を利用することで、言語処理用知識を得ます。その知識を利用し、言語処理手法を開発しています。
今後高度な言語処理を行なうためには、我々人間が持っている常識的知識を計算機も利用して言語処理を行なう必要があります。この常識的知識をコーパスから自動獲得する研究を行なっています。
また、Web上のテキストの言語処理を行なう際には、いくつかの点で、これまで考慮しなくても良かったことを新たに検討する必要があります。その1つに、顔文字の抽出、分類があります。Web上のテキストの代表例である掲示板のテキストを見ると、顔文字がテキスト中に頻出します。この顔文字は、言語処理する際には、(テキストとしての記号列ではないので)テキストとは区別したいものですが、意味内容としては有用な情報(書き手がどういう感情を表現したいか等)を担っています。そこで、Web上の掲示板テキストをコーパスとして、顔文字を自動的に抽出、分類する手法の開発を行ないました。
同様に、Web上のテキストは、書き手が多様ですから、書き方のスタイルもさまざまです。そのため、テキスト中での「文」境界の示し方も人それぞれです。中には、句読点を打たない人もいます。そのため、Web上のテキストを言語処理する際には、処理に入る前の段階で、テキスト中の文境界を検出する処理が不可欠になります。後述するように、Weblog(blog)データを大量に収集、マイニングするシステムを開発していますので、収集したblogデータをコーパスに、blogテキストの文境界を正しく検出する手法を開発しています。
それと同時に、世の中で役に立つシステムの開発も行なっていきたいと考えています。具体的には、以下のようなものを考えています。
Web上のテキスト情報の収集、加工、利用(エージェント)技術
近年、数多くの様々な形式のテキストデータがWeb上から入手できるようになっています。このようなWeb上の膨大なテキスト情報を有効利用するための研究を行なっています。その一例として、
- PostscriptやPDF形式の学術論文データをWeb上から収集・加工し、ある分野の研究動向をわかりやすく提示するシステム
- Web上のテキストコーパスを利用して、オノマトペ(擬音語、擬態語)の辞書を自動的に構築する方法
- Web上から特定の人物、地名、会社等に関する情報を収集し、提示するシステム
- Web上からレシピのみを自動収集、抽出する手法
等について研究しています。
また、数年前から、blogを自動収集、マイニングするシステムblogWatcherを開発、公開しています。
意見分析、テキストマイニング
blogWatcherの開発経緯とも関連しますが、Web上のテキストから社会の動向、意見を分析する手法は、現在非常に注目を集めています。我々のところでは、blogWatcherの開発と関連して、
- 評価表現抽出
- positive(好意的な意見)/negative(否定的な意見)分類
などの研究開発を行なっています。
今後5年程度は。blogに注目して研究していきたいと考えています。また、意見分析エンジンの開発も行なっていきます。
テキスト情報の「わかりやすい」提示技術
- その基礎技術としての、自動要約、言い替え
- マルチメディア(音声、アニメーションなど)を用いたテキストの提示
- 音声のみを利用した情報提示(視覚障害者の情報取得支援)
近年、インターネットなどの技術の進歩によって大量のテキストデータの氾濫とともに検索エンジンが普及し、必要と思われるテキストを検索することはできるようになってきました。しかし、現在の検索エンジンは、必要と思われるテキストを大量にとってくるだけで、そこから情報を取得するのは結局ユーザの努力に任されてしまっています。
そこで、検索エンジンなどで得られる大量のテキストデータからユーザが情報を取得するのを支援する技術として、人間が情報を効率的に入手できるよう、「わかりやすく」情報を提示する技術を研究しています。例を挙げると、テキストを要約してユーザに見せるという技術があります。
また、テキストをそのまま文字として提示するのではなく、他のメディア、たとえば、アニメーションや図など、視覚的なものに変換して提示するということも考えられます。その一例として、実況解説の自動生成が上げられます。