マルチモーダル対話

2021-08-26
1 min read
Featured Image

人の対話・インタラクションはことばだけで行われるものではありません. 我々はあまりにことばに頼っているので,ことばがその中心にあるように見えがちですが,本当に中心にいるのはことばではないかもしれません.人類が用いる言語は数千あることが知られていて,語彙も文法も品詞(名詞や動詞など)の種類も千差万別ですが,対話の仕方は言語の違いに比べれば人類にほぼ共通であると言われています(もちろんある程度の文化差はあります).

マルチモーダルとは,情報の伝達方法・チャネルが一つではないことを指しています. 対話には,顔向き・姿勢・視線・声の大きさ・声色・抑揚,様々な要素が影響します.これらの情報を適切に処理・統合し,機械が人のことばを適切に解釈し,また効果的にインタラクションできるようにするための研究を行っています.

現在は,呼吸と対話の関係に関する研究を進めています.

関連発表文献

[1] Laperrière, Lam, Funakoshi: “Packing, Stacking, and Tracking: An Empirical Study of Online User Adaptation”, 11th International Workshop on Spoken Dialogue Systems, pp.319-336 (2020) https://doi.org/10.1007/978-981-15-8395-7_24

[2] Malik, Saunier, Funakoshi, Pauchet: “Who Speaks Next? Turn Change and Next Speaker Prediction in Multimodal Multiparty Interaction”, 32nd IEEE International Conference on Tools with Artificial Intelligence, pp.349-354 (2020) https://doi.org/10.1109/ICTAI50040.2020.00062

[3] Funakoshi, Yamagami, Sugano, Nakano: “Response Obligation Estimation That Considers Users' Repetitive Utterances Using Knowledge-Guided Random Forest”, 2019 IEEE-RAS International Conference on Humanoid Robots (2019). https://doi.org/10.1109/Humanoids43949.2019.9035079