日程:2008年7月17-18日 NL-NLC共催 2008年7月19日 SLUD
会場:公立はこだて未来大学
〒041-8655 北海道函館市亀田中野町 116番地2
大学までのアクセス
http://www.fun.ac.jp/acces/index.html
参加費: 無料
予稿集: NL&NLCとSLUDは連続開催のため、個別に資料代が必要になります
研究会会員は無料です
昼食:7月19日(土)は学食が営業していないため,各自で昼食をご持参下さい
懇親会: 7月18日(金) 18:30 〜
- 会場: いか清(五稜郭近く)
http://www.ikasei.com/
- 参加費: 5,000円
参加申込み締切りは,7月14日(月)です.
参加受付は先着順となっておりますので,お早めにお申込み下さい.
kmurakami (at) is.naist.jp に「ご所属とお名前」をお知らせください.
記述フォーマットは自由です.
照会先:
*会場に関する問い合わせ先: 片桐 恭弘(公立はこだて未来大学) E-mail: katagiri (at) fun.ac.jp *研究会に関する問い合わせ先: 自然言語処理研究会幹事 乾健太郎(奈良先端大) E-mail: inui(at)is.naist.jp 言語理解とコミュニケーション研究会幹事 村上 浩司(奈良先端大) E-mail: kmurakami (at) is.naist.jp 言語・音声理解と対話処理研究会幹事 徳久良子(豊田中央研究所) E-mail: slud (at) dii.tytlabs.co.jp
プログラム:
------------------------------------------------------------ NL&NLC共催研究会(発表件数18件) 7月17日(木) 14:00 〜 18:00 [14:00-15:30] 語彙知識(1) (3件) [15:45-16:45] 語彙知識(2) (2件) [17:00-18:00] アーキテクチャ (2件) 7月18日(金) 9:45 〜 17:00 [ 9:45-11:45] 情報分析・要約(テーマセッション1)(4件) [13:00-14:30] 情報抽出(テーマセッション2) (3件) [14:45-15:45] コミュニケーション支援(テーマセッション3)(2件) [16:00-17:00] 対話型情報アクセス(テーマセッション4)(2件) SLUD研究会(発表7件) 7月19日(土) 9:45 〜 16:00 [ 9:45-11:45] 音声言語と対話(テーマセッション)(3件) [13:00-13:45] チュートリアル (1件) [14:00-16:00] 会話分析・コーパス (3件) ※SLUDのプログラムが一部変更になっております.終了時間が変更 になっておりますのでご注意下さい. ------------------------------------------------------------ NL&NLC研究会 7月17日(木) 14:00 〜 18:00 [14:00-15:30] 語彙知識(1) (3件) 1. 日本語慣用句コーパスの構築と慣用句曖昧性解消の試み ○橋本力(山形大), 河原大輔(NICT) 慣用句には、慣用句の意味だけでなく文字通りの意味も表しうるという意味的 曖昧性がある。我々は、慣用句の曖昧性解消技術の確立に向けて、日本語慣用 句コーパスを構築している。本発表では、そのコーパスを用いた慣用句曖昧性 解消実験の結果について報告する。 2. 後続ひらがな列に基づく語の活用型推定 ○桑江常則,佐藤理史,藤田篤(名大) 新語や語の新用法を同定するには、後続ひらがな列が強力な手がかりとなる。 たとえば、動詞や形容詞は活用型ごとに異なる活用語尾を持ち、名詞は格助 詞を後続しやすい。このような特徴を利用して、与えられた語幹の活用型を 推定するシステムを作成した。そして、既知語の語幹と、ウェブに頻出する カタカナ文字列に対して活用型を推定する実験を行った。 3. 固有表現自動獲得に向けての固有表現とコンテキストの関連度 ○塩入寛,岡部正幸,阿部洋丈,梅村恭司(豊橋技科大) 本報告では固有表現辞書の語彙自動獲得手法についての性能向上を目的とし、 固有表現と周辺文字列との関連度をより正確に推定するための方法を提案す る。関連度を求めるために固有表現と周辺文字列との共起頻度情報を利用し、 固有表現獲得に有用な関数を報告、考察する。 [15:45-16:45] 語彙知識(2) (2件) 4. 2種類のアンカー情報と共起パターンの組み合わせによる事態間関係獲得 ○阿部修也,乾健太郎,松本裕治(NAIST) 行為-効果,行為-目的のような事態間の関係を大規模コーパスから自動的に獲 得する.文内共起パターンを利用する手法では,事態間でどの項が共有される かの知識を獲得することが難しい.そこで事態間で共有される 名詞(アンカー )を用いて項共有情報を獲得し,文内共起パターンによる事態間関係と組み合 わせることで項を必要とする事態間関係を獲得する.このとき2種類の異なるア ンカーを用いることで,精度を保ったまま再現率を向上でき ることを確認した. 5. 反対語を用いた極性不定評価表現の極性判定 ○酒井義和,荒木健治(北大) 意見情報を対象、属性、評価表現の三つ組で表し、感情極性を判定することを 目的とする。Webをコーパスとし、評価表現、およびその反対語の周辺情報を利 用することで、コストをかけずに複数語からなる表現の極性を判定するシステ ムの開発を行った。 [17:00-18:00] アーキテクチャ (2件) 6. 分散連想計算サーバー群を統合する連想検索システム「想・IMAGINE」 ○小池勇治,西岡真吾,丸川雄三,高野明彦(NII) 分散する複数の情報源(コーパス)に対する連想計算を、Webサービスを用いて 動的に組合わせ、一つの情報源に対する連想計算であるかの ように統合する連 想検索システム「想・IMAGINE」を紹介する。 7. UIMA を基盤とする相互運用性の向上と自動組み合わせ比較 ○狩野芳伸,辻井潤一(東大) 利用可能な自然言語処理リソースの増加とともに、ツール間の組み合わせや比 較・評価を容易にできる、相互運用性の向上が必要とされている。オープンフ レームワーク UIMAを基盤として、ツールの自動組み合わせ比較・ユーザインタ ーフェース等のシステムの提供、および対応ツール・コーパ スを収集公開する 国際共同プロジェクトU-Compare について報告する。 NL&NLC研究会 7月18日(金) 9:45 〜 17:00 [9:45-11:45] 情報分析・要約(テーマセッション1) (4件) 8. 社会課題発見のための文書クラスタリングとクラスタ評価指標 ○橋本泰一(東工大),村上浩司(NAIST),乾孝司,内海和夫,石川正道(東工大) 社会の複雑化に伴い人々が不安や不信を引き起こす要因が増加している.そ のため社会が抱えている課題や問題について分析が必要になっている.本論 文では,分析者が大量の新聞記事を階層的文書クラスタリングを用いて効率 的な分析を可能にするための手法を提案する.加えて,各クラスタの重要度 を測る指標として,密度と中心度を提案する.産業業活動 に伴う事件・事故・ 災害に関する新聞記事を対象として,新聞記事分析における文書クラスタリ ングの有効性について評価実験により検証した. 9. 主要・対立表現の俯瞰的把握−ウェブの情報信頼性分析に向けて ○河原大輔(NICT),黒橋禎夫(京大/NICT),乾健太郎(NICT) ウェブ上の情報は玉石混淆であり、多種多様な報道、主張、意見などが存在 する。人々は、これらの情報の信頼性・信憑性を判断すること を日常的に行っ ているが、ウェブ上の情報が爆発的に増えている昨今、このような判断を効 率的に行うことを支援するシステムが必要不可欠になりつつある。我々は、 このような問題意識のもとに、情報内容、情報発信者、情報 外観などの観点 から情報信頼性を分析するシステム、WISDOMを開発している。本稿では、ま ずWISDOMについて紹介し、次に、情報内容の信頼性分析に向けて、述語項構 造に基づき主要・対立表現を俯瞰的に提示するための手法について述べる。 さらに、得られた主要・対立表現の評価実験を行い、今後の 方向性について 議論する。 10. 言論マップ生成課題:言説間の類似・対立の構造を捉えるために ○村上浩司,松吉俊(NAIST),隅田飛鳥(JAIST/NAIST),森田啓, 佐尾ちとせ,増田祥子,松本裕治(NAIST),乾健太郎(NICT) 与えられたトピックに関連するWeb文書群から多様な言説を抽出し、それらの 間の類似、対立、根拠等の論理的関係を解析する言論マップ生成課題につい て論じる。また、述語項構造レベルの関係解析について既存の資源を利用し た予備実験について報告する。 11. 構文木からの再帰構造の除去による文圧縮 ○江川誠二,加藤芳秀,松原茂樹(名大) 構文木中の再帰構造を取り除くことにより,文を要約する手法を提案する. 原文の持つ文法性を保ったまま文を要約できる. [13:00-14:30] 情報抽出(テーマセッション2) (3件) 12. ネットオークションの出品情報文書からの属性抽出の精度向上 ○塚原裕常,西村純,宮崎林太郎,前田直人,森辰則(横国大), 小林寛之,石川雄介,田中裕也,翁松齢(ヤフー) ネットオークションにおける属性検索を目的として、出品情報文書から出品 物の属性・属性値対を抽出する手法が提案されている。本論文 では、その抽 出精度を向上させる一手法について検討をする。具体的には、 前処理として、 出品情報文書中の各文について、出品物の説明記述を含むか否かの二値分類を 行うことにより、送料や関連商品の紹介など出品物と直接 関係の無い記述を 削除した文書を抽出処理の対象とする。評価実験によれば、本手法を適用する ことにより、属性抽出における再現率、適合率のいずれもが数ポイント上昇す ることが確認された。 13. リッチアノテーション:固有表現に焦点をあてた知識抽出の試み ○菊井玄一郎,松尾義博,平野徹,小林のぞみ,浅野久子(NTTサイバースペース研) 固有表現はテキスト中で重要な情報を担っており、固有表現に関する意味情 報の抽出はテキストから知識を取り出す上で必須の処理である。本稿では、 1)指示対象の推定による固有表現の正規化、2)複数固有表 現間の意味的 関係性判定により、テキスト中の固有表現に関する情報を構造化する試みに ついて述べる。 14. 機械学習を用いた二段階洗練化手法による人物説明記述の抽出 ○西田成臣,森辰則(横国大) 人物に関する質問応答を想定し、機械学習に基づき、テキストから人物の説 明記述を精度よく抽出する一手法を提案する。この手法は次の二段階の洗練 化に基づく。まず、テキスト中の各パッセージについて、人物の説明記述に 関連するか否かの判断を行う。次いで、抽出されたパッセージ について、説 明記述の範囲を詳細に決定する。評価実験によれば、文列に対する系列ラベ リングに基づく一段階の抽出手法と比較して、提案手法の方が高精度であった。 [14:45-15:45] コミュニケーション支援(テーマセッション3) (2件) 15. メールの文章における段落間の接続の強さの推定 ○西村涼,大田康人,渡辺靖彦,岡田至弘(龍谷大) メールの文章では、「見やすい」「読みやすい」文章にするために細かく段 落分けをしている場合が多い。そこで、メールの文章における段落間の接続 の強さを推定し、過剰で不要な段落分けを取り除く方法について提案する。 16. 問い返しを用いた英作文学習支援 ○ 日高 宏紀,渡辺 靖彦,岡田 至弘(龍谷大) 仮定表現、名詞の指示性など、日本語と英語では表現の違いがある。この表 現の違いが、英語の初学者にとって英作文をむずかしくさせている原因の1つ である。本研究では、日本語と英語の表現の違いを問い返しによって気づかせ、 初学者にとって英作文がむずかしいものの学習支援を行う方法を提案する。 [16:00-17:00] 対話型情報アクセス(テーマセッション4) (2件) 17. ラダリング型検索サービスのための対話エンジンの設計・開発 ○北村美穂,下畑さより,介弘達哉,池野篤司,坂本仁,折原幾夫,村田 稔樹(沖電気) 「ラダリング型検索サービス」とは、システムがユーザと対話することによ り、ユーザの真の要望を引き出し、要望とマッチするコンテンツを提供する サービスである。本稿は、対話エンジン部を中心に本サービスシステムの全 体概要を説明する。 18. ラダリング型検索サービスのためのドメイン知識構築、及び、実証実験 ○下畑さより,北村美穂子,介弘達哉,池野篤司,坂本仁,折原幾夫,村田 稔樹(沖電気) 対話によってユーザの意図を理解し、最適な検索結果を提供する「ラダリン グ型検索サービス」では、対話を円滑に進め、ユーザの発話内 容を理解し、 検索の決め手となる情報を獲得するための知識(ドメイン知識) 構築が不可欠 である。本稿では、転職ドメインを対象に、我々が構築したドメイン知識の 概要とその開発工程について説明する。また、本ドメイン知識を用いて行っ た実証実験の結果についても報告する。 SLUD研究会 7月19日(土) [9:45-11:45] 音声言語と対話(テーマセッション) (3件) (1) 生成規則に基づく略語の自動推定 ○宮澤 幸希, 本田 朗子, 菊池 英明 (早大) 音声認識やウェブ検索などにおける言語処理では、略語の自動推定が重要な 課題となる。筆者らは、日本語において省略される傾向の強い複合語短縮の 生成規則を分析し、複合語短縮における変音現象表を改良した。また、提案 した手法に基づいた略語自動推定システムを作成し評価を行った結果、日本 語の複合語短縮に関して、高い精度と再現率を得ることができた。 (2) 印象空間における音声と文字の対応関係の分析 ○宮島 崇浩, 菊池 英明, 榑松 明, 白井 克彦 (早大) 小説や論文から広告、TV、漫画、電子メールに至るまで、文字を用いたメディ アにおいては、記号、形状、顔文字等を駆使して様々なパラ言語・非言語情 報が付与される。ここで、「人間は音声・文字のいずれに対しても印象に基 づきパラ言語・非言語情報を受信する」と仮定した場合、印象空間上におい て音声・文字間に相関が存在すると考えることができる。本稿では、パラ言 語・非言語情報を付与した音声・文字に対する印象評定を行い、印象空間を 軸としてそれらの対応関係を分析・考察する。 (3) 人-人コミュニケーションの活性化支援ロボットの開発 ○松山 洋一, 谷山輝 (早大大学院), 藤江 真也, 小林 哲則 (早大) 人と人のコミュニケーションの活性化を支援するコミュニケーションロボッ トシステムについて検討する.昨今,コミュニケーションロボットが高齢者 ケアの現場などで利用されることが期待されている.高齢者施設における継 続的なフィールド調査の結果,ケアの現場ではコミュニケーション自体が目 的のひとつであることがわかった.本研究では,人同士の多人数コミュニケー ションに参加し,参加者を活性化させるシステムとしてのロボットの開発を 行う.具体的なタスクとして高齢者施設におけるリクリエーションのひとつ である「難読ゲーム」を取り上げる.まず当該タスクにおける参加者の役割 推定とロボットの行動決定について定式化を行い,それを実現するシステム のアーキテクチャについて述べる.さらに本システムを用いて高齢者施設で 行った実験とその結果について報告し,提案システムの有効性について評価 する. [13:00-13:45] チュートリアル (4) 話し言葉コーパスを用いた談話研究−「比較」から見えてくるもの− ○小磯 花絵 (国語研) 近年,日本語の話し言葉コーパスが徐々に整備・公開されるようになってき た。そこで,コーパスを用いた談話研究としてどのようなものが存在するか, またその研究がいかなる性質を有するかについて,自身の研究と関連づけな がら紹介する。特に異なる種類の談話を比較するによって見えてくるものに 焦点を当てる。 [14:00-16:00] 会話分析・コーパス(3件) (5) グループディスカッションを相互行為として「評価」する ―7つの評価項目の提案― ○鈴木 佳奈, 水上 悦雄 (ATR), 森本 郁代 (関西学院大), 大塚 裕子 (IBS), 柏岡 秀紀 (ATR) 本発表では,グループディスカッションを相互行為としてとらえ,その中で の参与者のふるまいに注目することで,ディスカッションのプロセス自体を 評価する7つの評価項目を提案する。発表時には特にそれらの評価項目およ びその抽出方法の妥当性を検討したい。 (6) カラ従属節による節末形式の「投射」について ○伝 康晴 (千葉大), 丸山 岳彦, 小磯 花絵 (国語研) ある種のカラ従属節は主節末に話し手の判断を表わす形式を伴う。カラ従属 節の出現直後までの統語・韻律的特徴によってこのような節末形式の「投射」 が可能かどうかについて、話し言葉コーパスの統計的分析によって検討する。 (7) アジアン・ミスコミュニケーションコーパスの構築 ○砂岡 和子, Yu Jingsong (早大) 過去8年間、早稻田・慶応・北京大・清華大・台湾師範大・韓国高麗大と実施 中の6大学学生TV会議の録画データに基づいて構築中の、アジアン・ミスコミュ ニケーションコーパスについて述べる。現有の自然言語処理技術が、多言語 の壁を乗り越え、異なる思考の相互理解促進にどの程度貢献できるのか、四 川大地震の支援活動に関する実際の討論を例に考察する。 (8) 発表取り消し