奈良先端科学技術大学院大学 / 情報科学専攻 自然言語処理学研究室
入れ子になった固有表現に対する疑似アノテーションを用いた固有表現抽出
辞書を用いて"奈良"先端科学技術大学院大学のような 入れ子になっているキーワードの抽出に取り組んだ。 疑似データに含まれるノイズ除去の必要性と形容詞の有無によるスパンの曖昧性を指摘した。
400万人が利用する会社訪問アプリ
シソーラスによる文書分類を目的とした固有表現抽出
既知の語句の出現文脈を用いて疑似データを作成し、その疑似データに基づくキーワード抽出を行う課題に取り組んだ。 Co-teachingと呼ばれるノイズ除去の手法を用いた。 まず文脈情報と語句内部の情報の二つに分けたキーワード検出器で互いに教え合うことでノイズを除去しようとした。しかし、文脈情報に基づくキーワード検出器の精度の低さがネックとなりうまく行かなかった。 次に生物科学ドメインと科学ドメインのそれぞれで学習された二つの事前学習モデルに基づきノイズ除去を試みた。このとき、精度の改善はみられたものの先行研究に匹敵するものとはならなかった。
述語項構造解析
芝原 隆善さん
のプロフィールをすべて閲覧
Wantedlyユーザー もしくは つながりユーザーのみ閲覧できる項目があります
過去の投稿を確認する
共通の知り合いを確認する
芝原 隆善さんのプロフィールをすべて見る
奈良先端科学技術大学院大学 / 情報科学専攻 自然言語処理学研究室
辞書を用いて"奈良"先端科学技術大学院大学のような 入れ子になっているキーワードの抽出に取り組んだ。 疑似データに含まれるノイズ除去の必要性と形容詞の有無によるスパンの曖昧性を指摘した。