n-gramの応用

本節では,n-gramの応用で比較的多い、名寄せと簡単な固有表現抽出について説明します.

「名寄せ」とは,同じものを指すさまざまな表現をひとまとめにするタスクです. 元は,金融機関の業務として行われていた同一顧客の複数口座をまとめる作業を指したものだったようです. 次に,「固有表現抽出(Named Entity)」は,辞書には含まれていない未知語の認識を目的としたタスクです.

これら2つのタスクは初歩的にはn-gramの技術をベースに発展しており,現在のデータ分析においても良く課題となるタスクでもあります.

ここでは,まず,n-gramについて説明し,名寄せ,固有表現抽出への応用方法について説明します.最後にこれら2つのタスクを実際にやってもらう課題について説明します.

n-gram

文字n-gram

単語n-gram

名寄せ

固有表現抽出

節末課題