Rosette Text Toolkitで日本語テキスト分析(2)

2017.06.16::adachi

RapidMinerの拡張機能【Rosette Text Toolkit】を使って単語のエンティティ(≒カテゴリ)を抽出してみます。

 

※Rosette Text Toolkitは、ベイシス・テクノロジー社が提供する言語解析モジュールRosetteをRapidMinerから呼び出すためのプラグインです。Rosette APIはRapidMinerだけでなく、PythonやRから呼び出すこともできます。

 

————————————————————————-

~テキストのトークナイズ(Tokenize)~

前回と同じデータを使用します。

まずはテキストを単語に分割します。前回は形態素解析を行うMorphologyオペレータを使用しましたが、今回はTokenizeオペレータを使用します。このオペレータは、ストップワード(句読点や「は」「です」「ます」などそれ単体で意味を成さない単語)を除外できる機能を持っています。

「I」や「私」など一般的な単語も一緒に除外します。

 

~単語にカテゴリ(エンティティ)を付与~

Extract Entitiesオペレータを使って、単語のエンティティを付与します。エンティティはウィキデータに登録されているものが対象です。

Entity Typeが単語のカテゴリのようなものにあたり、QIDはウィキデータ参照用のIDです。ここでは「ファミコン」にエンティティを付与しています。ファミコンのQIDをウィキデータで検索してみます。

————————————————————————-

 

以上が単語のエンティティを抽出する方法です。エンティティ情報は、後の分析(文書分類など)に使用できます。

トップへ戻る