Rosette Text Toolkitで日本語テキスト分析(1)

2017.06.8::adachi

RapidMinerの拡張機能【Rosette Text Toolkit】を使って、日本語のテキスト分析ができるようになりました!

Rosette Text Toolkitは、ベイシス・テクノロジー社が提供する言語解析モジュールRosetteをRapidMinerから呼び出すためのプラグインです。Rosette APIはRapidMinerだけでなく、PythonやRから呼び出すこともできます。

 

————————————————————————-

~RapidMinerからRosette Text Toolkitを使用するために~

● Rosette APIの発行

developer.rosette.comでアカウントを発行し、APIキーを取得します。このAPIキーを控えておきます。月1万コールまで無料で使えます。

● RapidMinerにRosette Text Toolkitを追加

RapidMiner Studioの上部メニューバーにあるExtension→Marketplace画面で、Rosette Text Toolkitを検索しインストールします。

インストールが完了すると、オペレータ画面のExtensionsにRosette Text Toolkitが追加されています。

 

~日本語テキストの形態素解析~

文章のままでは分析できないため、まずは形態素解析を行い文章を単語に分割します。形態素解析は、文章を文法ルールや辞書に従って単語に分割し品詞を付与する処理を指します。

例として、文書IDと本文を持つデータセットのうち、本文を形態素解析してみましょう。日本語のみ/英語のみの文書もあれば、日本語と英語が混じっている文書も含まれています。

形態素解析には、Morphologyオペレータを使用します。

 

Morphologyオペレータの設定画面で、Rosette APIを設定します。

 

Add connectionでAPIを追加し、取得したAPIキーを入力します。

 

 

プロセスを実行すると、形態素解析が行われます。

結果画面には形態素解析結果として、Token(文中で使用されている単語)、Lemma(文中で使用されている単語の原形)、PattOfSpeech(品詞)、HanReading(単語の読み)が表示されます。

 

また統計画面には、文書数や単語数などの集計結果が表示されます。

Lemmaを展開し、Values項目の[Details]をクリックすると、各単語の出現数を確認することができます。

 

————————————————————————-

形態素解析ツールはRosette以外にも、日本語ではMeCabやJUMAN、英語ではTree Taggerなどがあります。これらのツールもRosettaと同じくPythonなどから呼び出せますが、その後の分析もプログラミングありきで実装することになります。

Rosette Text Toolkitを使えば、プログラミング無しに形態素解析を行い、その結果をRapidMinerのモデル作成オペレータに渡し、クラスタリングや分類などの分析を行うことができます。

また、Rosetteは多言語対応のため、文中に日本語と英語が混じっていても形態素解析できます。先に挙げたツールは単言語対応のため、日本語と英語が混じった文章に対しては、別々に使い分けて処理しなければなりません。

Rosette Text Toolkitがあれば、難しいと思われがちなテキスト分析が少し身近なものに感じませんか?

トップへ戻る