2013年7月12日金曜日

言葉で遊ぼう!テキストセグメンテーション

どうも、暑くてすっかり籠りきりなmozukuです!
今回は自分のプロジェクト人工無能をやる上で学んだことの一つ

テキストセグメンテーション

について簡単に紹介したいと思います。

テキストセグメンテーションとは

ベタ書き状態のテキスト(ニュース記事や物語の文章)を意味段落に区切っていくことです。テキストセグメンテーションを行う事によって、従来は着目したいキーワードが含まれているテキスト、ページ全てを対象として分析や評価を行なっていて、分析には雑音となるデータが分析に多く含まれてしまっていました。(これによってもちろん評価値は影響を受けます。)テキストセグメンテーションによって着目したいキーワードを含む意味段落の抽出が行えることによって、質の高いデータの塊を利用することができるようになるわけです!

区切りのルール

現在でも様々な区切りルールが研究されています。代表的なものとしては
  • 語彙的結束性
  • 文脈変化を評価するパラメータ
といった統計的情報を用いたものや、
  • 接続詞や副詞などの品詞情報
  • 文頭表現や表層的情報の組み合わせ
といった統計的情報と表層的情報を組み合わせた手法
  • 確立統計モデルに基づく手法
などがあります。

区切り方

原理は単純で結束性や評価パラメータなどを実数値や平均値でプロットします。プロットの結果意味段落の境界があればそこは低いパラメータとなります。

つまり、その極小値からテキストの意味的な区切りが求められるわけです。

おわりに

今回はちょっと学術的なアプローチの活動もやっているよ?という紹介でした。内容が少し短いですね…?
テキストセグメンテーションについてほんのさわりを説明しましたが、実際は
  • どういった場面で
  • 従来の手法との違い
  • 得られた結果とその分析
といったもう少し活用事例を踏まえた上で研究されている論文を見て回り、自分の利用しようとしているものにはどのアプローチが適しているかといったことにまで踏み込んで行くこととなります。

知識は力です。なりふり構わず突進し続けるのもいいですが、自分の武器を増やしていくという事もたまにはいいかもしれませんよ。


短いですが以上です!mozukuでした!
(勉強したことをロジックとして生かしていくのも難しいです。)


0 件のコメント:

コメントを投稿