今回は自分のプロジェクト人工無能をやる上で学んだことの一つ
テキストセグメンテーション
について簡単に紹介したいと思います。
テキストセグメンテーションとは
ベタ書き状態のテキスト(ニュース記事や物語の文章)を意味段落に区切っていくことです。テキストセグメンテーションを行う事によって、従来は着目したいキーワードが含まれているテキスト、ページ全てを対象として分析や評価を行なっていて、分析には雑音となるデータが分析に多く含まれてしまっていました。(これによってもちろん評価値は影響を受けます。)テキストセグメンテーションによって着目したいキーワードを含む意味段落の抽出が行えることによって、質の高いデータの塊を利用することができるようになるわけです!
区切りのルール
現在でも様々な区切りルールが研究されています。代表的なものとしては
- 語彙的結束性
- 文脈変化を評価するパラメータ
- 接続詞や副詞などの品詞情報
- 文頭表現や表層的情報の組み合わせ
- 確立統計モデルに基づく手法
区切り方
原理は単純で結束性や評価パラメータなどを実数値や平均値でプロットします。プロットの結果意味段落の境界があればそこは低いパラメータとなります。
つまり、その極小値からテキストの意味的な区切りが求められるわけです。
おわりに
今回はちょっと学術的なアプローチの活動もやっているよ?という紹介でした。内容が少し短いですね…?
テキストセグメンテーションについてほんのさわりを説明しましたが、実際は
- どういった場面で
- 従来の手法との違い
- 得られた結果とその分析
知識は力です。なりふり構わず突進し続けるのもいいですが、自分の武器を増やしていくという事もたまにはいいかもしれませんよ。
短いですが以上です!mozukuでした!
I appreciate you taking the time to comment. I value all your hard work, and I eagerly anticipate your next update. happy wheels
返信削除