2016年12月14日水曜日

MeCab辞書の特徴をまとめてみた

AdventCalendar2016 13日目

MeCabの辞書の特徴をまとめてみた

どうもB16のtokineko3です。学習用の言語処理でよくMeCabやJumanを使用するのですが、
今回はMeCabで主に使用されると思う辞書について調べてまとめてみました。

  •  mecab-ipadic-NEologd
    MeCabの公式サイトでIPA辞書をダウンロードして満足してはいけない。
    IPAは更新が止まっているらしいので最近の流行語とかに対応してくれません
    ○特徴
    MeCab の標準のシステム辞書では正しく分割できない固有表現などの語の表層(表記)とフリガナの組を約295.5万組(重複エントリを含む)採録、最低でも週2回更新してくれる辞書
    アニメのタイトルや最近の言葉に対応してくれるのでとても助かる。

    ○欠点
    固有表現に弱い
     ・人名や製品名、若干違うものも固有表現カテゴリに含まれてしまう
     ・固有表現に関してふりがなの対応が間違っている  など

    ○遊んでみる
    例文:今期アニメの一押しはオカルティックナインと魔法少女育成計画です。
    タイトルの英語名まで出てる凄い。twitterの分かち書きとかに最適

    ・辞書なしver
  • 魔法少女育成計画が別れちゃってます 
  • NAIST-jdic
    ○特徴
    IPAdic の後継で固有名詞以外の全エントリをチェック(可能性に基づく品詞の整理)し、 表記ゆれ情報を付与し、複合語の構造を付与する作業を行っている辞書。

    表記ゆれってなんだ?
    >「メモリー」「メモリ」、「引っ越し」「引越し」などの表記違いの事  成程…
    茶筌でも使える辞書らしい
    基本IPAの強化版なので最近の言葉にはあまり対応してくれない
  • UniDic
    ○特徴
    国立国語研究所で規定した「短単位」という揺れがない斉一な単位で設計されている辞書
    アクセントや音変化の情報を付与することができ、音声処理の研究に利用することができる
    口語的な文章にも強いと期待されている。

    ○種類がある
    現代語版…現代の言葉を対象
    近代語版…近代の論説文(明治普通文)を対象
    中古和文版…古典、古文を対象
    上記の3種が存在する。現代だけでなく古い言葉にも対応しているとはすごい。

    ○試す
    IPAと比べると表示が全然違います。分類が細分化されてますね。
他にもJuman辞書とかがあったがIPAのが優れている印象。
用途に合わせて色々と試してみよう。

0 件のコメント:

コメントを投稿