|
|
|
現在の形態素解析としては、業界最高水準の正解率を誇ります。新聞記事のような硬い文章なら、平均98%以上の正解率を実現します。
|
|
|
|
従来のように高価で高速なサーバー機でなくとも、一般的なパソコン上で十分高速な処理が可能です。
|
|
現在の一般的なパソコン(Pentium®4 2533MHz、RAM 512GB)で、1秒当たり約99,000文字(全角文字)の形態素解析が可能です。
|
|
|
|
弊社が独自に開発した高度な言語解析アルゴリズムを採用しています。基本的には「コスト最小法」と呼ばれている形態素解析の手法を用いています。また高速化を実現するため、動的計画法の一種である「Viterbiアルゴリズム」という数学的手法も利用しています。
|
|
本システムでは、高精度な形態素解析を実現するため、品詞の種類を700種以上に分けています。そして、700種類以上の品詞同士の接続可能性を正確に記述した「連接可能性テーブル」を利用して高い精度の形態素解析を実現しています。この「連接可能性テーブル」のチューニングに10年以上の歳月をかけ、微妙な日本語表現においても正確な形態素解析を可能としました。
|
|
また、辞書に登録していない単語がある場合でも、形態素解析処理が失敗しないロジックになっており、「新語」(未知語)として区別するようになっています。
|
|
|
|
基本辞書の単語数は45万語以上あり、多くの文章で高い形態素解析精度が得られるようになっています。このほかにも専門語、複合語の追加により、より専門分野に特化した文書の正確な形態素解析が可能です。
|
|
ユーザーが新語登録できるユーザ辞書機能もあり、追加することでユーザ辞書の単語が優先的に使用されます。
|
|
|
|
入力する文字列の長さに制限はありません。基本的にはメモリ領域が許す限り、いかなる大きさの文章にも対応できます。
|
|
|
|
形態素解析のみでなく、
・構文解析(係り受け解析)
・単語出現頻度解析(名詞、動詞などの品詞別に17種類の品詞解析が可能)
・ホットクリック設定(HTMLを直接形態素解析して各種検索へのリンクを設定可能)
・関連文書検索機能
(単語出現頻度解析を利用して、関連文書検索のクエリーを作成可能)
・自動要約文抽出機能
・ルビ、発音ルビ、読み、発音の自動生成機能
など、様々な機能を盛り込んでいます。
|
|
|
|
Microsoft®Windows®、UNIXなど多様なプラットホームに対応しております。
|