中国語テキストはスペースなしで書かれているため、キーワード検索、索引づけといったテキスト処理の前に分節【単語分割】処理が必要となります。 Rosette®中国語形態素解析システムは、これらのテキストの分節処理をおこなうためのアルゴリズムを持ち、さらに品詞情報およびピンインによる読みデータを収録した 辞書に基づき、中国語テキストを正確に分節します。ウェブページ、電子メール、各種データベース文書など、どのような種類の文書にも威力を発揮します。
中国語テキストの正確な分節を素早くおこなうために、統計的な技法を利用し、さらに詳細辞書をベースとしています。統計的技法には、語の頻度情報等 が含まれており、システムのより高精度な自然言語処理を可能にしています。中国本土で使用される簡体字、そして香港、台湾で使用される繁体字をサポートしており、それぞれの字体の辞書には60万語を越える語彙を収録しています。Rosette中国語形態素解析システムはGoogle, Inktomi, Verity様等ですでにご利用いただいており、その性能は高く評価されています。
Rosette 中国語形態素解析システムのポータブルで高性能なC++ライブラリは、軽量型のデスクトップPCから高速マルチCPUウェブサーバーまで幅広く利用されています。またクライアントタイプの組み込み型も開発中です。
中国語には「簡体字」と「繁体字」という二つの文字体系があります。簡体字は中国本土およびシンガポール、繁体字は台湾および香港で使用されていますが、これらの文字体系には互換性がありません。Basis TechnologyのRosette®中国語字体変換システムはこの、簡体字と繁体字の二つの中国語字体体系の変換処理に優れた効果を発揮します。
Rosette中国語字体変換システムは、簡体字と繁体字間を素早く変換するために、分節、辞書、規則をベースとした技術を利用しています。正しい語分節、品詞情報を伴った辞書、詳細なマッピングテーブル等により、システムの高精度を実現しています。
中国語市場での成功には、簡体字と繁体字の相違点を把握することが重要です。例えば、通常使われている簡体字の20% 以上は複数の繁体字にマッピングされています。特に複合語の場合は、こうした問題がさらに複雑になります。また、一つの言語からこのような二種類の文字が作りだされたのは、地理的要因と政治的要因が大きく影響しています。Rosette中国語字体変換システムは、その複雑な綴りなどに関するあらゆる情報を利用することによって、正確な字体変換を行います。
Rosette 中国語字体変換システムは、その複雑な綴りなどに関するあらゆる情報を利用することによって、簡体字と繁体字の正確な変換を行います。
| 簡体字 | 繁体字 |
|---|---|
| 毛泽东 | 毛澤東 |
| 华国锋 | 華國鋒 |
| 经常 | 經常 |
| 项目 | 項目 |
| 数据 | 數據 |
「日本企業の中国市場進出の増加に伴い、中国市場分析のご要望も急増しています。Rosette®中国語形態素解析システムの導入により、弊社の「見える化エンジン」は、このような企業様のニーズにタイムリーにこたえ、中国市場ニーズの適切な分析ならびに、中国市場における日本製品のさらなる拡販につないでいただけるようになりました。」株式会社プラスアルファ・コンサルティング 代表取締役、 三室克哉 様 プレスリリース