適用分野
ホーム»適用分野»Apache Lucene/Solr

Lucene/Solr ホワイトペーパー

ダウンロード
Apache Lucene とは?

Apache Lucene は Apacheソフトウェア財団の後援で開発されているオープンソースの検索ツールキット・ライブラリです。

Apache Solr とは?

Apache Solr は Apacheソフトウェア財団が後援するオープンソースのソフトウェアで、Lucene上で動作するWebベースの検索サービスです。スキーマ、管理ツール、キャッシュ管理、レプリケーション、ファセット閲覧などがあります。

対応言語

  • 日本語
  • 中国語簡体字
  • 中国語繁体字
  • 朝鮮語
  • 英語
  • フランス語
  • ドイツ語
  • イタリア語
  • スペイン語
  • アラビア語
  • アルバニア語
  • ブルガリア語
  • カタロニア語
  • クロアチア語
  • チェコ語
  • デンマーク語
  • オランダ語
  • エストニア語
  • フィンランド語
  • ギリシャ語
  • ヘブライ語
  • ハンガリア語
  • インドネシア語
  • ラトビア語
  • マレー語
  • ノルウェー語
  • パシュトゥ語
  • ペルシャ語
  • ポーランド語
  • ポルトガル語
  • ルーマニア語
  • ロシア語
  • セルビア語
  • スロバキア語
  • スロベニア語
  • スウェーデン語
  • タイ語
  • トルコ語
  • ウクライナ語
  • ウルドゥ語

Lucene/Solr用Rosette言語処理プラットフォーム

費用効果が高く、信頼性の高い、多言語検索を容易に実現

Solr による検索アプリケーション開発

Solr トレーニング、実習付3日間コース(開催日程:2012年1月25日~27日)

Basis Technologyの言語テキスト処理技術がオープンソースの検索ソリューション Apache Lucene と Solrで利用できるようになりました。

使い方は簡単

Basis TechnologyのRosette言語処理プラットフォーム を Lucene に組み込むことで、精度の高い多言語検索を、ウェブサイト、イントラネット、ローカルネットで実現できます。 この組み合わせにより、低コストで高性能の検索ソリューションが実現できます。

高い信頼性

パフォーマンスの高いオープンソース検索ツールキット Lucene は、IBM、CNET、Wikipedia など 3,000 以上の導入実績がある人気の高い検索ソリューションです。またRosette言語処理プラットフォームは、検索エンジンやテキストマイニング分野のユーザー企業からの、精度やパフォーマンス上の厳しい要求に応えてきた10年間の実績があります。

本格的な企業内検索が可能

  • 言語判別と55言語での全文検索
  • 日本語、朝鮮語、中国語、主要欧米語、アラビア語を含む24言語で優れた検索 (詳細はこちら)
  • 19言語での固有表現抽出とファセット分析
  • スケーラブルでパフォーマンスの高いアーキテクチャ (詳細はこちら)

評価版のお申し込みは、info@basistech.jp までご連絡ください。

必要な操作

Rosette言語処理プラットフォームの SDKもしくはランタイムパッケージをダウンロードし、インストールします。Lucene アプリケーションを変更して、Rosette言語処理プラットフォーム トークナイザーを使用したアナライザーを使うようにします。Solr の場合、コードの変更は不要で、設定ファイルの変更だけで、Rosette言語処理プラットフォームのトークナイザーを使用するようにできます。

Rosette言語処理プラットフォームの言語処理機能:

  • 言語判別: 文書の記述言語を判別
  • 言語固有の処理: 形態素解析は検索用索引生成やクエリー解析の出発点です。優れた言語処理機能は検索結果の適合率、再現率を改善します。
  • 分節とトークン化: テキストを単語トークンに分節します。特に、日本語や中国語のように単語の間にスペースを入れずに記述される言語に必要です。
  • 基本化: 活用する語を基本形(辞書の見出し形)に変換します。再現率が向上します。
  • 複合語分割: 複合語(日本語やドイツ語)を単語に分割します。再現率が向上します。
  • 品詞タグづけ: 適合率、再現率が向上します。
  • 固有表現抽出 (キーワード抽出): 固有表現抽出は重要な名前や検索結果のキーワードによるファセット検索を可能にします。

Apache Lucene のパフォーマンスとスケーラビリティ

  • スレッドセーフ
  • クロス・プラットフォーム
  • マルチコアのサポート
  • 少ないRAMで動作
  • バッチ索引生成と同じくらいに高速な追加索引生成
  • 索引のサイズは元テキストの20~30%
  • パワフルな検索アルゴリズム

詳細は lucene.apache.org をご覧ください。