日本語全文検索システム Kabayaki 日本語全文検索システム Kabayaki オフィシャルサイト
サイト内検索

メインメニュー

・ ホーム
・ 製品説明
・ 試用版
・ 価格表
・ FAQ
・ 導入事例
・ パートナー
・ お問い合わせ
・ 蒲紙

・ 過去の話題一覧

正規ユーザーログイン
ユーザーID
パスワード
 
サイト内検索
・ Kabayaki による全文検索
・ 過去の話題一覧
関連サイト




karetta


ホーム > FAQ > Kabayaki Basic 運用中の問題について

Kabayaki Basic 運用中の問題について - FAQ

質問

Q:  現在導入済みの Kabayaki のバージョンの見分け方を教えてください。
Q:  検索時に「ヒット数が多すぎるので無視しました」というメッセージが出力されます。
Q:  Web スパイダの巡回除外パスの指定により、指定していないページまで検索できなくなりました。
Q:  新しいバージョンにアップデートする方法は?
Q:  RedHat Linux で、旧バージョンの削除後にアップデートしたら、検索結果表示が変わってしまいました。
Q:  アンインストールした後でもファイルやフォルダが残っています。
Q:  Kabayaki のインデックス構築が途中で停止してしまいます。
Q:  Web サイトをコンテンツに登録しても、ページをインデクシングできません。
Q:  インデックス生成の際に store ディレクトリに文書がコピーされてディスク容量を圧迫します。
Q:  「最大ヒット数を超えています」というメッセージが検索結果画面に表示されます。

 

答え

Q:  現在導入済みの Kabayaki のバージョンの見分け方を教えてください。

バージョンは、Kabayaki 管理画面下部の「Kabayakiについて」で確認できます。「Kabayaki について」のリンクをクリックすると、先頭に以下のように表示されます。

例) Kabayaki version 2.2.1

Linux 用の Kabayaki Basic では「Option pack 1 version 2.2.1」と、sansyo と呼ばれる RPM パッケージのバージョンも表示されます。

:: 最初に戻る

Q:  検索時に「ヒット数が多すぎるので無視しました」というメッセージが出力されます。

動的なページを巡回の対象に設定している場合は、定期的なインデックスの再構築をお勧めします。

Web スパイダの探索するページが、表示するたびに内容が変わるような動的ページである場合は、Web スパイダはその WWW ページは内容が更新されていると判断し、新たにインデクシングを行います。

このような動作が繰り返されると、インデックスに余分なファイルが数多く保存され、検索 Hit 数の上限値を越えてしまったり、検索の性能に悪影響を与えたりする原因になることがあります。

検索の性能が以前と比べて落ちたと思われるときは、インデックスの再構築を実行してみてください。インデックスを再構築するには、「チューニング」画面を使用します。動的な WWW ページを定期的にインデクシングする設定にしている場合は、1 ~ 2ヵ月に一度は、インデックスを再構築する運用をお勧めします。

:: 最初に戻る

Q:  Web スパイダの巡回除外パスの指定により、指定していないページまで検索できなくなりました。

「巡回除外パス」を設定すると、巡回除外パス以降のページは一切取得しなくなるため、巡回除外パス以降のページからのみリンクされているページは、それ自体が巡回除外パスに含まれていなくても、取得対象からは外れてしまいます。(巡回対象のページからリンクされていれば取得されます)

たとえば、あるサイトの http://www.example.com/enable/sample1.html というページにリンクをしているページが http://www.example.com/example/disable/sample2.html しか存在しないとします。巡回除外パスに以下の URI を設定すると、

http://www.example.com/disable/

http://www.example.com/disable/ 下のファイルだけではなく、http://www.example.com/enable/sample1.html ファイルも巡回の対象外となります。巡回除外パスには http://www.example.com/enable/ が設定されていないにもかかわらず巡回されなくなるため、意外な動作に見えるかもしれませんが、これは Web スパイダの仕様通りの動作です。

http://www.example.com/enable/sample1.html が他の、巡回除外パス以外に存在するページからもリンクされるようになると、このページは再び巡回の対象となります。

:: 最初に戻る

Q:  新しいバージョンにアップデートする方法は?

Linux 用のパッケージは、OS 付属のコマンドでアップデートできます。

RedHat Linux では、最新の kabayaki および sansyo の RPM パッケージを入手の上、rpm コマンドを実行します。

root# rpm -Uvh kabayaki-X.Y.Z-N.i386.rpm
root# rpm -Uvh sansyo-X.Y.Z-N.i386.rpm

Windows 用の場合は、KABAYAKInnn.EXE をそのまま実行します。

注意: Windows 用の Kabayaki Basic 2.0.0 以降は、1.5.2 以前のバージョンからそのままアップデートすることはできません。詳細は、Kabayaki Basic for Windows インストール手順説明書の「Kabayaki のアップグレード」を参照してください。

:: 最初に戻る

Q:  RedHat Linux で、旧バージョンの削除後にアップデートしたら、検索結果表示が変わってしまいました。

RPM パッケージをアップデートする場合は、以前のバージョンを rpm -e などで削除せず、必ず rpm -Uvh でアップグレードインストールしてください。

以前のバージョンを rpm -e で削除してしまうと、Kabayaki の検索結果画面などに表示されるはずのインデックスの一覧が表示されなくなるといった障害が発生します。このような状態に陥ってしまったときは、いったんダミーのインデックスを追加してから、そのインデックスを削除してみてください。

:: 最初に戻る

Q:  アンインストールした後でもファイルやフォルダが残っています。

Kabayaki パッケージのアンインストールは、インストールした直後に展開されているファイルやフォルダのみを削除します。新規インデックス追加やコンテンツ設定により作成されたインデックスの情報などの大切なフォルダやファイルは削除しません。必要に応じて、残ったフォルダやファイルを他へ退避してから、手動で削除してください。

:: 最初に戻る

Q:  Kabayaki のインデックス構築が途中で停止してしまいます。

Kabayaki は、1 つのインデックスに対して、同時に複数のインデクシングプロセスを実行することを禁止しています。そのため、インデクシング実行中に同じインデックスに対してインデクシングを実行しようとすると、以下のようなメッセージがログに出力されることがあります。
(インデクシング処理中に、さらにインデクシングを手動実行して二重に起動されたような場合)。

      "... not executed, because /var/kabayaki/targets/<idxname>/lockexists."

外部的または内部的な要因によって Kabayaki のプロセスが意図しない異常終了を起こしたときも、Kabayaki のインデクシング処理はロックファイルを検出すると終了し、ログ一覧には上記のようなメッセージが表示されます。

なお、Kabayaki のインデクシング処理は、手動のロックファイル削除後に自動的に再開される仕様にはなっていません。ログに表示されているロックファイルを削除後に、すぐにインデックスを構築したい場合には、手動でインデクシングを実行する必要があります。

:: 最初に戻る

Q:  Web サイトをコンテンツに登録しても、ページをインデクシングできません。

以下について確認してください。

  • コンテンツ設定画面で設定した URL が正しい URL であること
  • Kabayaki サーバーで起動したブラウザ上で、設定した URL を参照できること
  • URL を参照できているブラウザで設定されているプロキシ指定と Kabayaki の Web スパイダ画面の設定が一致していること
  • そのサイトのページが動的に生成される場合は、Web スパイダ画面で GET メソッドを辿る設定になっていること
  • 参照先のサイトが robot.txt による検索よけを設定しているかどうか
  • フィルタ設定で収集したいファイルを拒否する設定になっていないこと

:: 最初に戻る

Q:  インデックス生成の際に store ディレクトリに文書がコピーされてディスク容量を圧迫します。

Kabayaki Basic のインデクシング実行中には、インデクシング対象となる文書のコピーが store に必要です。このコピーを抑止することはできません。そのため、検索対象の全文書を 1 つのインデックスに定義するならば、検索対象の 1.3 ~ 1.4 倍以上の空きディスク容量を確保する必要があります。

インデクシング完了後は、必要な情報を抜きだしたもののみを残しておく仕様になっています。残された情報は、2 度目以降のインデクシング時に、インデクシング済みのファイルであるか、追加または更新、削除が実行されているかの判定に使用されます。

一度に必要となるディスク容量を節約するためには、インデックスを分割して、インデクシングが同時実行されないように、それぞれの開始時刻をずらして設定しておくことをお勧めします。

store 下のファイルを削除する方法は標準で提供していません。誤って必要なファイルを削除しなければ、手動で削除した後も検索は実行可能ですが、サポート対象外の運用となるため、動作保証の対象外となります。

さらに、次のインデクシング時には自動的にコピーが再作成されるため、一度だけインデクシングを実行して、その後全くインデクシングが実行されないような設定の場合を除き、ディスク容量を節約することはできません。インデクシング済みで、本来はコピーやインデックス生成の必要がないファイルまで処理対象となるために、むしろディスクを含むハードウェア資源が余分に必要となることもあります。

:: 最初に戻る

Q:  「最大ヒット数を超えています」というメッセージが検索結果画面に表示されます。

必要に応じて、最大ヒット数 (既定値では 10,000 文書) の設定値を増やしてください。

Linux 用の Kabayaki では、以下の 2 つのファイルをエディタ等を使用して手動で編集します。

  • /usr/libexec/kabayaki/search/.namazurc
  • /usr/libexec/kabayaki/search/_namazurc.tpl

Windows 用の Kabayaki の場合は、以下の 2 つのファイルを編集します。

  • C:\Program Files\kabayaki\kabayaki\libexec\search\.namazurc
  • C:\Program Files\kabayaki\kabayaki\libexec\search\_namazurc.tpl

どちらのファイルにも以下の行が含まれています。

---------------------------------
#MaxHit 10000
---------------------------------

この行のコメントを外し、既定値の 10,000 から数値を増やします。

---------------------------------
MaxHit 100000
---------------------------------


:: 最初に戻る



本サイト上で記載されている製品名および商品名は、それぞれの会社の商標または登録商標です。
Kabayaki (R) は Time Intermedia Corporation の登録商標です。

この Web サイトは、当社 CMS パッケージ「幕の内」で管理されています。

会社概要会社地図個人情報保護サイトポリシープライバシーポリシー