[fess-user 557] Re: htmlとしてクロールして欲しいページがファイルとして処理されているよう

Back to archive index

KOMINE Masako Komin****@mss*****
2012年 4月 17日 (火) 11:23:43 JST


小峯です。

ご回答ありがとうございます。
今すぐ確認できる環境にないのですが、
次の機会にやってみようと思います。


> 菅谷です。
> 
> http://fess.sourceforge.jp/ja/6.0/config/logging.html
> 
> ログレベルを debug などで確認するのが良いと思います。
> org.apache.http 以下あたりを debug  にすると
> HttpClient 関連のやり取りが確認できると思います。
> 
> よろしくお願いいたします。
> 
> shinsuke
> 
> 
> 2012年4月16日17:09 KOMINE Masako <Komin****@mss*****>:
>> はじめまして。小峯と申します。
>>
>> サイトマップを使用して、サイトをクロールさせようとしているのですが、
>> クロールはされるものの、webページとしてではなく、
>> 何かのファイルとして処理されてしまいます。
>>
>> そのページに含まれるリンク先にクロールに行かず、
>> 検索結果で表示されるコンテンツタイトルに
>> URLの最後の部分が表示されるため、そう判断しました。
>> また、このサイトには静的なページと動的に作成されるページとがあって
>> 静的なページをサイトマップを使用せずにクロールさせると、
>> こちらはhtmlとして処理されます。
>> どちらの場合も「ウェブクロールの設定」で「深さ」は5に設定していました。
>>
>> クロール対象のページのURLは"http:"で始まり、
>> wgetコマンドでアクセスすると、
>> "Content-Type: text/html;charset=UTF-8"
>> で応答があるため、s2robot_rule.diconのデフォルトの設定で
>> htmlとして処理されそうな気がします。
>>
>> fess_crawler.outを見てもエラーらしき出力は見つけられません。
>>
>> どのような原因が考えられるか、お心当たりがありましたら
>> お教え願えるでしょうか。
>>
>> よろしくお願いいたします。
>>
>> _______________________________________________
>> Fess-user mailing list
>> Fess-****@lists*****
>> http://lists.sourceforge.jp/mailman/listinfo/fess-user




Fess-user メーリングリストの案内
Back to archive index