[fess-user 91] Re: クロール中のはずが3時間ほど何も起こらないのですが...

Back to archive index

Masayuki Shibata mshib****@shima*****
2010年 1月 8日 (金) 18:06:40 JST


柴田@亀岡市です。

今日は色々ゴタゴタがあって、ようやくテストできました。

「2分で完了しました。」

ファイル数 12。うち 5 ファイルが例の半角カナ混じり SJIS の 1MB
超の Subversion 上ログファイルです。

app.dicon
maxDocumentCacheSize、unprocessedDocumentSize はデフォルト。

setenv.bat
-Xmx1024m -verbose:gc -Xloggc:gc.log 付。

log4j.xml
  <logger name="jp.sf.fess.solr" >
    <level value ="debug" />
  </logger>

1000 ドキュメント数毎にコミット

...です。もう少しチューニングはできるかも知れませんが、変更され
たロジックがほぼ全体のスピードを決めている感じですね。

>菅谷です。
>
>> 今、IndexUpdater について考えていたのですが、その中で
>> XML から Java オブジェクトを生成する箇所があるのですが
>> このときに大きなテキストとかで、引っかかるケースがある
>> のではないかと考えています。
>
>改善されるかは確認できていませんが、
>上記のロジックを変更してみました。
>
># 改善されることを祈ります…
>
>shinsuke
>
>
>2010年1月7日21:51 Shinsuke Sugaya <shins****@yahoo*****>:
>> 菅谷です。
>>
>> 確認していただきありがとうございます。
>> すいません、確かに Windows だとそのままコンソールで
>> 流れてしまいますね…。Unix だと catalina.out に出るので
>> 忘れてました。Windows だと -Xloggc:file でファイル指定を
>> するべきでした…。
>>
>> ですが、
>>
>>> ...の行と行の間で 18 分ほどかかっているログが fess.out で確認で
>>> きましたが、その間 GC 状況の表示もずっと同じような調子で流れっ
>>> ぱなしでした。
>>
>> このときの GC によるメモリがどのように変動していたかも
>> 気になりますが、これから考えると、IndexUpdater の処理中に
>> GC をガツガツ動いていることが考えられると思います。
>> (IndexUpdaterの減速状態時にGCでメモリ変動が多いと
>> GC による影響が考えられると思います) ですので、GC の
>> 問題もあるかと思います。
>>
>>>>流れているのが止まるとそう判断できるのでしょうか?
>>
>> IndexUpdater が止まっている時に GC が流れていて、
>> メモリが増えたり減ったりしていると GC 関連の影響が
>> 大きいと考えていました。(お伝えするのを忘れてました…)
>>
>>
>> 今、IndexUpdater について考えていたのですが、その中で
>> XML から Java オブジェクトを生成する箇所があるのですが
>> このときに大きなテキストとかで、引っかかるケースがある
>> のではないかと考えています。ここの処理を改善することで
>> 対応できないかを考えてみます。
>>
>> shinsuke
>>
>> 2010年1月7日19:56 Masayuki Shibata <mshib****@shima*****>:
>>> 柴田です。実況中継モードです。
>>>
>>> 今さきほど
>>>        Indexing http://...
>>> ...の行と行の間で 18 分ほどかかっているログが fess.out で確認で
>>> きましたが、その間 GC 状況の表示もずっと同じような調子で流れっ
>>> ぱなしでした。
>>>
>>>>流れているのが止まるとそう判断できるのでしょうか?
>>>
>>> ...が、もしそうなら「シロ」ということになるのではないかと思いま
>>> す。
>>>
>>> 判断条件が間違っているなら、その旨お知らせください。
>>>
>>>>柴田@亀岡市です。
>>>>
>>>>画面上かなりのスピードで表示流れていきますが (汗;)。
>>>>#流れていくのだし GC 時間も 0.0x sec オーダーのが続いている
>>>>#という状態です。
>>>>
>>>>どういう状態になったら「GC の影響」と判断できますか?
>>>>
>>>>流れているのが止まるとそう判断できるのでしょうか?
>>>>
>>>>ログの Indexing http://... 行で、時間が空いているところを狙って
>>>>この画面上のその期間複数行を集計 (足す) というのだとちょっとで
>>>>きなさそうですが...
>>>>#画面出力がログのような時間属性を持っていないので、どこかにリ
>>>>#ダイレクトしても無駄に終わりそう。
>>>>
>>>>画面に出てくる内容と速度からすると、どこかにログに残ってそうな
>>>>気配もなく...
>>>>
>>>>
>>>>>菅谷です。
>>>>>
>>>>>ありがとうございます。
>>>>>
>>>>>> それとも GC かどうか確定させるため、メモリについてはいじらず
>>>>>> に「setenv.bat に -verbose:gc を追加する」をやってみましょう
>>>>>> か?
>>>>>
>>>>>-Xmx1024m あれば十分かと思うので、
>>>>>-verbose:gc の状況を見ていただけると
>>>>>大変助かります。
>>>>>
>>>>>shinsuke
>>>>>
>>>>>
>>>>>2010年1月7日18:22 Masayuki Shibata <mshib****@shima*****>:
>>>>>> 柴田@亀岡市です。
>>>>>>
>>>>>>>-Xmx512m では少ないのかもしれません。
>>>>>>
>>>>>> 少し前のご提案にしたがって -Xmx1024m にしてテストしています
>>>>>> ので、もう少し増やしてみましょうか?
>>>>>>
>>>>>> それとも GC かどうか確定させるため、メモリについてはいじらず
>>>>>> に「setenv.bat に -verbose:gc を追加する」をやってみましょう
>>>>>> か?
>>>>>>
>>>>>> 両方一度に変更すると、原因が見えにくくなるかも知れません。
>>>>>>
>>>>>>>>>>>ですので、bin/setenv.[bat|sh] の -Xmx512m を
>>>>>>>>>>>-Xmx1024m とか変更すると改善するかも
>>>>>>>>>>>しれません。
>>>>>>
>>>>>> _______________________________________________
>>>>>> Fess-user mailing list
>>>>>> Fess-****@lists*****
>>>>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>>>>>>
>>>>>
>>>>>_______________________________________________
>>>>>Fess-user mailing list
>>>>>Fess-****@lists*****
>>>>>http://lists.sourceforge.jp/mailman/listinfo/fess-user
>>>>>
>>>
>>> _______________________________________________
>>> Fess-user mailing list
>>> Fess-****@lists*****
>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>>>
>>
>
>_______________________________________________
>Fess-user mailing list
>Fess-****@lists*****
>http://lists.sourceforge.jp/mailman/listinfo/fess-user
>

----------
Shibata, Masayuki
Manager, Software Development
Shimadzu Corporation
Analytical Measuring Instruments Division
Research & Development Department
Telephone:  075-823-1441 Japan
Facsimile:  075-823-1365 Japan
E-mail: mshib****@shima*****




Fess-user メーリングリストの案内
Back to archive index