[MUSASHI-users 446] アクセスログの複数条件による集計

Back to archive index

Sumio Ebisawa ebisa****@aa*****
2004年 12月 22日 (水) 00:53:10 JST


海老澤と申します。お世話になります。


現在、Webサーバのアクセスログ解析システムを構築中です。ログ
ファイルは「会員ID URL 時間 参照元」という形にならんでいます。

001 /a.html 2月1日 www.yahoo.co.jp
001 /b.html 2月1日 www.yahoo.co.jp
001 /a.html 2月1日 www.yahoo.co.jp
002 /a.html 2月1日 www.yahoo.co.jp
003 /a.html 2月1日 www.yahoo.co.jp


このデータを利用して、各URLのユニークユーザ数を数えたいのです。
ユニークユーザ数を出すには、URLに対して会員IDが何種類あるかを
数えると出てきます。それ自体はxtaggを利用することで計算できます。
問題は、会員IDがないユーザの場合です。会員IDは登録者のみ発行
されるため、一般の人がアクセスした場合には会員IDは記録されま
せん。つまり

null /a.html 2月1日 www.yahoo.co.jp
null /b.html 2月1日 www.yahoo.co.jp
null /a.html 2月1日 www.yahoo.co.jp
null /a.html 2月1日 www.yahoo.co.jp
null /a.html 2月1日 www.yahoo.co.jp

というレコードが発生します。会員IDがないレコードからユニークユーザ
数を算出するために、次のロジックを利用します。

1 ID有りのレコードをカウントし、ページビュー数とユニークユーザ数を
  カウントする(例:ページビュー数が100/ユニークユーザ数が10)

2 ID無しのレコードをカウントし、ページビュー数だけをカウントする
  (例:ページビュー数が20/ユニークユーザ数は「?」)

3 ID有りで算出したページビュー数とユニークユーザ数の割合を、
  ID無しの結果に当てはめる
  (例:100:10=20:「?」 「?」=2)

4 ID有りの結果とID無しの推計値を足す
  (例:ページビュー数は120、ユニークユーザ数は12)

こんな計算がmusashiで一発でできるとうれしいのですが、xtclassify
を利用することで実現できそうでしょうか?









MUSASHI-users メーリングリストの案内
Back to archive index