[MUSASHI-users 469] Re: Webのアクセスログで経路分析をしたい

Back to archive index

Yukinobu Hamuro hamur****@adm*****
2005年 1月 6日 (木) 14:13:01 JST


羽室です

セッションの求め方ですが以下のようにすれば求まります。
スクリプトのxtcalが複雑ですが、2つの時刻間の時間計算(秒)を行い1800秒(30分)以上ならフラグをセットしています。
計算式を複数のxtcalに分解して動作を確認いただければわかると思います。
(日付、時刻はMUSASHIの形式である必要がありあます)

データ(xxa.xt)
<?xml version="1.0" encoding="euc-jp"?>
<xmltbl version="1.1">
<header>
<field no="1" name="id"></field>
<field no="2" name="d1"></field>
<field no="3" name="t1"></field>
</header>
<body><![CDATA[
a 20050104 111010
a 20050104 112010
a 20050104 115010
a 20050104 121010
a 20050104 122010
b 20050101 231010
b 20050101 232010
b 20050101 234010
b 20050102 003010
b 20050102 003510
]]></body>
</xmltbl>

スクリプト
xtslide -k id -s d1,t1 -f d1:d2,t1:t2 -n |
xtcal -c 'if(round((dt2jd($d2,$t2)-dt2jd($d1,$t1))*86400,1)>=1800,1,0)' -a flg |
xtsession -k id -f flg -v 1 -a sID |
xtcut -f id,d1,t1,sID

結果
<?xml version="1.0" encoding="euc-jp"?>
<xmltbl version="1.1">
<header>
<field no="1" name="id" sort="1"></field>
<field no="2" name="d1" sort="2"></field>
<field no="3" name="t1" sort="3"></field>
<field no="4" name="sID"></field>
</header>
<body><![CDATA[
a 20050104 111010 0
a 20050104 112010 0
a 20050104 115010 1
a 20050104 121010 1
a 20050104 122010 1
b 20050101 231010 0
b 20050101 232010 0
b 20050101 234010 0
b 20050102 003010 1
b 20050102 003510 1
]]></body>
</xmltbl>

Sumio Ebisawa さんは書きました:
>海老澤です。毎度お世話になります。
>
>
>Webサーバのログファイルを作成して経路分析を試みています。
>
>経路分析とは、エンドユーザが閲覧したURLの順番のことで、
>セッションをベースとしています。
>
>セッションとは 1人のエンドユーザがWebサイト内において一定
>期間内に行ったページ閲覧のつながりのことです。セッションは
>エンドユーザがWebサイトを訪問した時にスタートして、30分以上
>ページの閲覧を行っていない場合に終了します。
>
>セッションの取得方法は次の通りです。
>
>1. ID別にWebログを分割する
>2. アクセス時間でソートする
>3. アクセスの間隔が30分以内のアクセスをまとめる
>   (30分以上の場合は、別セッションと認識する)
>
>
>例えば、サーバログが次のような場合
>
>--
>ID   日付と時間    URL
>001 2月1日10時10分 /a.html
>002 2月1日10時11分 /b.html
>001 2月1日10時12分 /b.html
>003 2月1日10時14分 /a.html
>002 2月1日10時15分 /c.html
>003 2月1日10時16分 /b.html
>001 2月1日11時00分 /a.html
>--
>
>次のように集計したい次第です。
>2件 /a.html → /b.html
>1件 /b.html → /c.html
>1件 /a.html
>
>xtpatternが近いと思うのですが、「30分の間隔」というのが
>無理なようです。このような分析はmusashiでは難しいでしょう
>か?
>
>
>
>
>
>
>
>
>_______________________________________________
>MUSASHI-users mailing list
>MUSAS****@lists*****
>http://lists.sourceforge.jp/mailman/listinfo/musashi-users
>

----
Yukinobu Hamuro  hamur****@adm*****



MUSASHI-users メーリングリストの案内
Back to archive index