[Linux-ha-jp] Attempting connection to the cluster...

Back to archive index

Takehiro Matsushima takeh****@gmail*****
2014年 4月 30日 (水) 09:30:49 JST


せきやま さん

松島と申します。遅レスで申し訳ございません。
SELinuxをdisabledにして解決されたとのことでしたが、すこし気になったことがありました。

私の環境は物理マシンなのですが、同じようにUnicastを使っています。
corosync.confは次のとおりです。
----
aisexec {
    user: root
    group: root
}

service {
    name: pacemaker
    ver: 0
    use_mgmt: yes
}

totem {
    version: 2

    crypto_cipher: none
    crypto_hash: none

    rrp_mode: active
    clear_node_high_bit: yes
    secauth: off
    token: 4000
    consensus: 10000
    rrp_problem_count_timeout: 3000

    interface {
        member {
            memberaddr: 192.168.128.32
        }
        member {
            memberaddr: 192.168.128.33
        }
        ringnumber: 0
        bindnetaddr: 192.168.128.0
        mcastport: 5405
        ttl: 1
    }
    interface {
        member {
            memberaddr: 192.168.129.32
        }
        member {
            memberaddr: 192.168.129.33
        }
        ringnumber: 1
        bindnetaddr: 192.168.129.0
        mcastport: 5405
        ttl: 1
    }
    transport: udpu
}

logging {
    fileline: off
    to_stderr: no
    to_logfile: yes
    logfile: /var/log/cluster/corosync.log
    to_syslog: no
    debug: off
    timestamp: on
    logger_subsys {
        subsys: QUORUM
        debug: off
    }
}

quorum {
    provider: corosync_votequorum
    expected_votes: 2
    two_node: 1
}
----

SELinuxはPermissiveで構築し、数カ月みていますが、audit2allow -aで何も引っかかりません。
bindnetaddrもネットワークアドレスを記述していますが特に問題は出ていません。
iptablesで224.0.0.0/4のUDP IN/OUTを叩き落としてみましたが変化ありませんでした。

ちなみに環境はCentOS6.5 x86_64にPacemaker1.0.13-1とCorosync1.4.6-1を組み合わせています。

以上、ご不要な情報でしたら無視してください。


2014年4月29日 16:59 Noritaka Sekiyama <moomi****@gmail*****>:
> せきやまです。自己解決したので報告します。
> 両ノードのSELinuxをdisabledにしたら正常に動作しました。
> お騒がせして大変失礼いたしました。
>
> --
> Noritaka Sekiyama
> Twitter: @moomindani
> Blog: mooapp http://moomindani.wordpress.com (http://moomindani.wordpress.com/)
>
>
> 日付:2014年4月28日月曜日、時刻:13:52、差出人:Noritaka Sekiyama:
>
>> せきやまと申します。質問させてください。
>>
>> Pacemaker(Corosync)を2ノード構成で組んだのですが、crm_monコマンドで状態を確認しようとしたところ
>> Attempting connection to the cluster…
>> というメッセージが出続ける状態で、どうやら正常に動作していないようです。
>> もし原因と解決方法に心当たりがございましたら教えて頂けないでしょうか。
>>
>> ■環境
>> RHEL 6.4(EC2)
>> pacemaker-1.0.13-1.2(Corosync)※Linux-HA提供パッケージ
>>
>>
>> ノードA: 172.31.15.101
>> ノードB: 172.31.27.99
>>
>> ■事象
>> # crm_mon -fA
>> Attempting connection to the cluster….
>>
>>
>> /var/log/cluster/corosync.logを見たところ、サービス起動後にこんなエラーが出ていました。
>> Apr 28 00:10:50 corosync [pcmk ] ERROR: pcmk_wait_dispatch: Child process lrmd exited (pid=25948, rc=100)
>> Apr 28 00:10:50 corosync [pcmk ] notice: pcmk_wait_dispatch: Child process lrmd no longer wishes to be respawned
>> Apr 28 00:10:50 corosync [pcmk ] info: update_member: Node ip-172-31-15-101 now has process list: 00000000000000000000000000013302 (78594)
>> Apr 28 00:10:50 corosync [pcmk ] ERROR: pcmk_wait_dispatch: Child process cib exited (pid=25947, rc=100)
>> Apr 28 00:10:50 corosync [pcmk ] notice: pcmk_wait_dispatch: Child process cib no longer wishes to be respawned
>> Apr 28 00:10:50 corosync [pcmk ] info: update_member: Node ip-172-31-15-101 now has process list: 00000000000000000000000000013202 (78338)
>> Apr 28 00:10:50 corosync [pcmk ] ERROR: pcmk_wait_dispatch: Child process crmd exited (pid=25951, rc=100)
>> Apr 28 00:10:50 corosync [pcmk ] notice: pcmk_wait_dispatch: Child process crmd no longer wishes to be respawned
>> Apr 28 00:10:50 corosync [pcmk ] info: update_member: Node ip-172-31-15-101 now has process list: 00000000000000000000000000013002 (77826)
>> Apr 28 00:10:50 corosync [pcmk ] ERROR: pcmk_wait_dispatch: Child process attrd exited (pid=25949, rc=100)
>> Apr 28 00:10:50 corosync [pcmk ] notice: pcmk_wait_dispatch: Child process attrd no longer wishes to be respawned
>> Apr 28 00:10:50 corosync [pcmk ] info: update_member: Node ip-172-31-15-101 now has process list: 00000000000000000000000000012002 (73730)
>> Apr 28 00:10:50 corosync [pcmk ] ERROR: pcmk_wait_dispatch: Child process stonithd exited (pid=25946, rc=100)
>> Apr 28 00:10:50 corosync [pcmk ] notice: pcmk_wait_dispatch: Child process stonithd no longer wishes to be respawned
>> Apr 28 00:10:50 corosync [pcmk ] info: update_member: Node ip-172-31-15-101 now has process list: 00000000000000000000000000010002 (65538)
>> Apr 28 00:10:50 corosync [pcmk ] ERROR: pcmk_wait_dispatch: Child process pengine exited (pid=25950, rc=100)
>> Apr 28 00:10:50 corosync [pcmk ] notice: pcmk_wait_dispatch: Child process pengine no longer wishes to be respawned
>>
>> ERRORを含むログは上記のみのようです。
>>
>> ■その他
>> ・rootでserviceコマンドにより起動しています。
>> # service corosync start
>>
>> ・iptablesはとりあえず停止しています。
>>
>> ・両ノード間の通信は疎通できているようです。
>> # tcpdump -s 0 udp and port 5405
>> tcpdump: verbose output suppressed, use -v or -vv for full protocol decode
>> listening on eth0, link-type EN10MB (Ethernet), capture size 65535 bytes
>> 00:48:24.879086 IP ip-172-31-15-101.ap-northeast-1.compute.internal.netsupport > ip-172-31-27-99.ap-northeast-1.compute.internal.netsupport: UDP, length 70
>> 00:48:24.881495 IP ip-172-31-27-99.ap-northeast-1.compute.internal.netsupport > ip-172-31-15-101.ap-northeast-1.compute.internal.netsupport: UDP, length 70
>> 00:48:25.070704 IP ip-172-31-15-101.ap-northeast-1.compute.internal.netsupport > ip-172-31-27-99.ap-northeast-1.compute.internal.netsupport: UDP, length 70
>> 00:48:25.072995 IP ip-172-31-27-99.ap-northeast-1.compute.internal.netsupport > ip-172-31-15-101.ap-northeast-1.compute.internal.netsupport: UDP, length 70
>>
>>
>>
>> ・UDPユニキャストを使うためにcorosync.confでudpuについて設定しています。
>> —corosync.conf (ノードA)---
>> compatibility: whitetank
>> aisexec {
>> user: root
>> group: root
>> }
>> service {
>> name: pacemaker
>> ver: 0
>> }
>> totem {
>> version: 2
>> secauth: off
>> threads: 0
>> interface {
>> member {
>> memberaddr: 172.31.15.101
>> }
>> member {
>> memberaddr: 172.31.27.99
>> }
>>
>>
>> ringnumber: 0
>> bindnetaddr: 172.31.15.101
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>> mcastport: 5405
>>
>>
>> ttl: 1
>> }
>> transport: udpu
>> }
>>
>> (省略)
>>
>> —corosync.conf (ノードB)---
>> bindnetaddr: 172.31.27.99
>> ※bindnetaddr以外はノードAと同一(当初両ノードで172.31.0.0としていましたが、これだとTOTEMの通信に失敗していたためこのように修正しました。)
>>
>>
>> 恐れ入りますが、よろしくお願いいたします。
>
> _______________________________________________
> Linux-ha-japan mailing list
> Linux****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan



-- 
Regards,
Takehiro Matsushima



Linux-ha-japan メーリングリストの案内
Back to archive index