Takehiro Matsushima
takeh****@gmail*****
2014年 4月 30日 (水) 09:30:49 JST
せきやま さん 松島と申します。遅レスで申し訳ございません。 SELinuxをdisabledにして解決されたとのことでしたが、すこし気になったことがありました。 私の環境は物理マシンなのですが、同じようにUnicastを使っています。 corosync.confは次のとおりです。 ---- aisexec { user: root group: root } service { name: pacemaker ver: 0 use_mgmt: yes } totem { version: 2 crypto_cipher: none crypto_hash: none rrp_mode: active clear_node_high_bit: yes secauth: off token: 4000 consensus: 10000 rrp_problem_count_timeout: 3000 interface { member { memberaddr: 192.168.128.32 } member { memberaddr: 192.168.128.33 } ringnumber: 0 bindnetaddr: 192.168.128.0 mcastport: 5405 ttl: 1 } interface { member { memberaddr: 192.168.129.32 } member { memberaddr: 192.168.129.33 } ringnumber: 1 bindnetaddr: 192.168.129.0 mcastport: 5405 ttl: 1 } transport: udpu } logging { fileline: off to_stderr: no to_logfile: yes logfile: /var/log/cluster/corosync.log to_syslog: no debug: off timestamp: on logger_subsys { subsys: QUORUM debug: off } } quorum { provider: corosync_votequorum expected_votes: 2 two_node: 1 } ---- SELinuxはPermissiveで構築し、数カ月みていますが、audit2allow -aで何も引っかかりません。 bindnetaddrもネットワークアドレスを記述していますが特に問題は出ていません。 iptablesで224.0.0.0/4のUDP IN/OUTを叩き落としてみましたが変化ありませんでした。 ちなみに環境はCentOS6.5 x86_64にPacemaker1.0.13-1とCorosync1.4.6-1を組み合わせています。 以上、ご不要な情報でしたら無視してください。 2014年4月29日 16:59 Noritaka Sekiyama <moomi****@gmail*****>: > せきやまです。自己解決したので報告します。 > 両ノードのSELinuxをdisabledにしたら正常に動作しました。 > お騒がせして大変失礼いたしました。 > > -- > Noritaka Sekiyama > Twitter: @moomindani > Blog: mooapp http://moomindani.wordpress.com (http://moomindani.wordpress.com/) > > > 日付:2014年4月28日月曜日、時刻:13:52、差出人:Noritaka Sekiyama: > >> せきやまと申します。質問させてください。 >> >> Pacemaker(Corosync)を2ノード構成で組んだのですが、crm_monコマンドで状態を確認しようとしたところ >> Attempting connection to the cluster… >> というメッセージが出続ける状態で、どうやら正常に動作していないようです。 >> もし原因と解決方法に心当たりがございましたら教えて頂けないでしょうか。 >> >> ■環境 >> RHEL 6.4(EC2) >> pacemaker-1.0.13-1.2(Corosync)※Linux-HA提供パッケージ >> >> >> ノードA: 172.31.15.101 >> ノードB: 172.31.27.99 >> >> ■事象 >> # crm_mon -fA >> Attempting connection to the cluster…. >> >> >> /var/log/cluster/corosync.logを見たところ、サービス起動後にこんなエラーが出ていました。 >> Apr 28 00:10:50 corosync [pcmk ] ERROR: pcmk_wait_dispatch: Child process lrmd exited (pid=25948, rc=100) >> Apr 28 00:10:50 corosync [pcmk ] notice: pcmk_wait_dispatch: Child process lrmd no longer wishes to be respawned >> Apr 28 00:10:50 corosync [pcmk ] info: update_member: Node ip-172-31-15-101 now has process list: 00000000000000000000000000013302 (78594) >> Apr 28 00:10:50 corosync [pcmk ] ERROR: pcmk_wait_dispatch: Child process cib exited (pid=25947, rc=100) >> Apr 28 00:10:50 corosync [pcmk ] notice: pcmk_wait_dispatch: Child process cib no longer wishes to be respawned >> Apr 28 00:10:50 corosync [pcmk ] info: update_member: Node ip-172-31-15-101 now has process list: 00000000000000000000000000013202 (78338) >> Apr 28 00:10:50 corosync [pcmk ] ERROR: pcmk_wait_dispatch: Child process crmd exited (pid=25951, rc=100) >> Apr 28 00:10:50 corosync [pcmk ] notice: pcmk_wait_dispatch: Child process crmd no longer wishes to be respawned >> Apr 28 00:10:50 corosync [pcmk ] info: update_member: Node ip-172-31-15-101 now has process list: 00000000000000000000000000013002 (77826) >> Apr 28 00:10:50 corosync [pcmk ] ERROR: pcmk_wait_dispatch: Child process attrd exited (pid=25949, rc=100) >> Apr 28 00:10:50 corosync [pcmk ] notice: pcmk_wait_dispatch: Child process attrd no longer wishes to be respawned >> Apr 28 00:10:50 corosync [pcmk ] info: update_member: Node ip-172-31-15-101 now has process list: 00000000000000000000000000012002 (73730) >> Apr 28 00:10:50 corosync [pcmk ] ERROR: pcmk_wait_dispatch: Child process stonithd exited (pid=25946, rc=100) >> Apr 28 00:10:50 corosync [pcmk ] notice: pcmk_wait_dispatch: Child process stonithd no longer wishes to be respawned >> Apr 28 00:10:50 corosync [pcmk ] info: update_member: Node ip-172-31-15-101 now has process list: 00000000000000000000000000010002 (65538) >> Apr 28 00:10:50 corosync [pcmk ] ERROR: pcmk_wait_dispatch: Child process pengine exited (pid=25950, rc=100) >> Apr 28 00:10:50 corosync [pcmk ] notice: pcmk_wait_dispatch: Child process pengine no longer wishes to be respawned >> >> ERRORを含むログは上記のみのようです。 >> >> ■その他 >> ・rootでserviceコマンドにより起動しています。 >> # service corosync start >> >> ・iptablesはとりあえず停止しています。 >> >> ・両ノード間の通信は疎通できているようです。 >> # tcpdump -s 0 udp and port 5405 >> tcpdump: verbose output suppressed, use -v or -vv for full protocol decode >> listening on eth0, link-type EN10MB (Ethernet), capture size 65535 bytes >> 00:48:24.879086 IP ip-172-31-15-101.ap-northeast-1.compute.internal.netsupport > ip-172-31-27-99.ap-northeast-1.compute.internal.netsupport: UDP, length 70 >> 00:48:24.881495 IP ip-172-31-27-99.ap-northeast-1.compute.internal.netsupport > ip-172-31-15-101.ap-northeast-1.compute.internal.netsupport: UDP, length 70 >> 00:48:25.070704 IP ip-172-31-15-101.ap-northeast-1.compute.internal.netsupport > ip-172-31-27-99.ap-northeast-1.compute.internal.netsupport: UDP, length 70 >> 00:48:25.072995 IP ip-172-31-27-99.ap-northeast-1.compute.internal.netsupport > ip-172-31-15-101.ap-northeast-1.compute.internal.netsupport: UDP, length 70 >> >> >> >> ・UDPユニキャストを使うためにcorosync.confでudpuについて設定しています。 >> —corosync.conf (ノードA)--- >> compatibility: whitetank >> aisexec { >> user: root >> group: root >> } >> service { >> name: pacemaker >> ver: 0 >> } >> totem { >> version: 2 >> secauth: off >> threads: 0 >> interface { >> member { >> memberaddr: 172.31.15.101 >> } >> member { >> memberaddr: 172.31.27.99 >> } >> >> >> ringnumber: 0 >> bindnetaddr: 172.31.15.101 >> >> >> >> >> >> >> >> >> >> >> >> >> >> mcastport: 5405 >> >> >> ttl: 1 >> } >> transport: udpu >> } >> >> (省略) >> >> —corosync.conf (ノードB)--- >> bindnetaddr: 172.31.27.99 >> ※bindnetaddr以外はノードAと同一(当初両ノードで172.31.0.0としていましたが、これだとTOTEMの通信に失敗していたためこのように修正しました。) >> >> >> 恐れ入りますが、よろしくお願いいたします。 > > _______________________________________________ > Linux-ha-japan mailing list > Linux****@lists***** > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan -- Regards, Takehiro Matsushima