[Linux-ha-jp] corosync+pacemakerでのwatchdog動作が不安定

Back to archive index

高瀬智大 tomoh****@kccs*****
2018年 10月 3日 (水) 10:04:33 JST


山内さん

こんにちは。
高瀬です。

返信ありがとうございます。
確認事項について以下に記載致しますのでお手数ですが、ご確認の程よろしくお願い致します。

①環境ですが?実機ですか?仮想ですか?
⇒仮想環境です。AWS EC2インスタンスにて構築しています。

②pacemaker.combinedの起動ユーザは?rootですか?
⇒pacemaker関連のプロセスを確認しました。以下となりますが、相違ないでしょうか。
コマンド「ps -ef|grep pacemaker | grep -v grep」
--------
root      1434     1  0 Sep29 ?        00:00:13 pacemakerd
189       1446  1434  0 Sep29 ?        00:01:27 /usr/libexec/pacemaker/cib
root      1447  1434  0 Sep29 ?        00:00:13
/usr/libexec/pacemaker/stonithd
root      1448  1434  0 Sep29 ?        00:01:07 /usr/libexec/pacemaker/lrmd
189       1449  1434  0 Sep29 ?        00:00:46 /usr/libexec/pacemaker/attrd
189       1450  1434  0 Sep29 ?        00:00:14
/usr/libexec/pacemaker/pengine
189       1451  1434  0 Sep29 ?        00:00:23 /usr/libexec/pacemaker/crmd
root      1621     1  0 Sep29 ?        00:04:02 /bin/sh
/usr/local/script/pacemaker/ping_check.sh
--------

③また、pacemaker.combinedの自動起動は有効になるように変更していますか?
⇒はい。自動起動になるように設定しております。

④selinuxの設定は、何か設定されていますか?
⇒いいえ。無効化(disable)としております。

⑤実機を一旦再起動後、次のコマンドラインでmodprobeを手動で行い、initctlからcorosyncのみを起動した
場合に、ログのWDサービスの出力はどうなっていますか?
⇒実施後に再度ご連絡致します。

⑥⑤後に/dev/watchdogのアクセス権はどうなっていますか?
⇒実施後に再度ご連絡致します。

⑦⑤に似ていますが、再度実機を一旦再起動後、modprobeを手動で行い、/dev/watchdogに対して、起動ユーザ
で以下のコマンドで書き込みは可能ですか?
⇒実施後に再度ご連絡致します。

⑧念の為、起動に使用しているpacemaker.combined(/etc/init/pacemaker.combine
d.conf)のファイルを開示して頂けますか?
⇒承知しました。
念の為、申し訳ありませんが、個別にて別途送付させてい頂きます。

以上です。
お手数をおかけしますがよろしくお願い致します。

2018年10月2日(火) 19:01 <renay****@ybb*****>:

> 高瀬さん
>
> こんばんは、山内です。
>
> 今の所、全く、原因は不明です。
>
> お手数ですが、再度、いくつか確認させてください。
>
> ①環境ですが?実機ですか?仮想ですか?
> ②pacemaker.combinedの起動ユーザは?rootですか?
> ③また、pacemaker.combinedの自動起動は有効になるように変更していますか?
> ④selinuxの設定は、何か設定されていますか?
>
> ⑤実機を一旦再起動後、次のコマンドラインでmodprobeを手動で行い、initctlからcorosyncのみを起動した場合に、ログのWDサービスの出力はどうなっていますか?
>
> [root @ cent69-01 ~]# modprobe softdog
> [root @ cent69-01 ~]# start corosync
>
> ⑥⑤後に/dev/watchdogのアクセス権はどうなっていますか?
> (以下は手元の正常に起動する環境での例)
> [root @ cent69-01 ~]# ls -lt /dev/watchdog
> crw-rw---- 1 root root 10, 130 10月  2 10:11 2018 /dev/watchdog
>
>
> ⑦⑤に似ていますが、再度実機を一旦再起動後、modprobeを手動で行い、/dev/watchdogに対して、起動ユーザで以下のコマンドで書き込みは可能ですか?
> 以下を行った場合、正しく書き込みが行われると、暫くすると、システムはwatchdogによって再起動します。
> [root @ cent69-01 ~]# modprobe softdog
> [root @ cent69-01 ~]# echo > /dev/watchdog
>
>
> ⑧念の為、起動に使用しているpacemaker.combined(/etc/init/pacemaker.combined.conf)のファイルを開示して頂けますか?
>
> 以上、宜しくお願いいたします。
>
>
> ----- Original Message -----
> >From: 高瀬智大 <tomoh****@kccs*****>
> >To: renay****@ybb*****
> >Cc: linux****@lists*****
> >Date: 2018/10/2, Tue 07:52
> >Subject: Re: [Linux-ha-jp] corosync+pacemakerでのwatchdog動作が不安定
> >
> >
> >山内さん
> >
> >
> >おはようございます。
> >高瀬です。
> >
> >
> >fuser -v /dev/watchdogにて確認したところ、何も表示されませんでした。
> >これはcorosync起動時にwatchdogが認識されていない状態となっており、正常動作しないのかと思っております。
> >
> >
> >以上です。
> >宜しくお願い致します。
> >
> >2018年10月2日(火) 6:31 <renay****@ybb*****>:
> >
> >高瀬さん
> >>
> >>こんにちは、山内です。
> >>
> >>>以下コマンドにて/dev/watchdogにアクセスしているユーザを確認しました。
> >>>fuser -mv /dev/watchdog
> >>>
> >>>
> >>>
> >>>確認した結果、様々なプロセスが読み込み専用、書き込み専用として開いておりました。
> >>>その中でもcorosync、pacemakerに着目したところ、F(書き込み専用)で使用中でした。
> >>>
> >>>
> >>>-----------------
> >>>USER        PID ACCESS COMMAND
> >>>
> >>>root       1072 F.... corosync
> >>>
> >>>root           1350 F.... pacemakerd
> >>>
> >>>root           1361 F.c.. agetty
> >>>
> >>>-----------------
> >>
> >>fuser -vではどうでしょう?
> >>手元の正常なCentOSの単ノードでは、pacemaker.combinedで起動後は以下となり、corosyncのみのアクセスが確認できます。
> >>
> >>[root @ cent69-01 ~]# fuser -v /dev/watchdog
> >>                     USER        PID ACCESS COMMAND
> >>/dev/watchdog:       root       2148 F.... corosync
> >>[root @ cent69-01 ~]#
> >>
> >>
> >>以上です。
> >>
> >>
> >>----- Original Message -----
> >>>From: 高瀬智大 <tomoh****@kccs*****>
> >>>To: renay****@ybb*****
> >>>Cc: linux****@lists*****
> >>>Date: 2018/10/1, Mon 19:14
> >>>Subject: Re: [Linux-ha-jp] corosync+pacemakerでのwatchdog動作が不安定
> >>>
> >>>
> >>>山内さん
> >>>
> >>>
> >>>こんばんは、高瀬です。
> >>>早速の返信ありがとうございます。
> >>>
> >>>
> >>>以下コマンドにて/dev/watchdogにアクセスしているユーザを確認しました。
> >>>fuser -mv /dev/watchdog
> >>>
> >>>
> >>>
> >>>確認した結果、様々なプロセスが読み込み専用、書き込み専用として開いておりました。
> >>>その中でもcorosync、pacemakerに着目したところ、F(書き込み専用)で使用中でした。
> >>>
> >>>
> >>>-----------------
> >>>USER        PID ACCESS COMMAND
> >>>
> >>>root       1072 F.... corosync
> >>>
> >>>root           1350 F.... pacemakerd
> >>>
> >>>root           1361 F.c.. agetty
> >>>
> >>>-----------------
> >>>
> >>>
> >>>
> >>>以上です。
> >>>宜しくお願い致します。
> >>>
> >>>
> >>>
> >>>2018年10月1日(月) 18:54 <renay****@ybb*****>:
> >>>
> >>>
> >>>>高瀬さん
> >>>>
> >>>>こんばんは、山内です。
> >>>>
>
> >>>>>corosyncの起動ログにwarningが出ているものの正常にsoftdogが組み込まれている事から、問題ないとおもいますがいかがでしょうか。
> >>>>>大変お手数をおかけして申し訳ありませんがご教示の程よろしくお願い致します。
> >>>>
> >>>>
>
> >>>>該当のログのソースは以下となっておりますので、watchdog自体にcorosyncがアクセス出来ない状態となっていて設定出来ていないと思われます。
> >>>>よって、以降、corosyncのwatchdog機能(WDサービス)は無効となっていると思います。
> >>>>
> >>>>(snip)
> >>>>static int setup_watchdog(void)
> >>>> {
> >>>> struct watchdog_info ident;
> >>>> char *str;
> >>>> ENTER();
> >>>> if (icmap_get_string("resources.watchdog_device", &str) == CS_OK) {
> >>>> if (strcmp (str, "off") == 0) {
> >>>> log_printf (LOGSYS_LEVEL_WARNING, "Watchdog disabled by
> configuration");
> >>>> free(str);
> >>>> dog = -1;
> >>>> return -1;
> >>>> } else {
> >>>> watchdog_device = str;
> >>>> }
> >>>> }
> >>>> if (access (watchdog_device, W_OK) != 0) {
> >>>> log_printf (LOGSYS_LEVEL_WARNING, "No Watchdog %s, try modprobe <a
> watchdog>", watchdog_device);
> >>>> dog = -1;
> >>>> return -1;
> >>>> }
> >>>>
> >>>>(snip)
> >>>>
> >>>>ちなみに、該当システムの他のプロセスが/dev/watchdogを持っているようなことはないでしょうか?
> >>>>HPなどのハードの場合、独自のツールの監視プロセスが/dev/watchdogを持っていたりということがありますが・・・
> >>>>
> >>>>以上です。
> >>>>----- Original Message -----
> >>>>>From: 高瀬智大 <tomoh****@kccs*****>
> >>>>>To: renay****@ybb*****
> >>>>>Cc: linux****@lists*****
> >>>>>Date: 2018/10/1, Mon 18:43
> >>>>>Subject: Re: [Linux-ha-jp] corosync+pacemakerでのwatchdog動作が不安定
> >>>>>
> >>>>>
> >>>>>山内さん
> >>>>>
> >>>>>
> >>>>>こんばんは
> >>>>>高瀬です。
> >>>>>
> >>>>>
> >>>>>返信ありがとうございます。
> >>>>>
> >>>>>
> >>>>>/etc/sysconfig/pacemakerの設定は以下にしております。
> >>>>>
> >>>>>-------
> >>>>>
> >>>>>export PCMK_logfile="ログ出力先"
> >>>>>export PCMK_logfacility=none
> >>>>>export PCMK_fail_fast=yes
> >>>>>-------
> >>>>>
> >>>>>
> >>>>>
> >>>>>
> >>>>>起動時のcorosyncログには以下が出力されておりました。
> >>>>>--------
> >>>>>
> >>>>>corosync warning [WD    ] No Watchdog /dev/watchdog, try modprobe <a
> watchdog>
> >>>>>corosync info    [WD    ] no resources configured.
> >>>>>corosync notice  [SERV  ] Service engine loaded: corosync watchdog
> service [7]
> >>>>>corosync notice  [QUORUM] Using quorum provider corosync_votequorum
> >>>>>corosync notice  [SERV  ] Service engine loaded: corosync vote quorum
> service v1.0 [5]
> >>>>>corosync info    [QB    ] server name: votequorum
> >>>>>corosync notice  [SERV  ] Service engine loaded: corosync cluster
> quorum service v0.1 [3]
> >>>>>corosync info    [QB    ] server name: quorum
> >>>>>--------
> >>>>>
> >>>>>
> >>>>>
> >>>>>
> >>>>>また、以下コマンドにてsoftdogが組み込まれているかの確認を実施したところ、表示されておりますので組み込まれておりました。
> >>>>>lsmod |grep softdog
> >>>>>---------
> >>>>>softdog                 4320  0
> >>>>>
> >>>>>---------
> >>>>>
> >>>>>
>
> >>>>>corosyncの起動ログにwarningが出ているものの正常にsoftdogが組み込まれている事から、問題ないとおもいますがいかがでしょうか。
> >>>>>大変お手数をおかけして申し訳ありませんがご教示の程よろしくお願い致します。
> >>>>>
> >>>>>
> >>>>>以上です。
> >>>>>宜しくお願い致します。
> >>>>>
> >>>>>
> >>>>>2018年10月1日(月) 17:30 <renay****@ybb*****>:
> >>>>>
> >>>>>高瀬さん
> >>>>>>
> >>>>>>こんばんは、山内です。
> >>>>>>
> >>>>>>
> >>>>>>了解いたしました。
> >>>>>>
> >>>>>>実際にUbuntuのKVM上で、CentOS69のゲストを単ノード起動(1.1.16の同じリポジトリパッケージ)で確認してみました。
> >>>>>>
> >>>>>>
> >>>>>>まずは、corosyncの起動のログを確認して頂ければと思います。
> >>>>>>念の為、/etc/sysconfig/pacemakerのfail_fastの設定(「yes」)があれば、コメントにして頂いて、start
> pacmaker.combinedを実行していただきたいです。
> >>>>>>
>
> >>>>>>corosyncは内部的にWDサービスとしてwatchdogを利用している為、正常にwatchdogを認識していれば、起動時に以下のようなログが出ているはずです。
> >>>>>>
> >>>>>>
> >>>>>>Oct  1 17:19:45 cent69-01 corosync[2194]:  [WD    ] Watchdog
> /dev/watchdog is now been tickled by corosync.
> >>>>>>Oct  1 17:19:45 cent69-01 corosync[2194]:  [WD    ] no resources
> configured.
> >>>>>>
> >>>>>>この時、エラーが出ていれば、何らかの問題があると思います。
> >>>>>>※もしくは、WDサービスのログが出ていないなど。。。
> >>>>>>
> >>>>>>ちなみに、起動後、softdogが組み込まれたかは?以下で確認出来ます。
> >>>>>>
> >>>>>>[root @ cent69-01 ~]# lsmod |grep softdog
> >>>>>>softdog                 4320  2
> >>>>>>
> >>>>>>
> >>>>>>手元の単ノードで起動後、corosyncをKILLすると数秒後にwatchdogにより再起動が発生しました。
> >>>>>>
> >>>>>>[root @ cent69-01 ~]# ps -ef |grep coro
> >>>>>>root      2078     1  2 17:27 ?        00:00:01 corosync
> >>>>>>root      2107  2048  0 17:28 pts/0    00:00:00 grep coro
> >>>>>>[root @ cent69-01 ~]# kill -9 2078
> >>>>>>
> >>>>>>
> >>>>>>
> >>>>>>上記のWDサービスの起動ログなどの確認をお願いします。
> >>>>>>以上です。
> >>>>>>
> >>>>>>----- Original Message -----
> >>>>>>>From: 高瀬智大 <tomoh****@kccs*****>
> >>>>>>>To: renay****@ybb*****; linux****@lists*****
> >>>>>>>Date: 2018/10/1, Mon 11:09
> >>>>>>>Subject: Re: [Linux-ha-jp] corosync+pacemakerでのwatchdog動作が不安定
> >>>>>>>
> >>>>>>>
> >>>>>>>山内さん
> >>>>>>>
> >>>>>>>
> >>>>>>>こんにちは
> >>>>>>>高瀬です。
> >>>>>>>
> >>>>>>>
> >>>>>>>返信頂きありがとうございます。
> >>>>>>>
> >>>>>>>
> >>>>>>>1. 起動は、initctlで行っているかどうか?
> >>>>>>> →はい。pacemakerの起動・停止はinitictrlにて実施しています。
> >>>>>>> 2.
> また、その時、/etc/init/pacemacker.combined.confでwatchdogが有効になっているかどうか?
> >>>>>>>
> >>>>>>> →はい。有効になっています。
> >>>>>>>3. /dev/watchdogが認識されているかどうか?
> >>>>>>> →以下コマンドにて表示(認識)されている事を確認しています。
> >>>>>>> ls -l  /dev/watchdog
> >>>>>>>
> >>>>>>> watchdogが正しく動作すれば、上記デバイスファイルの時間は更新されるのでしょうか。
> >>>>>>> watchdogの処理が失敗しているのか、そもそもwatchdogが動作していないのか切り分けたく、お聞きしております。
> >>>>>>>
> >>>>>>>
> >>>>>>>設定等でも特に誤って記載している箇所等はないのですが、watchdogによるOS再起動が動作していない状態となります。
> >>>>>>>
> >>>>>>>
> >>>>>>>以上です。
> >>>>>>>よろしくお願い致します。
> >>>>>>>
> >>>>>>>
> >>>>>>>
> >>>>>>>2018年9月30日(日) 3:01 <renay****@ybb*****>:
> >>>>>>>
> >>>>>>>高瀬さん
> >>>>>>>>
> >>>>>>>>こんばんは、山内です。
> >>>>>>>>
> >>>>>>>>Linux-ha-japanのリポジトリパッケージを利用されていると思いますので、corosyncのwatchdogは有効になっている
> >>>>>>>>パッケージが入っていると思いますので、設定が正しければwatchdogが動作すると思います。
> >>>>>>>>
> >>>>>>>>以下の点を確認して頂くのが良いと思います。
> >>>>>>>>
> >>>>>>>>
> >>>>>>>>1. 起動は、initctlで行っているかどうか?
> >>>>>>>>2. また、その時、/etc/init/pacemacker.combined.confでwatchdogが有効になっているかどうか?
> >>>>>>>> - https://linux-ha.osdn.jp/wp/archives/4618#51_corosync
> >>>>>>>>3. /dev/watchdogが認識されているかどうか?
> >>>>>>>>
> >>>>>>>>該当のログは、corosyncがダウンした事をPacemakerプロセスが検知して出力しているので問題はありませんが、
> >>>>>>>>本来は、このログが出るか出ないかくらいで、watchdogが発動してOS再起動となります。
> >>>>>>>>
> >>>>>>>>先に書いた3つあたりを確認していただければ良いかと思います。
> >>>>>>>>
> >>>>>>>>以上です。
> >>>>>>>>
> >>>>>>>>----- Original Message -----
> >>>>>>>>>From: 高瀬智大 <tomoh****@kccs*****>
> >>>>>>>>>To: linux****@lists*****
> >>>>>>>>>Date: 2018/9/29, Sat 16:18
> >>>>>>>>>Subject: [Linux-ha-jp] corosync+pacemakerでのwatchdog動作が不安定
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>>お世話になっております。
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>>現在、corosync+pacemakerにてHA構成を組んでおります。
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>>corosyncプロセスをKILL(コマンド「kill -9
> プロセスID」)した際に切り替わる事+watchdogが動作し、OS再起動が発生する事を確認したいのですが、
> >>>>>>>>>
> >>>>>>>>>うまく動作していない状況です。
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>>何か情報があればご教示ください。
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>>環境、詳細な事象は以下となります。
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>>【使用ソフト】
> >>>>>>>>>CentOS 6.9 64bit
> >>>>>>>>>
> >>>>>>>>>Pacemaker 1.1.16-1
> >>>>>>>>>
> >>>>>>>>>pacemaker-repo 1.1.16-1.1
> >>>>>>>>>
> >>>>>>>>>corosync 2.4.2-1
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>>【構成】
> >>>>>>>>>2台でHA構成のActive-Standby構成
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>>【事象】
> >>>>>>>>>①corosyncプロセスをKILLした際に切替が発生しない。
> >>>>>>>>> →Standby側にてVIPCheckが失敗し、その後の切替処理が止まってしまう。
> >>>>>>>>> この後にActive側にてwatchdogが動作しOS再起動され切替が発生する想定だったが、以下②の事象が発生し
> >>>>>>>>> OS再起動がされない。
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>>②corosyncをKILLしたが、以下エラーメッセージが出力され、watchdogが動作しない。
> >>>>>>>>> ----------
> >>>>>>>>> hostname stonith-ng:    error: pcmk_cpg_dispatch:Connection to
> the CPG API failed: Library error (2)
> >>>>>>>>> hostname stonith-ng:    error: stonith_peer_cs_destroy:Corosync
> connection terminated
> >>>>>>>>> hostname pacemakerd:    error: pcmk_cpg_dispatch:Connection to
> the CPG API failed: Library error (2)
> >>>>>>>>> hostname  pacemakerd:    error: mcp_cpg_destroy:Connection
> destroyed
> >>>>>>>>> hostname       crmd:    error: crmd_quorum_destroy:connection
> terminated
> >>>>>>>>> hostname         cib:    error: pcmk_cpg_dispatch:Connection to
> the CPG API failed: Library error (2)
> >>>>>>>>> hostname         cib:    error: cib_cs_destroy:Corosync
> connection lost!  Exiting.
> >>>>>>>>> hostname       attrd:    error: pcmk_cpg_dispatch:Connection to
> the CPG API failed: Library error (2)
> >>>>>>>>> ----------
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>>以上、よろしくお願い致します。
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>>_______________________________________________
> >>>>>>>>>Linux-ha-japan mailing list
> >>>>>>>>>Linux****@lists*****
> >>>>>>>>>https://lists.osdn.me/mailman/listinfo/linux-ha-japan
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>>
> >>>>>>>>
> >>>>>>>>_______________________________________________
> >>>>>>>>Linux-ha-japan mailing list
> >>>>>>>>Linux****@lists*****
> >>>>>>>>https://lists.osdn.me/mailman/listinfo/linux-ha-japan
> >>>>>>>>
> >>>>>>>
> >>>>>>>
> >>>>>>>
> >>>>>>>
> >>>>>>>
> >>>>>>>
> >>>>>>>
> >>>>>>>
> >>>>>>>
> >>>>>>
> >>>>>
> >>>>>
> >>>>>
> >>>>>
> >>>>>
> >>>>>
> >>>>>
> >>>>
> >>>
> >>>
> >>>
> >>>
> >>>
> >>
> >
> >
> >
> >
> >
> >
> >
>


-- 
=====================================
京セラコミュニケーションシステム株式会社
プラットフォーム事業部
ITインフラソリューション部
東京ITインフラソリューション1課
東京ITインフラソリューション1A
高瀬 智大(タカセ トモヒロ)

〒108-8605
東京都港区三田3-11-34(センチュリー三田ビル)
E-mail:tomoh****@kccs*****
=====================================
-------------- next part --------------
HTML$B$NE:IU%U%!%$%k$rJ]4I$7$^$7$?(B...
URL: https://lists.osdn.me/mailman/archives/linux-ha-japan/attachments/20181003/1de760a6/attachment-0001.htm 



Linux-ha-japan メーリングリストの案内
Back to archive index