69. HA機能の確認作業中に起こった惨劇
ログから,どのようなことがNutanix CEクラスターで起こっていたのかを確認していきます。
69
ログから見た障害から復旧まで
• クラスターを構成する各ノードに関するイベント
• 3:15頃にサーバーが1台起動していないログを見つけて異常に気づく。これは先に起
動が完了した3台でクラスターが正常に復旧し,VMが既に動作し始めていたため。
• Nutanixは,最低3台のノードが正常であれば,クラスター的には正常と判断し動作し
続けるため,ログを見つけるまで見落としていた。
NUTANIX COMMUNUTY MEETUP #7
イベント ノードやVM 結果 時間 実施までの時間
Critical Controller VM 192.168.100.110 has been rebooted 12/19/15, 03:02:32am -
Critical Controller VM 192.168.100.113 has been rebooted 12/19/15, 03:05:07am -
Critical Controller VM 192.168.100.112 has been rebooted 12/19/15, 03:06:31am -
Warning Controller VM 192.168.100.111 down for 307 seconds 12/19/15, 03:06:58am -
Critical Controller VM 192.168.100.111 has been rebooted 12-19-15, 03:25:42am -