這個時間有點久了,我也忘了很多細節,畢竟用到的次數太少,不過就將記得的寫一篇,以後可以自己回來查資料
如果是有 BMC 的機器,BMC 內部有一個 watchdog 可以監視 host 系統運行的狀況,這個拿來放在遠端重啟 host 非常好用
使用 ipmitool 取得 watchdog information
# 未啟動的機器 $ sudo ipmitool mc watchdog get Watchdog Timer Use: Reserved (0x00) Watchdog Timer Is: Stopped Watchdog Timer Actions: Hard Reset (0x01) Pre-timeout interval: 0 seconds Timer Expiration Flags: 0x00 Initial Countdown: 30 sec Present Countdown: 30 sec # 已啟動的機器 $ sudo ipmitool mc watchdog get Watchdog Timer Use: SMS/OS (0x44) Watchdog Timer Is: Started/Running Watchdog Timer Actions: Hard Reset (0x01) Pre-timeout interval: 0 seconds Timer Expiration Flags: 0x00 Initial Countdown: 900 sec Present Countdown: 850 sec
Install bmc-watchdog
Debian 和 Fedora 都是叫 freeipmi-bmc-watchdog,其它 distrubtion 應該也相去不遠
# Debian $ sudo apt install freeipmi-bmc-watchdog # Fedora $ sudo yum install freeipmi-bmc-watchdog
bmc-watchdog 基本參數
bmc-watchdog 啟動參數
# $ sudo bmc-watchdog -d -u 4 -p 0 -a 1 -i 900 # Start bmc-watchdog $ sudo bmc-watchdog -t
Debian 的 bmc-watchdog 設定放在 /etc/default/bmc-watchdog,不確定是不是 default configure ,但是還是放在這邊
OPTIONS="-d -u 4 -p 0 -a 1 -F -P -L -S -O -i 900 -e 60"
設成預設啟動
$ sudo systemctl enable bmc-watchdog $ sudo systemctl start bmc-watchdog
最後別忘了 enable watchdog in bmc
OS Watchdog Timer 那一項,如果沒事就不要開了,會一直重開
發佈留言