【linux】因bmc-watchdog引起的系统重启


故障现象·分析

近来,有那么几个市场反应,个别服务器总是莫名奇妙的重启,而且不是一次两次,频繁的有数十天便重启一次,从管理以及日志上看,排除人为的操作重启,检查硬件也没有什么毛病,排除因cpu vcore pg电压差异引起的重启或关机等其他故障;那么既然硬件没得问题,便从系统继续入手,首先想到的是否是硬件资源过载,不过也排除了,重启前后资源使用和服务运行都是正常的!

到底是什么原因引起的,起初的几次,发现问题,没有找到原因,都草草的归根于资源瓶颈,或是待定观察;但这显然不是解决问题的,只是搪塞过去罢了;今天又有市场反应这个问题,而这台服务器之前已经发生过两次类似的问题,想着不能不负责的再忽悠了,同样也是忽悠自己啊;索性下定决心一一排查,总有蛛丝马迹,果然,困难最怕认真的人。


攻破过程·思路

故事还是从我们最熟悉的日志文件/var/log/message说起,故障也是从这里寻找药引;

直接粘贴在此(注意细节):

Jul 27 03:31:07 db2 rhsmd: In order for Subscription Manager to provide your system with updates, your system must be registered with the Customer Portal. Please enter your Red Hat login to ensure your system is up-to-date
Jul 27 18:20:03 db2 /usr/sbin/bmc-watchdog[3080]: fiid_obj_get: 'timer_state': data not available
Jul 27 19:07:33 db2 kernel: imklog 5.8.10, log source = /proc/kmsg started.
Jul 27 19:07:33 db2 rsyslogd: [origin software="rsyslogd" swVersion="5.8.10" x-pid="2531" x-info="http://www.rsyslog.com"] startJul 27 19:07:33 db2 kernel: Initializing cgroup subsys cpuset
Jul 27 19:07:33 db2 kernel: Initializing cgroup subsys cpu
Jul 27 19:07:33 db2 kernel: Linux version 2.6.32-504.el6.x86_64 (mockbuild@x86-023.build.eng.bos.redhat.com) (gcc version 4.4.7 20120313 (Red Hat 4.4.7-11) (GCC) ) #1 SMP Tue Sep 16 01:56:35 EDT 2014
可以很清楚的看到,第三行,是系统重启后留下的第一个日志记录,启动虚拟文件系统中kmsg服务,再往下就是开始记录启动的日志了,可是我们要弄清楚的是,服务器为什么会重启,重启前发生了什么?
第一行,是一条普通的日志,且是15个多小时前产生的,显然第二行至关重要,但看上去也很普通,所以感觉是系统突然就关闭了,然后重启了;我们知道,系统正常重启,会留下一些日志的,就像下面那样!
Jul 28 13:44:27 localhost kernel: Kernel logging (proc) stopped.
Jul 28 13:44:27 localhost rsyslogd: [origin software="rsyslogd" swVersion="5.8.10" x-pid="1374" x-info="http://www.rsyslog.com"] exiting on signal 15.
Jul 28 13:44:47 Moni kernel: imklog 5.8.10, log source = /proc/kmsg started.
Jul 28 13:44:47 Moni rsyslogd: [origin software="rsyslogd" swVersion="5.8.10" x-pid="1368" x-info="http://www.rsyslog.com"] start
如上,重启有个stoped和started的过程;是的,所以我要弄清楚再上面第二行粘贴的是什么意思!

再看下面,我在网上找到了有意思的东西:


故事到这里说的很清楚了,红帽的官网的有这个bug的记载,结合网上其他道友的论坛或文章;方法有两个,其一,便是卸载这个引起故障又不常用的软件;其二,替换安装一个6.4或更低版本的包;
[root@Moni ~]# rpm -qa | grep watch
watchdog-5.6-2.el6.x86_64
tmpwatch-2.9.16-4.el6.x86_64
freeipmi-bmc-watchdog-1.2.1-6.el6_5.x86_64
[root@Moni ~]# rpm -e freeipmi-bmc-watchdog
故事到这里也就结束了,这里站长选择了卸载freeipmi-bmc-watchdog软件包;

(今天就到这里了,有疑问的地方欢迎大家留言哦。)

Edit@bigmouth【原创博文】®【经验汇总】


原创文章,转载请注明:转自于公牛博客

本文链接地址:【linux】因bmc-watchdog引起的系统重启

6
祝福我们的祖国繁荣昌盛
  • 请尽情挥洒您的笔墨!

    欢迎来到公牛博客更多分享更多精彩记录美丽点亮生活

    公牛博客·统计碑运行:2848 D
    博文:213 P
    评论:1872 S