过年之前,我这的邮件服务器就总出问题。故障主要是我们这的一台 IBM X345 服务器其中一块 CPU 报警。之前也曾经清理过机器内部,并且重新插拔了几次,但都没有好转。由于快过年了,也因为是双机热备,就算关掉一台也不会影响邮件的服务,所以就放到假期以后再解决了。
今天在维修的过程中,把 PCI 扩展板拿下来清理。可能是插回去的时候没有插紧。居然开机的时候提示 NMI 错误。在网上找了一下这个错误的解释,才想起曾经拔过扩展板。重新插紧后,NMI 错误消失。
后来合计了一下,那块有问题的 CPU 再使用老方法估计是没啥用了。而且每次插拔以后,能用个半天一天,然后再次出错。干脆两块 CPU 调换下位置看看吧。记得以前曾经遇到过 CPU 编号小的应该插到 0 号插槽,大的插到 1 号。不过这次调换位置以后居然没有错误提示。
暂时算是没啥问题,等跑一跑看看会不会还报警吧。到时候就能确定是 CPU 本身的问题还是插槽的事情了。
不过服务器已经过保了。嘿嘿……到时候估计就得单 CPU 跑,或者换机器了。

