CDH故障解决:无法找到主机的NTP服务,或该服务未响应时钟偏差请求

最近CDH由于磁盘爆满原因,导致整个CDH集群直接挂掉了。

清理完磁盘,然后重启CDH集群后。出现了【无法找到主机的NTP服务,或该服务未响应时钟偏差请求】问题.

解决完之后,记录一下这个过程。

关注博主不迷路,获取更多干货资源

1 事故现场

日常工作中,CDH集群有可能意外宕机,原因可能是机房断电或者其他场景。那么在重新启动集群后,有可能出现一些问题。

我就是在CDH集群重启之后,碰到了【无法找到主机的NTP服务,或该服务未响应时钟偏差请求】,导致几乎整个集群全部爆红

2 解决方案

出现这个问题,有可能是时钟同步问题,也有可能是cm-agent或者cm-server的问题

2.1 检查时钟同步

1 检查每台机器时钟同步是否开启

1
2
3
4
systemctl status ntpd
systemctl is-enabled ntpd #查看是否在开机启动项
systemctl start ntpd #启动ntpd服务
systemctl enable ntpd #将ntpd添加到开机启动项

2 查看NTP服务器主机是否正确(查看该主机使用的ntp-server情况和同步延时等信息;)

1
ntpq -p

3 查看几台服务器时间是否一致(查看ntpd服务或chronyd服务是否生效。只有centos7、redhat7、ubuntu14等以上(含)才有该命令;)

1
timedatectl

以上操作都进行完成之后,我以为好了,结果发现CM里问题还是同样存在,没有任何变化

2.2 尝试重启CM

各个节点重启cm-agent

1
2
systemctl restart cloudera-scm-agent
systemctl status cloudera-scm-agent

主节点重启cm-server

1
2
systemctl restart cloudera-scm-server.service
tail -f /var/log/cloudera-scm-server/cloudera-scm-server.log

3 结果

一开始我一直在看NTP的问题,看来看去NTP是没问题的,可纳闷了,后来重启cm-agent和cm-server后问题得到解决

可能由于集群故障,CDH无法接收到NTP的时间同步,而不是NTP本身的问题

4 躺板板

红伞伞白杆杆,吃完一起躺板板

躺板板埋山山,亲朋都来吃饭饭

饭饭里有红伞伞,吃完全村埋山山,来年长满红伞伞

关注博主不迷路

联系博主


本博客所有文章除特别声明外,均为原创。版权归博主小马所有。任何团体、机构、媒体、网站、公众号及个人不得转载。如需转载,请联系博主(关于页面)。如其他团体、机构、媒体、网站、博客或个人未经博主允许擅自转载使用,请自负版权等法律责任!