测试新写的snmp脚本,线上环境一切ok,线下环境一个都获取不到数据,于是乎开始检查
1. 检查snmp环境和服务
新装的,服务起了,命令也有
2.检查是不是oid之类的问题
跑脚本检活不通,直接跑语句,显示Timeout: No Response from xxxx
因为用的是厂商定制的oid,所以不确定是不是oid的问题(环境里面有很多种不同的厂商),于是随便找了个通用的oid试了下,提示snmpwalk: Timeout (Sub-id not found: (top) -> )
那应该不是语句的问题了
3.检查是否因为网络原因
snmp基于udp协议访问161端口,用nmap扫之
nmap xxxxxx -sU -p 161
先试了下一台能正常接收到snmp数据的
Host is up (0.0013s latency).
PORT STATE SERVICE
161/udp open|filtered snmp

再扫一下有问题的一台机子

Host is up (0.0011s latency).
PORT STATE SERVICE
161/udp closed snmp

嗯,那就是网络的问题了,找管网络的开通一下

(持续更新中。。。

跟同事排了一天原因,现在目前找到以下几种可能:

  1. 带外线没接/没接好
  2. bmc有故障
  3. 混杂了几台不同机型的机子,mib不同,得去跟售后扯皮(dell能直接下,其他的就。。。
  4. 防火墙
  5. 不同机房环境不通
  6. snmp没装/有问题

目前还出现了一些手动跑脚本/命令有数据,但是监控就是死活获取不到的情况,排查ing

另外出现一种情况,一些机子一直报掉盘,但是查看历史数据好像一切正常,考虑到之前观察监控的情况,有些机子可能五分钟数据就上来了,有些机子就要等个几十分钟或者一两个小时,猜想有可能后面那类机子的网络有点问题,时通时不通,监控拿不到数据的情况下按0处理,和前面正常数据一减就变成负的触发了告警。这个要么想办法排查网络问题要么可以考虑把脚本逻辑换成监测坏盘的数量

观察发现有些机子获取不到的原因可能是发送的信息太多卡住了,需要重启下带外

dell售后支持
https://www.dell.com/support/home/zh-cn
https://www.dell.com/support/kbdoc/zh-cn/000177052/

标签: none

评论已关闭