磁盘占满但是找不到大文件
某个磁盘满了,但是进去找不到文件,排除掉权限、隐藏文件、硬件问题等之后,那还有种可能
lsof -n |grep deleted
kill 杀掉对应进程
出现问题的原因是文件虽然被删除,但是进程没有释放文件的句柄,导致内核不能正常释放对应的存储空间
某个磁盘满了,但是进去找不到文件,排除掉权限、隐藏文件、硬件问题等之后,那还有种可能
lsof -n |grep deleted
kill 杀掉对应进程
出现问题的原因是文件虽然被删除,但是进程没有释放文件的句柄,导致内核不能正常释放对应的存储空间
监控报容器的内存报警,但是进容器查看发现实际没有使用那么多的内存,再看监控数据,确实是超了预警值触发了告警
看配置的指标,用的是container_memory_working_set_bytes和kube_pod_container_resource_limits_memory_bytes ,kube_pod_container_resource_limits_memory_bytes 是当前容器内存限制大小,container_memory_working_set_bytes通过查看cadvisor可知是memory.usage-total_inactive_file,也就是cgroup的memory.usage_in_bytes
进容器的/sys/fs/cgroup/memory目录下
memory.usage_in_bytes 已使用的内存量(包含cache和buffer)(字节),相当于linux的used_meme
memory.limit_in_bytes 限制的内存总量(字节),相当于linux的total_mem
memory.failcnt 申请内存失败次数计数
memory.stat 内存相关状态
memory.usage_in_bytes的计算方式包含rss+cache+buffer,total_active_file和total_inactive_file都包含在cache,cache是不会主动回收的,只有当容器被销毁或者系统内存不足才回去回收,所以才会出现上面的情况
参考博客:https://blog.csdn.net/weixin_39961559/article/details/80496419
https://blog.csdn.net/weixin_39961559/article/details/86432283
https://www.cnblogs.com/276815076/p/5478966.html
last\w确定重启时间
/var/log/messages
dmesg -d -T
journalctl -k --list
journalctl -k -l 重启前的日志号
如果以上都看不出任何问题的话,可能是别的一些棘手的情况,比如这次遇到的就是内核上的bug,messages日志无异常且journalctl丢失重启前的所有日志
某应用的两台机器8088不通,8080通,检查情况
登上这两台机器,互telnet,不通,这两台机器在同一网段,说明不是外部防火墙权限问题。lsof -i查看,8080有应用在监听,iptables --list -n | grep 8080未找到规则,8088的有,vi /etc/sysconfig/iptables ,把8088的规则复制一份给8080加上,重启iptables,问题解决
top
ps -aux
df -h
du -h --max-depth
lsblk
snmpwalk
mtr xxx.com :用来检测发出数据包的主机到目标主机之间经过的网关数量,及网络质量、丢包、延时.主要看loss值,只有在目标那一跳丢包才是真的丢包,中间有丢包很正常不用管(首选)
ping xxxx.com :探测到对端网络质量有无丢包,可以获取域名解析的 IP 地址
traceroute :用来检测发出数据包的主机到目标主机之间经过的网关数量,及网络质量
traceroute -n xxx.cn
traceroute -n -T -p [$Port] [$Host]
traceroute -n -T -p 443 xxx.com (探测端口)
请求耗时长可以使用此工具判断一个请求每个歩聚的时间
curl -so /dev/null -w '
namelookup: %{time_namelookup}
connect: %{time_connect}
appconnect: %{time_appconnect}
pretransfer: %{time_pretransfer}
redirect: %{time_redirect}
starttransfer: %{time_starttransfer}
-------
total: %{time_total}
' baidu.com -d 'a=b'
namelookup: 0.004 //dns解析
connect: 0.036 //建立链接时间
appconnect: 0.000 //ssl建立时间
pretransfer: 0.036 //准备传输时间
redirect: 0.000 //重定向时间
starttransfer: 0.070 //传输时间
-------
total: 0.070 //共计
https://blog.csdn.net/qq_51574197/article/details/116171604
嗅探80端口
dmesg
journalctl
/var/log/