ASPIRE

About Me
All stars
Awesome
Everyday
Links
Payloads
todolist
Tutorial

Linux系统的性能指标

之前被问到过的一个问题，也能够答上来一些，但可能因为没有接触过真实的线上生产环境，只是自己在自己的虚拟机/VPS上运行的时候查看着玩一玩，对性能指标、系统性能监控没有什么特别深刻、直观的认识，闲着的时候想想这个问题（对于一台Linux机器来说，如何监控它的CPU，内存，磁盘，网络等的使用情况；怎样算高负载，具体的依据是什么？）可能还是得总结一下，说不定什么时候就再用得上呢？

一、CPU的使用情况

CPU使用率反映的是当前CPU的繁忙程度，忽高忽低的原因在于占用CPU处理时间的进程可能处于I/O等待状态但却还未释放进入wait。

平均负载（load average）是指某段时间内占用CPU时间的进程和等待CPU时间的进程数，这里等待CPU时间的进程是指等待被唤醒的进程，不包括处于wait状态进程。

CPU良好状态的指标

CPU利用率：User Time <= 70%，System Time <= 35%，User Time + System Time <= 70%。
上下文切换：与CPU利用率相关联，如果CPU利用率状态良好，大量的上下文切换也是可以接受的。
可运行队列：每个处理器的可运行队列<=3个线程。

常用监控工具/命令有：

mpstat： mpstat 不但能查看所有CPU的平均信息，还能查看指定CPU的信息。
vmstat：查看所有CPU的平均信息。
iostat: 只能查看所有CPU的平均信息。
sar：与 mpstat 一样，不但能查看CPU的平均信息，还能查看指定CPU的信息。
top：显示的信息同ps接近，但是top可以了解到CPU消耗，可以根据用户指定的时间来更新显示。

二、Memory的使用情况

Memory的良好状态指标

swap in （si） == 0，swap out （so） == 0
应用程序可用内存/系统物理内存 <= 70%

常用监控工具/命令：

vmstat
free

三、磁盘的使用情况（磁盘I/O）

磁盘使用率的良好状态指标

iowait % < 20%
提高命中率的一个简单方式就是增大文件缓存区面积，缓存区越大预存的页面就越多，命中率也越高。
Linux 内核希望能尽可能产生次缺页中断（从文件缓存区读），并且能尽可能避免主缺页中断（从硬盘读），这样随着次缺页中断的增多，文件缓存区也逐步增大，直到系统只有少量可用物理内存的时候 Linux 才开始释放一些不用的页。

常用监控工具/命令：

iostat
sar
df
iotop

四、网络状况（网络I/O）

如何判断网络状态是否良好这个暂时还真不清楚o(╯□╰)o

常用监控工具/命令：

iftop
nload
iptraf
nethogs
netstat
sar
dstat
tcpdump
mtr

五、其它

文件、进程、端口等的使用情况（第5部分的内容其实和上面的4个分类有重叠，也可以算是上面4个分类的一种微观表现吧）

lsof
htop
w
vnstat
ps
pgrep

参考/扩展链接：

linux 系统性能指标
18 commands to monitor network bandwidth on Linux server
Linux系统性能监控详解
20 Linux System Monitoring Tools Every SysAdmin Should Know
20 Command Line Tools to Monitor Linux Performance
性能调优攻略
28个Unix/Linux的命令行神器
Linux系统监控
Linux服务器性能评估

5 8 月, 2014

admin

KnowledgeBase, Linux

dstat, free, iostat, ps, top, vmstat

《 “Linux系统的性能指标” 》有 9 条评论

a-z说道：

2017-01-09 16:29

Linux性能分析和相关工具(Linux Performance Analysis and Tools)
http://www.brendangregg.com/linuxperf.html
http://www.brendangregg.com/Perf/linux_perf_tools_full.png
http://www.brendangregg.com/blog/2015-03-17/linux-performance-analysis-perf-tools.html

http://colobu.com/2014/09/18/Linux-Performance-Analysis-and-Tools/
https://taozj.org/201701/linux-performance-basic.html
http://mingxinglai.com/cn/2013/06/linux-performance-analysis-and-tools/

回复
a-z说道：

2017-01-15 11:26

Linux 各个层级、模块对应的调试工具一览
http://www.brendangregg.com/linuxperf.html

回复
a-z说道：

2017-02-27 17:30

Linux Used内存到底哪里去了？
http://blog.yufeng.info/archives/2456

一次linux内存问题排查-slab
http://bhsc881114.github.io/2015/04/19/%E4%B8%80%E6%AC%A1linux%E5%86%85%E5%AD%98%E9%97%AE%E9%A2%98%E6%8E%92%E6%9F%A5-slab/

回复
a-z说道：

2017-03-25 17:10

JVM诊断调优CheatSheet
http://www.rowkey.me/blog/2017/03/23/java-profile-cheatsheet/

DevOpsDays有感 – DevOps概谈
https://yaowenjie.github.io/devops/thought-on-devopsdays-beijing

回复
a-z说道：

2017-06-03 10:50

Linux Perf Master
https://www.gitbook.com/book/riboseyim/linux-perf-master/details
https://riboseyim.github.io/

回复
a-z说道：

2017-09-18 17:36

OpenFalcon文档
https://book.open-falcon.org/zh_0_2/intro/index.html

定位IO瓶颈的一些方法
http://blueswind8306.iteye.com/blog/2032980
http://bencane.com/2012/08/06/troubleshooting-high-io-wait-in-linux/

falcon – 一般监控指标汇总
http://book.opschina.org/falcon-yi-ban-jian-kong-zhi-biao-hui-zong.html

9.4 Linux common monitor control index
https://songliling1.gitbooks.io/open-falcon/content/94_linux_common_monitor_control_index.html
`
disk.io.util: A percentage, for example 56.43 means 56.43%
disk.io.util 这个指标的单位是%，即显示 3.8 的真正含义是 3.8% 而不是 380%
`

互联网企业级监控系统实践
http://www.jianshu.com/p/56169276a5f4

回复
a-z说道：

2017-12-16 10:18

基础设施助力双11（六）：看网络如何“自愈”
https://mp.weixin.qq.com/s/PXClE-pg9Y9AsdDnXW2dKA
`
处理故障的主要流程是：监控采集->故障发现->根因定位->故障恢复

丰富的采集
　　目前每天的数据采集量接近万亿级的水平，采集的类型包括日志、SNMP采集（路由器交换机性能指标采集）、AliPing采集（内网质量采集）、AliInternet采集（互联网质量采集）、Netflow采集（流数据采集）等。

灵活的告警（故障发现）
　　基础事件
　　CEP复杂事件引擎
　　告警收敛

故障定位&自动恢复
　　提供一个平台，让运营的同学提交脚本，更全面、灵活的覆盖到所有的告警场景。
`

回复
hi说道：

2018-05-31 11:31

运维监控系统之Open-Falcon
https://www.cnblogs.com/nulige/p/7741580.html
http://book.open-falcon.org/zh/faq/linux-metrics.html
http://book.open-falcon.org/zh_0_2/faq/linux-metrics.html#%E8%BF%9B%E7%A8%8B%E7%9B%91%E6%8E%A7
`
14. 进程监控
proc.num：判断某个进程的数目，这里需要分两个场景，一种是根据进程的名字来判定，比如name=sshd；另外一种是根据cmdline来判定，比如Java的应用进程名可能都是java，根据第一种情况没法做区分，此时可以配置cmdline，如cmdline=./falcon_agent-c./cfg.ini

15. 进程资源监控
process.cpu.all：进程和它的子进程使用的sys+user的cpu，单位是jiffies
process.cpu.sys：进程和它的子进程使用的sys cpu，单位是jiffies
process.cpu.user：进程和它的子进程使用的user cpu，单位是jiffies
process.swap：进程和它的子进程使用的swap，单位是page
process.fd：进程使用的文件描述符个数
process.mem：进程占用内存，单位byte
`
简析运维监控系统及Open-Falcon
https://blog.csdn.net/puma_dong/article/details/51895063

回复
hi说道：

2018-11-16 19:54

一份来自滴滴运维工程师的监控系统建设心得（有彩蛋）
https://mp.weixin.qq.com/s/UlnHOaN0xaA0jfg5CEmLRA
`
一、一般监控系统的功能
一般的基础监控系统，主要有看图和告警两大功能，通过这两大功能，满足上述的发现问题的需求。

二、监控系统模块拆解
采集：对应Open-Falcon的Agent以及App library；
存储：对应Open-Falcon的Transfer、Query和Graph；
告警：对应Open-Falcon的Judge、Alarm；
绘图：对应Open-Falcon的Dashboard。

1、数据采集的原则
作为平台的设计者，必须要考虑标准化与规范化。
2、存储建设的关键点
功能、性能、容量
3、绘图功能的考量
与资源管理（服务树系统）打通
数据横向的比较
数据纵向的聚合
4、如何让报警能力更加强大
推模式——告警数据在上报时，自动推往告警模块
拉模式——由告警模块定时从存储拉取监控数据
三、监控的稳定性架构
在数据上报的链路建设中，可以考虑使用消息队列来应对流量的潮汐。削峰填谷。
存储的稳定性，可以考虑数据双写。两个集群分开部署。可以应对专线断开以及分片挂掉两种情况。
对于告警体系，给大家推荐我们的主从模式：从集群平时处于休眠状态，会定时的对主集群进行探测，一旦发现主集群挂掉，或探测不通，就将自身拉起，达到一个故障时间内的双活。
`

回复

发表回复取消回复

您的邮箱地址不会被公开。必填项已用 * 标注

评论 *

显示名称 *

邮箱 *

网站

在此浏览器中保存我的显示名称、邮箱地址和网站地址，以便下次评论时使用。

Δ

2014 ~ 2026

自豪地采用 WordPress