|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
欢迎大家来到仓酷云论坛!比来在做数据平台这边的监控,由于之前一向在用zabbix,并且团体对照偏向于把数据放在数据库中(这一点nagios和cacti是没法和zabbix比的),便利前面做进一步的剖析和处置(容量计划等)。在架构上思索到扩大性和功能成绩,接纳了master---proxy的布局,个中proxy利用active的形式,如许能够加重master真个压力。谈几个碰到的成绩:
1.起首,为了懂得zabbix的功能情形,增添了zabbix相干的metric监控
(详细见:http://1662935.blog.51cto.com/1652935/1345664)
2.监控增加成绩,开辟了增加监控的前端页面,利用zabbixapi的体例来一键增加监控,完成链接模板,分派分组的操纵。个中主机到模板的链接经由过程主机名的体例举行婚配,缺少可保护性,由于如今cmdb不成用,和同事会商上去,筹办本人在数据库内里保护一套信息(host--process,process--template),天天静态更新。
3.在一个proxy增加了200台呆板后,入手下手碰到了断图的成绩
好比上面这个:
经由过程剖析zabbixserver数据库中history的数据,发明无数据丧失的情形,interval为60s,1小时应当有60条数据,可是在数据库中只要十几条,进而剖析proxy数据库中的items表,delay设置是没有成绩的,扫除configsync的成绩,剖析agent真个日记,发明在agent端就存在数据猎取不完全的成绩(agent利用了passive的形式),也就是说proxybusy形成了猎取数据不完全,调剂StartPollers后办理,这个值默许是5,在passiveagent的形式下,远远不敷用,倡议改成hosts*1.5的值。
4.unreachable成绩
1)接进呆板后,呈现多量的hostunreachable的报警(agent.pingitem),可是主机是能够通的,经由过程安排收集监测剧本,扫除agent---proxy---master3者间的收集连通成绩。经由过程增年夜StartPollersUnreachable和UnreachablePeriod办理。
2)报警成绩,zabbix在ok--->unknown形态时不会发生报警,因而unreachable的报警不克不及发明hostitem猎取值的成绩,可经由过程增添hostupdatepercent监控完成(详细见:http://1662935.blog.51cto.com/1652935/1345789)。
5.集群全体updatepercent很低
经由过程breakdown到host,发明局部hostupdatepercent招致(几台呆板agent有成绩,值形态为unknown)修复后,全体的updatepercent降低到98%摆布。
6.proxy办事器load成绩
一个proxy接进350台摆布的集群,nvps200摆布,可是load对照高,由于agent是passive的形式,数据猎取都是proxy卖力的,因而假如item对照多,proxy的压力就会对照年夜。思索转换agent的形式为active,将压力分离到agent端,proxy只卖力数据sync和configsync,调剂后,proxy压力减小了良多,详细见下图(没数据的中央是item没有调剂为active招致)
同时办理了queue过量的成绩,调剂后,基础没有凌驾5分钟的delay了。
7.housekeeper的成绩
master端和proxy端都存在这个成绩(proxy不克不及disablehousekeeper),master端能够经由过程disable并partitiondb办理,由于必要停机保护,临时还没做调剂。
8.dbpartition
http://caiguangguang.blog.51cto.com/1652935/1354093
经由过程下面的调剂,zabbix基础没甚么压力了(单proxy350台),扩大性也不错,前面必要做benchmarktest,看看能跑到几nvps.
小结:做zabbix的功能调优之前,要做好zabbix功能的监控,调剂中要思索把压力分离,master分离至proxy,proxy分离至agent。
对zabbix的事情机制和各类process的感化要懂得,对zabbix的数据库表布局也要有对照好的了解。
本文出自“菜光光的博客”博客,请务必保存此出处http://caiguangguang.blog.51cto.com/1652935/1346372
欢迎大家来到仓酷云论坛! |
|