monitor

手动部署thanos 0.12.2

前言 Prometheus不支持集群部署,在大规模场景下,Prometheus本身的性能和存储都有限(并发量过大,IO,Mem,CPU等很容易耗尽),比如通过降低采集速率,丢弃不重要指标,缩短数据保存天数等解决,不仅给运维带来了一定的麻烦,服务本身运行也带来了挑战解决方案： (1) 对服务进行分散采集：比如部署多个Prometheus,每个Prometheus仅采集和存储某一个或某一部分服务的指标, Pa1 ---> Sa1 ,Pa2 ---> Sa2 (2) 对服务进行分片：将服务拆分成多个group，让一个Prometheus仅采集该服务的某一个group数据，Pa2 ---> Group1(Sa1), Pa2 ---> Group2(Sa1) (3) 使用thanos管理：相同的 Prometheus 部署多个副本（都附带 Sidecar），然后Thanos Query去所有Sidecar查数据(下面会详解) 方案一：联邦方式, 使用多个Prometheus分散监控服务, 一般规模足矣,若单个服务指标过多, 且副本数较高,则不适合架构如下：也可以使用独立存储来解决数据共享问题, OpenTSDB 或 InfluxDB 等支持集群部署的时序数据库(独立存储虽好,但不能使用PromQL) remote_write: - url: http://server:8888/write 语法示例： InfluxDB: SELECT mean("value") FROM "disk_io_time" WHERE $timeFilter GROUP BY time($interval), "instance" fill(null) Prometheus： disk_io_time

May 11, 2020 Read

helm 部署Prometheus-Operator

监控基本知识常用监控方法：(在文章中会持续穿插以下方法的使用) (1) USE方法: 即使用率(Utilization),饱和度(Staturation),错误(Error),针对于每个资源,检查使用率饱和度和错误,侧重于主机层面监控资源: 系统的组件,例如CPU，内存，IO等使用率: 资源处理工作的平均时间，通常为百分比表示饱和度: 资源排队工作的指标, 通常为队列长度表示错误: 资源错误事件的计数将以上结合起来创建一份资源清单,并采用一种方法来监控每个要素，例如系统性能出现瓶颈时,我们可以参考以下要素： 1：CPU的清单 CPU使用率随时间的百分比 CPU饱和度,等待CPU的进程数 CPU错误(比较少) 2：内存的清单内存使用率随时间的百分比内存饱和度,通过监控swap测量内存错误(比较少) 其他Linux系统资源的示例可以参考BrenDan Gregg所提供的清单 (2) Google的四个黄金指标: 延迟, 流量, 错误, 饱和度, 更多是针对于应用程序或面向用户部分, 依次选择对应的指标设置报警延迟: 服务请求所花费的时间, 而成功请求和失败请求有所区别, 例如失败请求会以很低的延迟返回错误的结果流量: 针对系统，例如每秒HTTP请求数或数据库系统的事务错误: 请求失败的速率, 例如HTTP 500错误等显示失败, 返回错误内容或无效内容的隐式失败或者强制要求相应时间超过30s的请求视为错误的基于策略原因的失败饱和度：应用程序处理极限或系统资源极限，例如到达程序最大处理请求数量或内存cpu等资源饱和通常监控应用程序主要有两种方法：黑盒监控：查询程序外部特征,例如端口是否正常,数据或状态码返回是否正常,或者执行ICMP检查服务器是否正常例如ping服务器,telnet端口号,curl状态码等白盒监控：主要查看程序内部特征, 例如应用程序检查后所返回其状态,内部组件或事务和事件性能的度量，将事件,日志和指标发送到监控工具例如redis的info中显示redis slave down, mysql使用show variables暴露内部指标信息,httpd使用mod_status来暴露内部信息等报警和通知告警和通知是监控工具的主要输出方式，一个出色的通知系统需包含以下基础信息：

April 4, 2020 Read

docker 部署graylog

基础概念本文只做学习测试使用 Elasticsearch：用于日志索引、存储和分析(消耗内存和磁盘) Graylog：数据处理,日志展示,日志报警等(消耗CPU,相当于Logstash+Kibana+报警系统) filebeat：轻量级日志采集工具 sidecar：管理,监控和配置filebeat mongodb：存储graylog的配置架构图如下：工作流程：filebeat将数据传输到graylog数据处理完成后存储到es中,graylog读取es数据展示 graylog支持以下input： Syslog (TCP, UDP, AMQP, Kafka) GELF (TCP, UDP, AMQP, Kafka, HTTP) AWS (AWS Logs, FlowLogs, CloudTrail) Beats/Logstash CEF (TCP, UDP, AMQP, Kafka) JSON Path from HTTP API Netflow (UDP) Plain/Raw Text (TCP, UDP, AMQP, Kafka) 存储规划：存储空间 = 每天日志量 * 保留时长 * 1.3(元数据信息) graylog部署 graylog 配置文件 server.conf： is_master = true password_secret = <secret> root_username = admin root_password_sha2 = <SHA2> root_timezone = +08:00 http_bind_address = 192.

March 31, 2020 Read