监控组件
监控组件
夜莺Nightingale
夜莺Nightingale是中国计算机学会托管的开源云原生可观测工具,最早由滴滴于 2020 年孵化并开源,并于 2022 年正式捐赠予中国计算机学会。夜莺采用 All-in-One 的设计理念,集数据采集、可视化、监控告警、数据分析于一体,与云原生生态紧密集成,融入了顶级互联网公司可观测性最佳实践,沉淀了众多社区专家经验,开箱即用。
功能和特点
- 统一接入各种时序库:支持对接 Prometheus、VictoriaMetrics、Thanos、Mimir、M3DB 等多种时序库,实现统一告警管理
- 专业告警能力:内置支持多种告警规则,可以扩展支持所有通知媒介,支持告警屏蔽、告警抑制、告警自愈、告警事件管理
- 高性能可视化引擎:支持多种图表样式,内置众多Dashboard模版,也可导入Grafana模版,开箱即用,开源协议商业友好
- 无缝搭配 Flashduty:实现告警聚合收敛、认领、升级、排班、IM集成,确保告警处理不遗漏,减少打扰,更好协同
- 支持所有常见采集器:支持 Categraf、telegraf、grafana-agent、datadog-agent、各种 exporter 作为采集器,没有什么数据是不能监控的
- 一体化观测平台:从 v6 版本开始,支持接入 ElasticSearch、Jaeger 数据源,实现日志、链路、指标多维度的统一可观测
部署架构
安装部署
安装前置依赖
我们更推荐二进制的方式来部署,后文都是以二进制的方式来说明部署方式以及架构。夜莺依赖 mysql 存储用户配置类数据,依赖 redis 存储 jwt token 和机器心跳上报的 metadata,所以,先准备 mysql 和 redis。这俩组件请大家自行安装,这里也提供一个小脚本来安装这两个组件,大家可以参考:
# install mysql
yum -y install mariadb*
systemctl enable mariadb
systemctl restart mariadb
mysql -e "SET PASSWORD FOR 'root'@'localhost' = PASSWORD('1234');"
# install redis
yum install -y redis
systemctl enable redis
systemctl restart redis
上例中 mysql 的 root 密码设置为了 1234,建议维持这个不变,后续就省去了修改配置文件的麻烦。如果你想修改默认用户名和密码,就要对应的修改配置文件中的 mysql 连接信息,配置文件的哪个地方配置了 mysql 的密码呢?通过下面的命令可以找到:
# 夜莺的主配置文件是 etc/config.toml
grep "1234" etc/config.toml
安装夜莺
可以去 https://flashcat.cloud/download/nightingale/ 找最新版本的包,文档里的包地址可能已经不是最新的了
# 创建个 n9e 的目录,后面把 n9e 相关的文件解压到这里
mkdir -p /opt/n9e && cd /opt/n9e
# 下载 n9e 发布包,amd64 是 x84 的包,下载站点也提供 arm64 的包,如果需要其他平台的包则要自行编译了
tarball=n9e-v6.0.1-linux-amd64.tar.gz
urlpath=https://download.flashcat.cloud/${tarball}
wget -q $urlpath || exit 1
# 解压缩发布包
tar zxvf ${tarball}
# 解压缩之后,可以看到 n9e.sql 是建表语句,导入数据库
mysql -uroot -p1234 < n9e.sql
# 启动 n9e,先使用 nohup 简单测试,如果需要 systemd 托管,请自行准备 service 文件
nohup ./n9e &> n9e.log &
# 检查 n9e.log 是否有异常日志,检查端口是否在监听,正常应该监听在 17000
ss -tlnp|grep 17000
如果日志和端口都没问题,即完成了夜莺的安装!通过浏览器访问这个机器的 17000,可以看到登录页面。
嘉为蓝鲸KMC
产品介绍
提供统一的视图,支持看到应用整体的运行情况,覆盖:主机、数据库、中间件、K8S、网站、虚拟化、邮件系统、AD等对象。
- 便捷易用,提供统一的应用视图
- 强大的监控能力,覆盖常用IT对象的2000+指标
- 具备自动化能力快速分析和解决问题
产品功能
- 主机监控
- 内置主机(Windows、Linux、AIX)监控能力。
- 主机部署蓝鲸Agent后,指标数据将通过BaseReport自动采集并上报至监控中心,可通过主机下的资源视图查看。
- 硬件监控
- 支持通过SNMP、IPMI协议实现硬件设备指标采集
- 支持网络拓扑绘制,并通过SNMP协议自动发现网络拓扑
- 网站服务拨测
- 支持HTTP、ICMP、TCP、UDP多协议拨测
- 支持自定义拨测节点地区、业务属性
- 提供拨测指标视图、地图视图,多维度展示拨测可用性
- 云平台监控
- 支持多种公有云、私有云的监控接入
- 支持云平台概览数据展示,各类云资源列表视图、详情视图展示
- 支持云资源实例指标数据检测
- 仪表盘
- 内置Grafana仪表盘,支持以指标/事件作为数据源进行自定义展示
- 支持变量功能,仪表盘数据动态同步
- 插件采集
- 兼容Exporter插件/Datadog插件生态,快速扩展插件。
- 支持Python/Shell/Perl/Bat/PowerShell/VBS等格式脚本插件。
- 支持通过SNMP/SNMPtrap/JMX/Oracle SQL/BK-Pull等多种协议扩展插件采集能力。
亮点特性
无缝联动CMDB,实现配置驱动监控
联动CMDB模型自动获取监控对象实例,监控视图可根据对象纳管范围动态生成;自动兼容各种对象的监控展示。可落地的监控指标管理体系
基于监控对象和监控插件动态生成指标库,可自定义启停,保障所有指标是可采集可监控可选的真实指标。强大的采集扩展能力,快速接入监控
强大的告警筛选规则;分派升级+重复通知;灵活的通知方式、通知场景,精准有序的分派告警给指定负责人。视角视图全面洞察,场景灵活适配
内置应用/资源维度的多视角视图,支持各类对象的管理员视图,可根据用户场景自定义视图。丰富的异常检测能力,让异常问题无处容身
支持8种异常检测算法,支持异常防抖收敛,支持无数据异常检测和异常恢复检测,满足企业各种场景下的监控需求。多云平台集中监控
集中接入本地私有云和公有云监控,实现混合云环境下一体化云监控管理。提供资源监控全局概览。
产品架构
- 接入层:支持Agent采集、协议采集以及第三方监控源的数据接入。
- 能力层:覆盖监控通用能力,具备数据采集模块、数据存储模块、数据加工模块、数据检测模块。
- 功能层:功能全面,提供丰富的监控管理、数据展示能力。
部署和使用
商业化产品,需要联系嘉为蓝鲸提供相关支持和服务。
详细产品信息可以参考:嘉为蓝鲸产品文档