本文档采用自动化机器翻译技术翻译。 尽管我们力求提供准确的译文,但不对翻译内容的完整性、准确性或可靠性作出任何保证。 若出现任何内容不一致情况,请以原始 英文 版本为准,且原始英文版本为权威文本。

监控与仪表板

rancher-monitoring 应用程序可以快速将领先的开源监控和警报解决方案部署到您的集群上。

在 Rancher v2.5 中引入,该应用程序由 PrometheusGrafanaAlertmanagerPrometheus OperatorPrometheus adapter. 提供支持。

有关 Rancher v2.2 到 v2.4 中可用的 V1 监控和警报的信息,请参见 Rancher v2.0—​v2.4 文档中的 xref:[集群监控]、xref:[警报]、xref:[通知程序] 和其他 xref:[工具]。

使用 rancher-monitoring 应用程序,您可以快速将领先的开源监控和警报解决方案部署到您的集群上。

功能

Prometheus 让您查看来自 Rancher 和 Kubernetes 对象的指标。通过使用时间戳,Prometheus 让您能够通过 Rancher UI 或与 Prometheus 共同部署的分析平台 Grafana 查询并查看这些指标,并以易于阅读的图形和可视化方式呈现。

通过查看 Prometheus 从您的集群控制平面、节点和部署中抓取的数据,您可以掌握集群中发生的一切。然后,您可以利用这些分析更好地管理您的组织:在系统紧急情况发生之前防止其出现,制定维护策略,或恢复崩溃的服务器。

监控应用程序:

  • 监控您的集群节点、Kubernetes 组件和软件部署的状态和处理。

  • 根据通过 Prometheus 收集的指标定义警报。

  • 创建自定义 Grafana 仪表板。

  • 通过 Prometheus Alertmanager 配置基于警报的通知,可通过电子邮件、Slack、PagerDuty 等方式发送。

  • 将预计算的、经常需要或计算成本高的表达式定义为基于通过 Prometheus 收集的指标的新时间序列。

  • 通过 Prometheus 适配器将从 Prometheus 收集的指标暴露给 Kubernetes 自定义指标 API,以便在 HPA 中使用。

请参见 监控工作原理 以了解监控组件如何协同工作。

默认组件和部署

内置仪表板

默认情况下,监控应用程序会将 Grafana 仪表板(由 kube-prometheus 项目精心策划)部署到集群中。

它还部署了 Alertmanager UI 和 Prometheus UI。有关这些工具的更多信息,请参见 内置仪表板

默认指标导出器

默认情况下,Rancher Monitoring 部署导出器(例如 node-exporterkube-state-metrics)。

这些默认导出器会自动从 Kubernetes 集群的所有组件(包括工作负载)中抓取处理器和内存指标。

默认警报

监控应用程序默认部署了一些警报。要查看默认警报,请访问 Alertmanager UI 并点击 展开所有组

在 Rancher UI 中暴露的组件

有关在 Rancher UI 中暴露的监控组件的列表,以及编辑它们的常见用例,请参见 本节。

基于角色的访问控制

有关配置监控访问的更多信息,请参见 此页面

Rancher 和项目读取权限不一定适用于监控资源。有关更多详细信息,请参见 monitoring-ui-view

配置

在 Rancher 中配置监控资源

配置参考假设您对监控组件如何协同工作有一定了解。有关更多信息,请参见 监控工作原理

配置 Helm Chart 选项

有关 rancher-monitoring 图表选项的更多信息,包括设置资源限制和请求的选项,请参见 Helm Chart 选项

Windows 群集支持

要能够完全部署 Windows 的监控 V2,所有 Windows 主机必须至少具有 wins 版本 v0.1.0。

有关如何在现有 Windows 主机上升级 wins 的更多详细信息,请参见 Windows 集群支持监控 V2

已知问题

有一个 已知问题,K3s 集群需要超过分配的默认内存。如果您在 K3s 集群上启用监控,请将 prometheus.prometheusSpec.resources.memory.limit 设置为 2500 Mi,将 prometheus.prometheusSpec.resources.memory.request 设置为 1750 Mi。

请参见 调试高内存使用 以获取建议。