本文档采用自动化机器翻译技术翻译。 尽管我们力求提供准确的译文,但不对翻译内容的完整性、准确性或可靠性作出任何保证。 若出现任何内容不一致情况,请以原始 英文 版本为准,且原始英文版本为权威文本。

启用监控

作为管理员集群所有者,您可以配置Rancher以部署Prometheus来监控您的Kubernetes集群。

本页面描述了如何使用新的监控应用程序在集群中启用监控和警报。

您可以选择启用或不启用SSL来进行监控。

要求

  • 允许每个节点上9796端口的流量。Prometheus从这些端口抓取指标。

    • 如果PushProx被禁用(ingressNginx.enabled`设置为`false),或者您已经从之前安装了v1监控的Rancher版本升级,您可能还需要允许每个节点的10254端口的流量。

  • 确保您的集群满足资源要求。集群应至少有1950Mi的可用内存、2700m的CPU和50Gi的存储。有关资源限制和请求的详细信息,请参见配置资源限制和请求

如果您想设置Alertmanager、Grafana或Ingress,必须在Helm图表部署的设置中进行。在部署外创建Ingress是有问题的。

设置资源限制和请求

在安装`rancher-monitoring`时可以配置资源请求和限制。 要从Rancher UI配置Prometheus资源,请点击左上角的应用程序  监控

有关默认限制的更多信息,请参见此页面。

安装监控应用程序

启用监控以便在没有SSL的情况下使用

  1. 单击 ☰ > 集群管理

  2. 转到您创建的集群并单击*Explore*.

  3. 点击*集群工具*(左下角)。

  4. 点击监控旁边的*安装*。

  5. 可选:在值步骤中自定义警报、Prometheus和Grafana的请求、限制等。有关帮助,请参阅 配置参考。

*结果:*监控应用已部署在`cattle-monitoring-system`名称空间中。

启用监控以使用 SSL

  1. 按照 此页面 上的步骤创建一个密钥,以便在警报中使用 SSL。

    • 该密钥应在`cattle-monitoring-system`名称空间中创建。如果不存在,请先创建。

    • cacertkey 文件添加到密钥中。

  2. 在左上角,单击*☰ > 集群管理*。

  3. 集群 页面上,转到您希望启用监控以使用 SSL 的集群,然后点击 探索

  4. 点击 应用  图表

  5. 点击 监控

  6. 点击 安装更新,具体取决于您是否已经安装了监控。

  7. 勾选 安装前自定义 Helm 选项 的复选框,然后点击 下一步

  8. 点击 警报

  9. 附加密钥 字段中,添加之前创建的密钥。

*结果:*监控应用已部署在`cattle-monitoring-system`名称空间中。

创建接收器时, 启用 SSL 的接收器(如电子邮件或 webhook)将有一个 SSL 部分,包含 CA 文件路径证书文件路径密钥文件路径 的字段。用 cacertkey 的路径填写这些字段。路径的格式为 /etc/alertmanager/secrets/name-of-file-in-secret

例如,如果您创建了一个包含这些键值对的密钥:

ca.crt=`base64-content`
cert.pem=`base64-content`
key.pfx=`base64-content`

那么 证书文件路径 将设置为 /etc/alertmanager/secrets/cert.pem

Rancher 性能仪表板

当监控安装在上游(本地群集)时,您将获得有关 Rancher pod 的基本健康指标,例如处理器和内存数据。要获取本地 Rancher 服务器的高级指标,您还必须为 Grafana 启用 Rancher 性能仪表板。

该仪表板提供以下高级指标的访问:

  • 过去5分钟的处理程序平均执行时间

  • 过去5分钟的Rancher API平均请求时间

  • 过去5分钟的订阅平均请求时间

  • Lasso控制器工作队列深度(前20名)

  • Rancher请求数量(前20名)

  • 失败的Rancher API请求数量(前20名)

  • 过去5分钟的K8s代理存储平均请求时间(前20名)

  • 过去5分钟的K8s代理客户端平均请求时间(前20名)

  • 按GroupVersionKind缓存的对象(前20名)

  • Lasso处理程序执行(前20名)

  • 过去2分钟的处理程序执行(前20名)

  • 带错误的处理程序总执行次数(前20名)

  • 远程拨号会话传输的数据(前20名)

  • 远程拨号会话的错误(前20名)

  • 已移除的远程拨号连接(前20名)

  • 客户端添加的远程拨号连接(前20名)

剖析数据(如高级内存或处理器分析)不存在,因为这是一种非常依赖上下文的技术,旨在调试而非正常观察。

启用Rancher性能仪表板

要启用 Rancher 性能仪表板:

  • Helm

  • UI

使用以下选项与 Helm CLI:

--set extraEnv\[0\].name="CATTLE_PROMETHEUS_METRICS" --set-string extraEnv\[0\].value=true

您还可以在 Rancher Helm 图表的 values.yaml 文件中包含以下代码片段:

extraEnv:
  - name: "CATTLE_PROMETHEUS_METRICS"
    value: "true"
  1. 单击 ☰ > 集群管理

  2. 前往 local 集群的行并点击 探索

  3. 点击 工作负载  部署

  4. 使用顶部的下拉菜单筛选 所有名称空间

  5. cattle-system 名称空间下,前往 rancher 行并点击 ⋮ > 编辑配置

  6. 在*环境变量*下,点击*添加变量*。

  7. 对于*类型*,选择`Key/Value Pair`。

  8. 对于*变量名称*,输入`CATTLE_PROMETHEUS_METRICS`。

  9. 对于*值*,输入`true`。

  10. 点击*保存*以应用更改。

访问 Rancher 性能仪表板

  1. 单击 ☰ > 集群管理

  2. 前往`local`集群的行并点击*探索*。

  3. 点击 监控

  4. 选择*Grafana*仪表板。

  5. 从侧边栏点击 搜索仪表板

  6. 输入`Rancher Performance Debugging`并选择它。