本节介绍如何查看 etcd 数据库状态。

说明

查看 etcd 监控信息需要提前启用 etcd 监控。有关更多信息,请参阅扩展中心 WhizardTelemetry 监控扩展组件的详情页说明。

前提条件

  • 您需要加入一个集群并在集群中具有监控查看权限。有关更多信息,请参阅集群成员集群角色

  • KubeSphere 企业版平台需要安装并启用 WhizardTelemetry 监控扩展组件。

操作步骤

  1. 以具有监控查看权限的用户登录 KubeSphere 企业版 Web 控制台并进入您的集群。

  2. 在左侧导航栏选择监控告警 > 集群状态

  3. 集群状态页面,点击 etcd 监控页签查看 etcd 数据库的运行状态。

    • etcd 监控页签提供以下信息:

      参数 描述

      服务状态

      显示 etcd 集群的 Leader 节点、每个节点的 IP 地址和 1 小时内 Leader 变更次数。

      数据库大小

      指定时间范围内 etcd 数据库的大小。

      客户端流量

      显示发送给 gRPC 客户端和从 gRPC 客户端接收的数据流量。

      gRPC 流式消息

      显示服务端的 gRPC 流式消息每秒接收次数和发送次数。

      WAL 日志同步时间

      显示 WAL 调用 fsync 的延迟。在应用日志条目之前,etcd 会在持久化日志条目到磁盘时调用 wal_fsync

      数据库同步时间

      显示后端调用提交延迟的分布。当 etcd 将其最新的增量快照提交到磁盘时,会调用 backend_commit。磁盘操作延迟较大(WAL 日志同步时间或库同步时间较长)通常表示磁盘存在问题,这可能会导致请求延迟过高或集群不稳定。

      Raft 提议

      显示当前 etcd 每秒的 Raft 提议次数。将鼠标悬停在折线图上即可查看具体某个时间点的提议数据。

      • 提议提交速率:协商一致提议的提交速率。如果集群运行状况良好,则该指标应随着时间的推移而增加。etcd 集群的几个健康成员可以同时具有不同的一般提议。单个成员与其 Leader 之间的持续较大滞后表示该成员缓慢或不健康。

      • 提议应用速率:协商一致提议的总应用率。etcd 服务器异步地应用每个提交的提议。提议提交速率和提议应用速率的差异应该很小(即使在高负载下也只有几千)。如果它们之间的差异持续增大,则表明 etcd 服务器过载。当使用大范围查询或大量 txn 操作等大规模查询时,可能会出现这种情况。

      • 提议失败速率:提议失败的总速率。该值受两个因素影响:与 Leader 选举相关的临时失败;集群成员数目达不到规定数目而导致长时间停机。

      • 排队提议数:当前待处理提议的数量。待处理提议的增加表明客户端负载较高或成员无法提交提议。

      有关 etcd 数据库参数的更多信息,请参阅 etcd 官方文档

    • 在右上角点击timed-task 可设置数据的时间范围。

    • 在右上角点击start/pause 可开启/停止实时数据刷新。

    • 在右上角点击refresh 可手动刷新数据。