本节介绍如何查看单个节点的监控详情。

前提条件

您需要在 KubeSphere 企业版平台具有 platform-admin 角色。有关更多信息,请参阅用户平台角色

操作步骤

  1. 以具有 platform-admin 角色的用户登录 KubeSphere 企业版 Web 控制台。

  2. 在页面右上角点击grid图标,选择 WizTelemetry 可观测平台

  3. 在左侧导航栏选择全局监控 > 节点

  4. 在节点列表中点击一个节点的名称打开其详情页面。

  5. 在详情页面的上方区域,查看当前节点的基本信息。

    • 点击管理节点可进入节点详情页面。

    • 点击chevron-down可隐藏该区域。

  6. 在详情页面的概览页签下,查看节点的概览信息。

    功能区 描述

    节点健康

    显示节点的调度状态、就绪状态、以及网络、内存、磁盘、进程压力。如果显示healthy 则表明状态正常,如果显示unhealthy 则表明出现告警。

    • 调度状态:节点是否被正常调度。

    • 就绪状态:节点是否已经准备好接收容器组。

    • 网络可用性:节点的网络配置是否正确。

    • 内存压力:节点剩余内存是否小于阈值,默认阈值为 100 MiB。

    • 磁盘压力:节点剩余磁盘空间或 inode 数量是否小于阈值,默认磁盘空间阈值为磁盘空间总量的 10%,默认 inode 数量阈值为 inode 最大数量的 5%。

    • 进程压力:节点上可创建的进程数量是否小于阈值。新安装的 KubeSphere 集群默认未设置进程数量阈值。

    实时资源用量

    当前节点的 CPU、内存、磁盘的实时用量和总量。

    点击相应区域,可查看该资源的实时用量百分比。

    节点配额统计

    当前节点的 CPU 配额、内存配额和临时存储配额,包含预留数量、上限数量和总量。

    容器组

    当前节点上各种类型容器组的数量。

    容器组状态类型包括:

    • 等待中:容组器已被系统接受,但有至少一个容器尚未创建也未运行。此状态下,容器组可能正在等待调度,或等待容器镜像下载完成。

    • 运行中:容器组已分配给某个节点,容器组中的所有容器都已被创建,至少有一个容器正在运行、启动或重启。

    • 成功完成:容器组中的所有容器都已成功终止(以 0 退出码终止),并且不再重启。

    • 失败:容器组中的所有容器都已终止,并且至少有一个容器以非 0 退出码终止。

    • 未知:系统无法获取容器组状态。出现这种状态通常是由于系统与容器组所在的主机通信失败。

    容器组 QoS(服务质量)类型包括:

    • Guaranteed:容器组中的每个容器都具有内存上限、内存请求、CPU 上限、CPU 请求,并且内存上限等于内存请求,CPU 上限等于 CPU 请求。

    • Burstable:容器组中至少有一个容器不满足 Guaranteed 类型的要求。

    • BestEffort:容器组中的容器没有配置任何内存上限、内存请求、CPU 上限或CPU 请求。

    容器组的 QoS 类型将决定容器组运行的优先级。当系统中资源不足以运行所有容器组时,系统优先保证运行 QoS 类型为 Guaranteed 的容器组,其次保证运行 QoS 类型为 Burstable 的容器组,最后保证运行 QoS 类型为 BestEffort 的容器组。

    因 OOM 终止重启过的容器组个数:因内存不足(Out Of Memory)被系统强制终止又自动重启的容器组数量。

    等待中的容器组个数:已创建但因资源不足或调度问题而无法启动的容器组数量。

    重启过的容器组个数:因故障或配置变更而自动重启的容器组数量。

    Kubelet 的健康状况

    • 容器组启动时间:Pod 从创建到进入运行状态所需的时间。

    • 容器状态同步周期耗时(PLEG Relist Duration):Kubelet 周期性检查容器状态(如存活/就绪)的耗时。

    • 容器运行时操作耗时(Runtime Operator Duration):容器运行时执行操作的耗时(如启停容器)。

    • 存储操作耗时(Storage Operator Duration):Kubelet 处理存储相关操作(如挂载卷)的耗时。

  7. 点击详情页面的容器组页签,查看节点上所有容器组的监控信息。

    • 在列表上方点击下拉列表选择排序字段和排序方式。

    • 在列表上方点击搜索框并输入关键字,可按名称搜索容器组。

    • 在列表右上角点击refresh可刷新列表信息。

    • 在列表右上角点击cogwheel可定制列表中显示的信息。

  8. 点击详情页面的监控页签,查看监控指标在指定时间范围内的详细信息。

    • 在右上角点击timed-task可设置数据的时间范围。

    • 在右上角点击start/pause可开启/停止实时数据刷新。

    • 在右上角点击refresh可手动刷新数据。