跳到主要内容
EnterpriseAI Platform

Enterprise 组件运维

组件运维关注调度器、Webhook、Device Plugin、运行时组件和指标采集组件的健康状态。

常规检查

  • Pod 是否处于 Running。
  • Webhook 是否正常响应。
  • Scheduler 日志是否存在调度错误。
  • GPU 资源是否能被节点正确上报。
  • 重启组件前是否评估对新建任务和运行中任务的影响。