跳到主要内容
EnterpriseAI Platform

故障排查与 FAQ

工作负载无法调度

检查资源请求、节点标签、污点容忍、GPU 可用量、调度策略和 Scheduler 日志。

Pod 看不到 GPU

检查设备插件、容器运行时、驱动、Pod 资源声明和准入控制日志。

显存使用异常

检查工作负载实际显存占用、超卖策略、隔离模式和应用自身缓存策略。