字节跳动技术团队今日宣布开源Godel-Rescheduler,这是一款针对云原生系统的全局最优重调度框架。该框架通过智能识别异常节点和任务,结合图算法生成迁移方案,显著提升集群资源利用率与稳定性。
Godel-Rescheduler由Policy Manager和Movement Manager两大核心模块组成,分别负责决策生成与执行拆解,推动集群向全局最优状态演进。目前,该框架已应用于字节内部多个场景,包括合并部署、负载均衡及碎片整理等策略,成功将GPU集群碎片率降至5%以下,并控制热点节点比例在0.1%以内。