什么是Warm Reboot?
Warm Reboot是一种在设备重启时保持网络业务连续的技术,流量中断时间控制在10s内,同时可以实现AI训练任务不中断。
为什么需要Warm Reboot?
业界大多网络故障来自于软件异常(BUG),软件异常可能触发设备重启,造成业务中断。
单设备软件异常采用传统重启方案影响较大,比如训练频繁中断,全网的训练回退到备份时间点,造成训练成果浪费。
Warm Reboot功能通过在设备重启过程中分别控制OS和转发芯片,保持转发芯片在OS重启过程中持续工作不复位,将流量中断时间缩小至10s以内,同时可以实现AI训练任务不中断。
Warm Reboot与传统重启方案有何区别?
Warm Reboot有以下两种触发方式:
- 用户可以手动执行命令行触发Warm Reboot功能重启设备。
- 设备发生故障且符合Warm Reboot运行条件时,设备会自动触发Warm Reboot功能重启设备。
Warm Reboot与传统重启方案的区别:
- 传统方案:设备重启,转发中断120s+。
- Warm Reboot:设备闪启,转发中断<10s。
Warm Reboot是如何工作的?
根据Warm Reboot两种触发方式,工作方式有所区别:
- 用户可以手动执行命令行触发Warm Reboot功能重启设备。
主动重启需要通过重启前的预检查、预处理2个阶段的处理。
重启前预检查的目的是检查当前系统是否能允许Warm Reboot;
重启前预处理的目的是让系统在Warm Reboot前做必要的处理动作;
预检查和预处理执行成功后,设备将以Warm Reboot方式进行重启。
- 设备发生故障且符合Warm Reboot运行条件时,设备会自动触发Warm Reboot功能重启设备。
被动重启时会先判断本次故障发生的原因,满足Warm Reboot重启要求时会触发Warm Reboot重启。
如何选择重启方式?
当系统出现严重故障,例如硬件故障等,传统重启方案可能是唯一的解决办法。
当系统出现轻微问题,例如部分服务异常等,可以尝试Warm Reboot来解决。同时因为Warm Reboot重启速度很快,当需要尽量减少系统中断时间的情况下,Warm Reboot是更优的选择。
- 作者: 丛莹
- 最近更新: 2025-09-19
- 浏览次数: 3093
- 平均得分: