zookeeper重启,线上微服务全部掉线,怎么回事?

供稿:hz-xin.com     日期:2025-01-16
一次意外的zookeeper集群重启引发了线上微服务大规模的故障。19:43,错误的操作导致6台节点下线,引发19:56开始的大量服务调用失败。微服务框架依赖于zk的临时节点进行注册发现,而zk的session机制在这次异常中起了关键作用。

故障复现时,我们发现zk的session过期问题,特别是客户端过期后,服务端重启可能导致临时节点丢失,且自动恢复机制失效。在集群恢复后,服务端根据snapshot创建新session,而客户端旧的session已过期,导致创建临时节点失败。在40s后,服务端删除了过期的临时节点,触发了服务中断。

根本原因是zk服务端的session过期清理机制与客户端的session重连策略不匹配。解决方法是客户端设置更长的session过期时间,或者在重连时处理NodeExistsException,确保节点的正确创建。dubbo框架采用的处理策略是删除并重新创建,以避免因zk服务器删除延迟造成的旧session问题。

最佳实践上,应加强对异常的处理,如实施「推空保护」,避免在服务发现过程中清空所有节点,以防类似故障的发生。

总结这次教训,确保微服务框架对zk的依赖稳定,同时优化异常处理策略,是提升系统健壮性的关键。希望这些经验能帮助大家避免类似问题。