翻译:Building Reliable Reprocessing and Dead Letter Queues with Apache Kafka
在分布式系统中,重试是不可避免的。从网络错误到复制问题,甚至下游依赖关系中的停机,大规模运行的服务必须准备好尽可能优雅地遇到、识别和处理故障。
考虑到优步运营的范围和速度,我们的系统必须具有容错性,在智能故障方面毫不妥协。为了实现这一点,我们利用了Apache Kafka,这是一个开源的分布式消息传递平台,它已经经过了行业测试,可以大规模交付高性能。
利用这些特性,Uber保险工程团队通过使用非阻塞的请求再处理和死信队列(DLQ)来实现解耦合的、可观察的错误处理,而不破坏实时流量,扩展了Kafka在我们现有事件驱动架构