Flink故障恢复和重启策略
时间:2023-06-18
Flink在实际运行环境中,我们会遇到各种各样的问题从而导致应用挂掉,例如异常数据,网络抖动,连接第三方中间件失败。 为解决这一问题,Flink 提供了强大的可配置故障恢复和重启策略来进行自动恢复。Flink客户端在conf目录下flink-conf.yaml种定义了 jobmanager.execution.failover-strategy,如下图所示 jobmanager.execution.failover-strategy 的可配置项有两种:full 和 region。当我们配置的故障恢复策略为 full 时,集群中的 Task 发生故障,那么该任务的所有 Task 都会发生重启。 而在实际生产环境中,我们的大作业可能有很多个 Task,出现一次异常如果进行整个任务重启,那么经常会导致长时间任务不能正常工作,导致数据延迟,而Region采用局部重启策略,当某一个 Task 发生故障时,Flink 会计算需要故障恢复的最小 Region,所以通常我们使用Region恢复策略。 除了恢复策略,
相关推荐