Flink中的Checkpoint主要作用是:容错机制
Flink中的Checkpoint和Spark中的Checkpoint区别主要有2点:
1:flink更轻量,可以根据时间戳更新state,
因为在Flink中Checkpoint是持久化全局的状态 state (keyed state 或 Operator state)的快照,在Flink中==增量==的快照,效率比较高。
对比 Spark : 重量的快照,Spark每次全量的快照,Flink 每次增量的快照
spark是每个批次全量保存
2:在Flink中的Checkpoint中又仅一次语义概念和用法,而spark checkpoint没有仅一次的概念
3:其次flink的 checkpoint有三个状态后端,memery、rocksdb、hdfs,所谓的状态后端就是checkpoint的存储位置,在Spark中checkpoint的存储位置一般保存在HDFS,也可以保存至本地磁盘
但是一般情况下,checkpoint在Flink和Spark中保存的位置没太大区别,基本相同,因为生产情况下一般存HDFS