Flink一套完结

时间：2023-05-02

Flink流处理API

EnvironmentSourceTransform Flink支持的数据类型实现UDF函数-更细粒度的控制流SinkFlink-窗口window

window类型window API窗口函数 Flink时间语义和WaterMark状态编程和容错机制 Flink流处理API Environment

getExecutionEnvironment

创建一个执行环境，表示当前执行程序的上下文。如果程序是独立调用的，则此方法返回本地执行环境。如果从命令行客户端调用以提交到集群，则此方法返回此集群的执行环境。也就是说，getExecutionEnvironment会根据查询运行的方式决定返回什么样的运行环境。

// 批处理执行环境ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();// 流处理执行环境StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

如果没有设置并行度，会以flink-conf.yaml中的配置为准，默认是1

createLocalEnvironment

返回本地执行环境，需要在调用时指定默认的并行度。

LocalStreamEnvironment env = StreamExecutionEnvironment.createLocalEnvironment(1);

createRemoteEnvironment

返回集群执行环境，将Jar提交到远程服务器。需要在调用时指定JobManager的IP和端口号，并指定要在集群中运行的Jar包。

StreamExecutionEnvironment env =StreamExecutionEnvironment.createRemoteEnvironment("Jobmanage-hostname",6123,"youpath//wordcount.jar")

Source

从集合读取数据

env.fromCollection:封装成集合env.fromElements:直接传入数据

DataStreamSource dataStreamSource = env.fromCollection(Arrays.asList( new SensorReading("sensor_1", 12346L, 35.8), new SensorReading("sensor_2", 12346L, 36.8), new SensorReading("sensor_3", 12346L, 37.8)));

DataStreamSource integerDataStreamSource = env.fromElements(1, 2, 3, 4, 5, 6);

从文件读取数据

DataStreamSource dataStreamSource = env.readTextFile("sensor.txt");

以Kafka消息队列的数据作为来源

String sourceTopic="sensor";Properties properties = new Properties();properties.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "hadoop102:9092");properties.put(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG, "latest");properties.put(ConsumerConfig.GROUP_ID_CONFIG, "kafka_20220113");DataStreamSource dataStreamSource = env.addSource(new FlinkKafkaConsumer(sourceTopic, new SimpleStringSchema(), properties));

自定义Source

public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.setParallelism(1); DataStreamSource dataStreamSource = env.addSource(new MySensorSource()); dataStreamSource.print(); env.execute("MySensor");}// 实现自定义的SourceFunctionpublic static class MySensorSource implements SourceFunction { // 定义一个标志位用来控制数据的产生 private boolean running = true; @Override public void run(SourceContext sourceContext) throws Exception { Random random = new Random(); HashMap sensorTempMap = new HashMap<>(); for (int i = 1; i <= 10; i++) { sensorTempMap.put("sensor_" + i, 60 + random.nextGaussian() * 20); } while (running) { for (String sensorId : sensorTempMap.keySet()) { Double newtemp = sensorTempMap.get(sensorId) + random.nextGaussian(); sensorTempMap.put(sensorId, newtemp); // source上下文生成数据 sourceContext.collect(new SensorReading(sensorId, System.currentTimeMillis(), newtemp)); } } // 控制输出频率 Thread.sleep(1000L); } @Override public void cancel() { running = false; }}

Transform

map

map的作用就是对数据集之中的元素逐一进行函数操作映射为另外一个数据集。一对一

SingleOutputStreamOperator mapStream = inputStream.map(new MapFunction() { @Override public Integer map(String s) throws Exception { return s.length(); }});

flatMap

flatMap的操作是将函数应用于数据集之中的每一个元素，将返回的迭代器的所有内容构成新的数据集。一对多

DataStream flatMapStream = inputStream.flatMap(new FlatMapFunction() { @Override public void flatMap(String s, Collector collector) throws Exception { String[] fields = s.split(","); for (String field : fields) { collector.collect(field); } }});

Filter

fliter的作用是过滤数据，return true不过滤 return false过滤

DataStream filterStream = inputStream.filter(new FilterFunction() { @Override public boolean filter(String s) throws Exception { return s.startsWith("sensor_1"); }});

KeyBy

DataStream->KeyedStream逻辑地将一个流拆分成不相交的分区，每个分区包含具有相同key的元素，在内部以hash的形式实现

// 分组KeyedStream keyedStream = dataStream.keyBy(SensorReading::getId);

滚动聚合算子

这些算子可以针对KeyedStream的每一个支流做聚合。

sum()min()max()minBy()maxBy()

public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.setParallelism(1); // 从文件读取数据 DataStreamSource inputStream = env.readTextFile("E:\java\flink\src\main\resources\sensor.txt"); // 转化成SensorReading DataStream dataStream = inputStream.map(line -> { String[] fields = line.split(","); return new SensorReading(fields[0], new Long(fields[1]), new Double(fields[2])); }); // 分组 KeyedStream keyedStream = dataStream.keyBy(SensorReading::getId); // 滚动聚合取最大值 DataStream resultStream = keyedStream.max("temperature"); // 打印输出 resultStream.print("resultStream>>>>>"); env.execute("RollingAggregationTransform");}

Reduce

KeyedStream->DataStream，一个分组数据流的聚合操作，合并当前的元素和上次聚合的结果，产生一个新的值，返回的流中包含每一次聚合的结果，而不是只返回最后一次聚合的最终结果。

public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.setParallelism(1); // 从文件读取数据 DataStreamSource inputStream = env.readTextFile("E:\java\flink\src\main\resources\sensor.txt"); // 转化成SensorReading DataStream dataStream = inputStream.map(line -> { String[] fields = line.split(","); return new SensorReading(fields[0], new Long(fields[1]), new Double(fields[2])); }); // 分组 KeyedStream keyedStream = dataStream.keyBy(SensorReading::getId); // reduce聚合最大的温度值以及当前最新的时间戳 SingleOutputStreamOperator resultStream = keyedStream.reduce((curData, newData) -> new SensorReading(curData.getId(), newData.getTimestamp(), Math.max(curData.getTemperature(), newData.getTemperature()))); resultStream.print("resultStream>>>>>"); // 执行任务 env.execute("ReduceTransform");}

Split和Select

Split：DataStream->SplitStream，根据某些特征把一个DataStream拆分成两个或者多个DataStream

Select：SplitStream→DataStream：从一个SplitStream中获取一个或者多个DataStream

SplitStream splitStream = dataStream.split(new OutputSelector() { @Override public Iterable select(SensorReading value) { return (value.getTemperature() > 30) ? Collections.singletonList("high") : Collections.singletonList("low"); }});splitStream.select("high").print("high>>>>>");splitStream.select("low").print("low>>>>>");

Connect和CoMap

只能连接两条流，但是数据类型可以不一样

Connect：DataStream,DataStream->ConnectedStream，连接两个保持他们类型的数据流，两个数据流被connect之后，只是被放在了一个同一个流中，内部依然保持各自的数据和形式，不发生任何变化，两个流相互独立。

CoMap，CoFlatMap：ConnectedStream->DataStream，作用于ConnectedStream上，功能与map和flatmap一样，对ConnectedStream中的每一个stream分别进行map和flatmap处理

DataStream> warningStream = dataStream1.map(new MapFunction>() { @Override public Tuple2 map(SensorReading sensorReading) throws Exception { return new Tuple2<>(sensorReading.getId(), sensorReading.getTemperature()); }});ConnectedStreams, SensorReading> connectedStreams = warningStream.connect(dataStream2);DataStream