我对使用apacheflink高效地压缩两个数据流很感兴趣(但同样的问题也可能适用于 DataSet )。
作为一个例子(使用Scala表示法),我有
names: DataStream[String]
ages: DataStream[Int]
我想得到
combined: DataStream[(String, Int)]
其中,使用数据在流中的位置隐式地进行 join(非正式地:combined(i)=(names(i),ages(i)))。我可以通过向每个流添加一个“position”字段,然后使用position作为 key将它们 join在一起,这是非常低效的。
有更好的方法吗?谢谢!