如何使用Flink DataSet API统计在源中读取的总记录数


0

我们目前使用FlinkDataSetAPI从文件系统读取文件并应用一些批处理 transformation。我们还希望获得 job完成后处理的总记录。

count()函数似乎是一个非并行运算符,它需要从所有 DataSet 中进行额外的计算。

有没有什么方法可以在map操作符中对处理过的记录进行计数,并提供一个类似流式处理的副输出,这样我们就可以对它们进行聚合以得到总计数?或者其他更好的方法?

非常感谢你!

1 答案


0

你可能想用计数器。这些计数器允许您输出每个任务的小统计信息,这些统计信息在 job完成时自动累积。


我来回答

写文章

提问题

面试题