sparkstreaming+Kafka的问题,有点急帮帮忙大哥们?


0

图片alt

Kafka的分区是20个分区。
sparkstreaming 22秒一个批次,数据量大概在250万到300万左右(22秒)
由于数据量太大,分区数据又较少,数据处理会出现数据滞留情况。我进行了重新分区repatriation,增加并行度。。但是增加并行度后,发现无法手动维护offsets。不手动维护offsets每到周日的时候会报spark streaming kafka OffsetOutOfRangeException 异常。如果先进行维护offsets,再进行repatriation 属于使用了两次foreacheRdd,还是会出现数据滞留。大哥们帮帮忙有点急,感谢感谢?

0 答案


我来回答

写文章

提问题

面试题