python-将spark DataFrame 保存为拼花的问题


0

我正在尝试将 DataFrame 保存到路径作为 parquet file。问题是:display()函数在“Prop_0”中显示一组结果,但是每当我试图保存它们时,只有第一个结果被 transformation并转到路径。

我使用的代码是:

dbutils.fs.rm(Path_1, True)
avroFile = spark.read.format('com.databricks.spark.avro').load(Path_1)
avroFile.write.mode("overwrite").save(Path_2, format="parquet") 

1 答案


0

这是预期的行为,Spark使用Hadoop文件格式,并且此文件格式要求对数据进行分区—这就是为什么您有部分文件。

我可以运行上述代码没有任何问题。

您可以使用以下方法将spark DataFrame 保存为 parquet file。


我来回答

写文章

提问题

面试题