python—如何将百万首歌曲这样的大 DataSet 加载到bigdatahdfs、Hbase或Hive中?


0

我下载了大约2GB的百万首歌曲 DataSet 的子集。但是,数据被分解为文件夹和子文件夹。在子文件夹中,它们都是几种“H5文件”格式。我知道它可以用Python来 读取。但我不知道如何提取并加载到 HDFSS中,以便在Pig中运行一些数据分析。

2 答案


0

如果它已经是CSV格式或者linux文件系统中的任何格式,那么PIG可以理解,只要做一个hadoop fs-copyFromLocal就可以了

如果您想在 HDFSS上使用Python读取/处理原始H5文件格式,请参阅hadoop streaming(map/reduce)

Python可以在一个像样的linux系统上处理2GB的内存——不确定是否需要hadoop。


0

不要把这么多的小文件加载到 HDFSS中。Hadoop不能很好地处理很多小文件。每个小文件都会产生开销,因为块大小(通常为64MB)要大得多。

我想自己做,所以我在想解决办法。百万首歌曲 DataSet 文件的大小不超过1MB。我的方法是在导入 HDFSS之前以某种方式聚合数据。

Cloudera的博客文章“小文件问题”可能会给我们一些启示。


我来回答

写文章

提问题

面试题