Hadoop 百万首歌曲数据集是以.tsv或.csv格式提供的吗？_Hadoop_Apache Spark

Hadoop 百万首歌曲数据集是以.tsv或.csv格式提供的吗？

hadoop apache-spark

Hadoop 百万首歌曲数据集是以.tsv或.csv格式提供的吗？,hadoop,apache-spark,Hadoop,Apache Spark,我使用了以下repo select song_dataset.csv github.com/Taranveer/Million_song_dataset，但当我通过一个Hadoop变体加载数据集时，结果是一堆问号： 14/12/30 04:02:51信息spark.SparkContext:作业完成：在：14，取0.205963622 s时长：数组[字符串]=数组�HDF， ?, ????????????????????????��T��????????`??????

我使用了以下repo select song_dataset.csv github.com/Taranveer/Million_song_dataset，但当我通过一个Hadoop变体加载数据集时，结果是一堆问号：

14/12/30 04:02:51信息spark.SparkContext:作业完成：在：14，取0.205963622 s时长：数组[字符串]=数组�HDF， ?, ????????????????????????��T��????????`???????????????�???????�??????????????????????????????? 树��?????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????以色列以色列以色列以色列占领占领占领占领占领占领占领以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列占领占领占领占领占领占领占领占领以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列以色列占领占领占领占领占领占领占领占领占领占领占领占领占领占领夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺夺堆，堆，堆8个？？？？？？？�???????????????元数据分析musicbrainz

此外，我认为哥伦比亚大学项目提供的公共S3存储桶已经失效。这是几年前推出的一个临时公共存储桶：

您从发布的网站加载了错误版本的数据集

数据

在这篇博文中，我们将使用哥伦比亚大学的百万首歌曲数据集。不幸的是，数据是HDF5格式的，这不是Hadoop或Spark的固有格式。Spark可以轻松解析TSV或CSV。在本文中，我们将数据转换为TSV格式，并将其放入S3存储桶中

注意数据集开头的HDF�高密度纤维？？？？。这意味着您正在尝试读取HDF5文件而不是TSV。

在我们发现百万首歌曲数据集中的数据对于构建我们的一些初始推荐算法原型非常有用，但为了使数据可操作，将其以csv等更简单的格式保存确实简化了事情

我们在这里公开了一些初步工作：

这个脚本mmsongsdb_to_csv.py特别有助于解决这个问题，它递归地遍历给定目录，并将*.h5文件中的元数据转换为单个csv。希望有帮助

你能发布一些你正在做的代码片段吗？还有你是否得到了任何异常或者仅仅是这些问号字符。我想你错过了一些反序列化的东西。当然！我正在学习比拉拉斯拉姆的教程。我能够启动Spark REPL，我的第一个任务是从数据集中获取10条记录：val songs=sc.textFilehdfs://master_dns:9000/msd; val tenSongs=songs.take10结果是我在上面贴了一个小小的问号；文件：song_dataset.csv。我也会把它编辑到帖子里。啊。。我懂了。这就回答了为什么数据集不能正确加载的问题。谢谢您是否遇到过任何.tsv/.csv版本的数据集？有没有一种好方法可以将.h5文件包转换为.tsv/.csv？再次感谢@安德鲁：我从来没有真正使用过那个数据集，所以我不知道从哪里可以得到它。至于转换。。。HDF是一种分层格式，因此它与平面格式（如TSV）之间的任何转换都需要至少一点考虑。我不知道有没有现成的转换软件。太好了！我刚刚决定继续使用.tsv格式的数据集，以避免转换的麻烦。这意味着找出与教程中不同的提示，但这应该不会太难。