Hadoop在用专利示例说明_Hadoop_Hadoop Streaming_Hadoop Partitioning

Hadoop在用专利示例说明

hadoop

Hadoop在用专利示例说明,hadoop,hadoop-streaming,hadoop-partitioning,Hadoop,Hadoop Streaming,Hadoop Partitioning,我正在浏览Hadoop中的专利数据示例。你能详细解释一下正在使用的数据集吗专利引用数据集该数据集包含两列引用和引用的专利。引用栏指提交专利的所有者ID？引用列是指构成第二个数据集密钥的专利ID 专利描述数据集此数据集中有多个字段。要形成这两个数据集的映射，是引用还是引用第一个数据集中的列，该列在第二个数据集的第一列中具有相应的键（专利）首先，让我们澄清一些与专利相关的术语什么是引用引用是指当一个文档提到另一个具有相关内容请参阅此以了解有关专利的更多信息：） “专利引用数据集”

我正在浏览Hadoop中的专利数据示例。你能详细解释一下正在使用的数据集吗

专利引用数据集
该数据集包含两列引用和引用的专利。引用栏指提交专利的所有者ID？引用列是指构成第二个数据集密钥的专利ID

专利描述数据集
此数据集中有多个字段。要形成这两个数据集的映射，是引用还是引用第一个数据集中的列，该列在第二个数据集的第一列中具有相应的键（专利）

首先，让我们澄清一些与专利相关的术语

什么是引用

引用是指当一个文档提到另一个具有相关内容

请参阅此以了解有关专利的更多信息：）

“专利引用数据集”——这个数据集只提到专利引用

更像是说专利A使用专利B、C和D

“引用”、“引用”

3858241956203

3858241134234

3858241398406

38582413557384

38582413634889

3858242151701

38582423319261

38582423668705

38582423707004

从书上复制粘贴的，所以这里专利号3858242引用了（使用/引用）4项其他专利，专利号3858241 cites（使用/引用）5其他专利

专利描述数据集有点像主表，它只保存每个专利的数据

希望这能为您澄清一些事情。
我想在HiA book第4.7节中的Top K记录解决方案中存在误解，其中说： “Top K记录更改AttributeMax.py（或AttributeMax.php）以输出整个记录，而不是仅输出最大值。请重写它，以便MapReduce作业输出具有Top K值而不是仅输出最大值的记录。”
要使用的输入数据集实际上是一个63_99.txt文件，本练习要求记录具有最高K值（声明），而不仅仅是最大值。如清单4.6所述，AttributeMax.py提供了最大索赔记录