在r和rapid minner中执行元数据提取和标记

在r和rapid minner中执行元数据提取和标记,r,rapidminer,text-analysis,R,Rapidminer,Text Analysis,我有一个问题陈述,需要从power演示文稿文件中提取matadata,并使用R或Rapid minner执行文档标记。因此,我需要有关如何读取这两个工具中的ppt文件,然后执行文本处理的帮助。刚刚注意到我回答了您重复的问题,因此我将删除我的答案,然后重试添加到此处对其他用户更有帮助 我最近在RapidMiner支持网站上回答了一个非常类似的问题 我将在这里复制答案: PPPTX文件是简单的ZIP目录,其中包含告诉Powerpoint将内容的每个部分放置在何处的XML文档。 所有幻灯片内容都存储在

我有一个问题陈述,需要从power演示文稿文件中提取matadata,并使用R或Rapid minner执行文档标记。因此,我需要有关如何读取这两个工具中的ppt文件,然后执行文本处理的帮助。

刚刚注意到我回答了您重复的问题,因此我将删除我的答案,然后重试添加到此处对其他用户更有帮助

我最近在RapidMiner支持网站上回答了一个非常类似的问题

我将在这里复制答案: PPPTX文件是简单的ZIP目录,其中包含告诉Powerpoint将内容的每个部分放置在何处的XML文档。 所有幻灯片内容都存储在: /ppt/幻灯片/ slide1.xml、slide2.xml等。 (其他目录可用于幻灯片注释和其他内容)

要使用RapidMiner读取它,只需使用operator Loop Zip文件条目,并将参数internal directory设置为ppt/slides,这将遍历上述所有xml文件

在该嵌套操作符中,使用readdocument操作符集仅提取文本&内容类型为XML。这将提取演示文稿中每张幻灯片的内容



这回答了你问题的第一部分。对于第二部分,在输入文本后,可以使用任何RapidMiner文本处理操作符

刚刚注意到我在你重复的问题上回答了这个问题,所以我在这里删除了我的答案,并添加到这里,以便对其他用户更有帮助

我最近在RapidMiner支持网站上回答了一个非常类似的问题

我将在这里复制答案: PPPTX文件是简单的ZIP目录,其中包含告诉Powerpoint将内容的每个部分放置在何处的XML文档。 所有幻灯片内容都存储在: /ppt/幻灯片/ slide1.xml、slide2.xml等。 (其他目录可用于幻灯片注释和其他内容)

要使用RapidMiner读取它,只需使用operator Loop Zip文件条目,并将参数internal directory设置为ppt/slides,这将遍历上述所有xml文件

在该嵌套操作符中,使用readdocument操作符集仅提取文本&内容类型为XML。这将提取演示文稿中每张幻灯片的内容



这回答了你问题的第一部分。对于第二部分,在输入文本后,可以使用任何RapidMiner文本处理操作符

您无法使用R或Rapidminer直接读取元数据。但是如果你提取了一些额外的数据,你应该能够导入它们。非常感谢David的回复。除此之外,我还有一个疑问,就是这个文档标记问题是否可以通过R和rapid miner解决,或者是否有其他方法/工具解决。请在这方面指导我,因为我对这个概念非常陌生。我不是元数据标记和用于此任务的工具方面的专家。根据我的经验,如果您能够以某种结构化格式(xml、纯文本等)提取数据,您可以将它们导入RapidMiner和R。但是对于extraqting部分,我不能向您推荐任何工具。您不能使用R或RapidMiner直接读取元数据。但是如果你提取了一些额外的数据,你应该能够导入它们。非常感谢David的回复。除此之外,我还有一个疑问,就是这个文档标记问题是否可以通过R和rapid miner解决,或者是否有其他方法/工具解决。请在这方面指导我,因为我对这个概念非常陌生。我不是元数据标记和用于此任务的工具方面的专家。根据我的经验,如果您能够以某种结构化格式(xml、纯文本等)提取数据,您可以将其导入RapidMiner和R。但是对于extraqting部分,我不能向您推荐任何工具。