在import.io上提取时指定单独的行_Import.io

在import.io上提取时指定单独的行

在import.io上提取时指定单独的行,import.io,Import.io,必须有一个我忽略的非常简单的解决方案-我已将import.io设置为从wikipedia页面提取，并且我无法指定提取时按字母顺序排列的部分中的每个条目位于单独的行上-在培训时，它选择所有内容位于同一行上，因此不可用。。有什么想法吗 Wikipedia只是一个非常难的网站，不是从（所有html，没有Javascript或AJAX）中提取数据，而是自动从中提取数据。这是因为维基百科是免费的，可以编辑，这导致了数百万不同的页面结构尽管有几种方法可以解决这个问题，但它们的应用程度取决于每个用例。您可以

必须有一个我忽略的非常简单的解决方案-我已将import.io设置为从wikipedia页面提取，并且我无法指定提取时按字母顺序排列的部分中的每个条目位于单独的行上-在培训时，它选择所有内容位于同一行上，因此不可用。。有什么想法吗

Wikipedia只是一个非常难的网站，不是从（所有html，没有Javascript或AJAX）中提取数据，而是自动从中提取数据。这是因为维基百科是免费的，可以编辑，这导致了数百万不同的页面结构

尽管有几种方法可以解决这个问题，但它们的应用程度取决于每个用例。您可以通过指定XPath手动对其进行培训，而不是使用点击式培训。例如，如果数据始终在表中结构化，则可以使用XPath： //桌子这将只是扫描整个网站的任何表，并提取它。然而，这很可能也会得到不需要的表，所以您必须指定哪个表。例如，此站点上的表具有“wikitable”类。因此，我们将其指定为： //表[@class=“wikitable”]

然后你当然需要确保这同样适用于罢工者的所有其他页面。这些数据很容易被人类识别，但要让机器理解是一项艰巨的任务，要在你正在寻找的数据之间找到一个共同的元素，并告诉机器人这个共同的元素就是它应该提取的东西

谢谢，
梅格