Regex importi.io：某些数据未导入或混合在同一列中_Regex_Import.io

Regex importi.io：某些数据未导入或混合在同一列中

regex

Regex importi.io：某些数据未导入或混合在同一列中,regex,import.io,Regex,Import.io,我正在这个网页上使用import.io的Magic API：某些类型的信息/字段被完美地提取出来但是提取器：将NOR数字字段（示例：NOR DEVL1502938A）与表示同一列中页数（示例：10）的数字混合。可能是因为它们都是链接文本（标签如下所示：标题=“[…]”href=“[…]”）然后将书目参考字段（例如：JO du 04/04/2015 texte:0080；10页6232/6241）与NOR编号字段混合。这对我来说似乎很奇怪，因为NOR系统地位于参考之前，并且它们在网页

我正在这个网页上使用import.io的Magic API：

某些类型的信息/字段被完美地提取出来

但是提取器：

将NOR数字字段（示例：NOR DEVL1502938A）与表示同一列中页数（示例：10）的数字混合。可能是因为它们都是链接文本（标签如下所示：标题=“[…]”href=“[…]”）
然后将书目参考字段（例如：JO du 04/04/2015 texte:0080；10页6232/6241）与NOR编号字段混合。这对我来说似乎很奇怪，因为NOR系统地位于参考之前，并且它们在网页中不在同一行（参考书目字段之前有一个br/标记）
经常未能在一列中加载文本摘要的内容（例如：（1986年5月15日《环境保护法》第411-1条和第411-1条的应用-废除《国家领土保护法修正案》）。相反，它将其分散到不同的列中。我看到在span class=“noir”标记之后插入em标记时会发生这种情况。例如：
艺术应用。R.213-49-2环境保护法规- 废除2011年10月10日的法律定义（巴黎公共福利院）

我已经尝试过使用新的提取器，或者通过一个特殊的Google请求结果网页来处理我的问题。无济于事。谷歌网页提供了更糟糕的结果

我欢迎任何想法：

论第二个问题产生的原因
以及我如何克服法国页面上的三个问题

非常感谢您将此阅读到最后：-）

PS：请注意，我的工作主要是作为一名研究人员。虽然我能理解他们的逻辑，但我不熟悉正则表达式或Json。因此，如果需要使用它们，请您解释一下背后的逻辑，或者展示足够多的理想代码，以便我能够有效地复制它？

您对此类应用的期望太高了。第二个问题的原因是import.io似乎按类名分组，而不考虑子元素。@Casimir et Hippolyte非常感谢您的评论。您能推荐任何更适合这项工作的替代应用程序/软件吗？我已尝试将legifrance的learn import.io链接到提取器。大多数时候，它工作得很好。问题是，有时，如果不打破整个结构，微观差异就无法与这种学习方法相结合。我认为有两种方法可以解决这个问题。第一步是仔细查看html源代码，并使用编程语言提取所需的信息。另一种方法更具混合性：使用import.io以尽可能最佳的结构获取所需的所有内容（而不丢失数据），并使用语言/工具来更正结构。对于第二种方法，请注意，该工具可以是import.io的高级功能。（我建议先尝试xpath方法，再尝试regex方法）@Casimir et Hippolyte非常感谢。在网上有没有学习Xpath的好教程？（我已经有了很好的正则表达式教程）你对这类应用的期望太高了。第二个问题的原因是import.io似乎按类名分组，而不考虑子元素。@Casimir et Hippolyte非常感谢您的评论。您能推荐任何更适合这项工作的替代应用程序/软件吗？我已尝试将legifrance的learn import.io链接到提取器。大多数时候，它工作得很好。问题是，有时，如果不打破整个结构，微观差异就无法与这种学习方法相结合。我认为有两种方法可以解决这个问题。第一步是仔细查看html源代码，并使用编程语言提取所需的信息。另一种方法更具混合性：使用import.io以尽可能最佳的结构获取所需的所有内容（而不丢失数据），并使用语言/工具来更正结构。对于第二种方法，请注意，该工具可以是import.io的高级功能。（我建议先尝试xpath方法，再尝试regex方法）@Casimir et Hippolyte非常感谢。在网上有没有学习Xpath的好教程？（我已经有了很好的正则表达式教程）