Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/regex/16.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Regex importi.io:某些数据未导入或混合在同一列中_Regex_Import.io - Fatal编程技术网

Regex importi.io:某些数据未导入或混合在同一列中

Regex importi.io:某些数据未导入或混合在同一列中,regex,import.io,Regex,Import.io,我正在这个网页上使用import.io的Magic API: 某些类型的信息/字段被完美地提取出来 但是提取器: 将NOR数字字段(示例:NOR DEVL1502938A)与表示同一列中页数(示例:10)的数字混合。可能是因为它们都是链接文本(标签如下所示: 标题=“[…]”href=“[…]”) 然后将书目参考字段(例如:JO du 04/04/2015 texte:0080;10页6232/6241)与NOR编号字段混合。这对我来说似乎很奇怪,因为NOR系统地位于参考之前,并且它们在网页

我正在这个网页上使用import.io的Magic API:

某些类型的信息/字段被完美地提取出来

但是提取器:

  • 将NOR数字字段(示例:NOR DEVL1502938A)与表示同一列中页数(示例:10)的数字混合。可能是因为它们都是链接文本(标签如下所示: 标题=“[…]”href=“[…]”)

  • 然后将书目参考字段(例如:JO du 04/04/2015 texte:0080;10页6232/6241)与NOR编号字段混合。这对我来说似乎很奇怪,因为NOR系统地位于参考之前,并且它们在网页中不在同一行(参考书目字段之前有一个br/标记)

  • 经常未能在一列中加载文本摘要的内容(例如:(1986年5月15日《环境保护法》第411-1条和第411-1条的应用-废除《国家领土保护法修正案》)。相反,它将其分散到不同的列中。我看到在span class=“noir”标记之后插入em标记时会发生这种情况。例如:

    艺术应用。R.213-49-2环境保护法规- 废除2011年10月10日的法律定义 (巴黎公共福利院)

我已经尝试过使用新的提取器,或者通过一个特殊的Google请求结果网页来处理我的问题。无济于事。谷歌网页提供了更糟糕的结果

我欢迎任何想法:

  • 论第二个问题产生的原因

  • 以及我如何克服法国页面上的三个问题

非常感谢您将此阅读到最后:-)


PS:请注意,我的工作主要是作为一名研究人员。虽然我能理解他们的逻辑,但我不熟悉正则表达式或Json。因此,如果需要使用它们,请您解释一下背后的逻辑,或者展示足够多的理想代码,以便我能够有效地复制它?

您对此类应用的期望太高了。第二个问题的原因是import.io似乎按类名分组,而不考虑子元素。@Casimir et Hippolyte非常感谢您的评论。您能推荐任何更适合这项工作的替代应用程序/软件吗?我已尝试将legifrance的learn import.io链接到提取器。大多数时候,它工作得很好。问题是,有时,如果不打破整个结构,微观差异就无法与这种学习方法相结合。我认为有两种方法可以解决这个问题。第一步是仔细查看html源代码,并使用编程语言提取所需的信息。另一种方法更具混合性:使用import.io以尽可能最佳的结构获取所需的所有内容(而不丢失数据),并使用语言/工具来更正结构。对于第二种方法,请注意,该工具可以是import.io的高级功能。(我建议先尝试xpath方法,再尝试regex方法)@Casimir et Hippolyte非常感谢。在网上有没有学习Xpath的好教程?(我已经有了很好的正则表达式教程)你对这类应用的期望太高了。第二个问题的原因是import.io似乎按类名分组,而不考虑子元素。@Casimir et Hippolyte非常感谢您的评论。您能推荐任何更适合这项工作的替代应用程序/软件吗?我已尝试将legifrance的learn import.io链接到提取器。大多数时候,它工作得很好。问题是,有时,如果不打破整个结构,微观差异就无法与这种学习方法相结合。我认为有两种方法可以解决这个问题。第一步是仔细查看html源代码,并使用编程语言提取所需的信息。另一种方法更具混合性:使用import.io以尽可能最佳的结构获取所需的所有内容(而不丢失数据),并使用语言/工具来更正结构。对于第二种方法,请注意,该工具可以是import.io的高级功能。(我建议先尝试xpath方法,再尝试regex方法)@Casimir et Hippolyte非常感谢。在网上有没有学习Xpath的好教程?(我已经有了很好的正则表达式教程)