Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/regex/16.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Regex import.io crawler不会填充培训期间填充的文本列(与流中的站点相同)_Regex_Xpath_Web Scraping_Artificial Intelligence_Import.io - Fatal编程技术网

Regex import.io crawler不会填充培训期间填充的文本列(与流中的站点相同)

Regex import.io crawler不会填充培训期间填充的文本列(与流中的站点相同),regex,xpath,web-scraping,artificial-intelligence,import.io,Regex,Xpath,Web Scraping,Artificial Intelligence,Import.io,通过在几个页面上训练import.io工具,从爬网的站点中提取什么,import.io看起来非常适合加速web抓取。但我不明白我现在的爬虫出了什么问题。我训练它浏览来自匈牙利的选区报告(用于投票记录)。在训练期间,前两个文本字段被正确识别,即使我训练的页面与爬行期间在流中出现的页面完全相同。同时,在最后的爬行过程中,列保留为空白。出什么事了?谢谢 爬虫位于https://import.io/data/mine/?id=772c725f-6048-4861-9f73-03ae30d8f7cc 流的

通过在几个页面上训练import.io工具,从爬网的站点中提取什么,import.io看起来非常适合加速web抓取。但我不明白我现在的爬虫出了什么问题。我训练它浏览来自匈牙利的选区报告(用于投票记录)。在训练期间,前两个文本字段被正确识别,即使我训练的页面与爬行期间在流中出现的页面完全相同。同时,在最后的爬行过程中,列保留为空白。出什么事了?谢谢

爬虫位于
https://import.io/data/mine/?id=772c725f-6048-4861-9f73-03ae30d8f7cc

流的第一行的示例页面是
http://valasztas.hu/dyn/pv14/szavossz/hu/M08/T150/szkjkv_029.html

保存的流的前两行是:

相反,
szavazokor
应该在页面上说
Sopron 029
,而
valasztokerulet
应该说
GYŐR–MOSON–Sopron 04


我发现没有办法深入研究爬虫在训练后寻找的模式。

我刚刚看过你的爬虫,它的功能确实很奇怪,因为它与提供的所有训练数据都匹配-我已要求团队进行研究

有一个潜在的解决方法,您可以为列指定手动正则表达式重写,这可能会让您更幸运

创建第一列时(或单击列标题中的“文本”链接编辑现有列),可以选中“高级”框,并提供“手动正则表达式覆盖”。我把
(.+?).számúszavazókör
放在这里。第二栏我用了
(.+?).számúegyéni választókerületi szavazás

这能解决你的问题吗


p、 如果你还没有猜到的话,我在import.io工作,谢谢,我在周末尝试了手动覆盖,但没有帮助。(我还需要更复杂,因为对于单个选区村庄,文本略有不同:)另外还有第三种变体,但实际上我需要在单独的列中提供这些信息(简单的0/1是/否,该选区是否为特殊选区),见下表:
_url,_position,szavazokor,valasztokerulet,valasztok_szama,megjelentek_szama,megjelentek_szama/_source,ervenyes_lapok_szama,ervenyes_lapok_szama/_source,mcp,mcp/_source,haza_nem_elado,haza_nem_elado/_source,sms,sms/_source,fkgp,fkgp/_source,udp,udp/_source,fidesz,fidesz/_source,sem,sem/_source,lmp,lmp/_source,jesz,jesz/_source,ump,ump/_source,munkaspart,munkaspart/_source,szocialdemokratak,szocialdemokratak/_source,kti,kti/_source,egyutt2014,egyutt2014/_source,zoldek,zoldek/_source,osszefogas,osszefogas/_source,kormanyvaltok,kormanyvaltok/_source,jobbik,jobbik/_source,osszes_ervenyes_listas,osszes_ervenyes_listas/_source
"http://valasztas.hu/dyn/pv14/szavossz/hu/M08/T150/szkjkv_029.html","1","","","825","478","478","478","478","0","0","1","1","2","2","1","1","0","0","221","221","1","1","34","34","0","0","0","0","0","0","0","0","2","2","1","1","3","3","0","0","129","129","80","80","475","475"