Regex import.io crawler不会填充培训期间填充的文本列(与流中的站点相同)
通过在几个页面上训练import.io工具,从爬网的站点中提取什么,import.io看起来非常适合加速web抓取。但我不明白我现在的爬虫出了什么问题。我训练它浏览来自匈牙利的选区报告(用于投票记录)。在训练期间,前两个文本字段被正确识别,即使我训练的页面与爬行期间在流中出现的页面完全相同。同时,在最后的爬行过程中,列保留为空白。出什么事了?谢谢 爬虫位于Regex import.io crawler不会填充培训期间填充的文本列(与流中的站点相同),regex,xpath,web-scraping,artificial-intelligence,import.io,Regex,Xpath,Web Scraping,Artificial Intelligence,Import.io,通过在几个页面上训练import.io工具,从爬网的站点中提取什么,import.io看起来非常适合加速web抓取。但我不明白我现在的爬虫出了什么问题。我训练它浏览来自匈牙利的选区报告(用于投票记录)。在训练期间,前两个文本字段被正确识别,即使我训练的页面与爬行期间在流中出现的页面完全相同。同时,在最后的爬行过程中,列保留为空白。出什么事了?谢谢 爬虫位于https://import.io/data/mine/?id=772c725f-6048-4861-9f73-03ae30d8f7cc 流的
https://import.io/data/mine/?id=772c725f-6048-4861-9f73-03ae30d8f7cc
流的第一行的示例页面是http://valasztas.hu/dyn/pv14/szavossz/hu/M08/T150/szkjkv_029.html
保存的流的前两行是:
相反,szavazokor
应该在页面上说Sopron 029
,而valasztokerulet
应该说GYŐR–MOSON–Sopron 04
我发现没有办法深入研究爬虫在训练后寻找的模式。我刚刚看过你的爬虫,它的功能确实很奇怪,因为它与提供的所有训练数据都匹配-我已要求团队进行研究 有一个潜在的解决方法,您可以为列指定手动正则表达式重写,这可能会让您更幸运 创建第一列时(或单击列标题中的“文本”链接编辑现有列),可以选中“高级”框,并提供“手动正则表达式覆盖”。我把
(.+?).számúszavazókör
放在这里。第二栏我用了(.+?).számúegyéni választókerületi szavazás
这能解决你的问题吗
p、 如果你还没有猜到的话,我在import.io工作,谢谢,我在周末尝试了手动覆盖,但没有帮助。(我还需要更复杂,因为对于单个选区村庄,文本略有不同:)另外还有第三种变体,但实际上我需要在单独的列中提供这些信息(简单的0/1是/否,该选区是否为特殊选区),见下表:
_url,_position,szavazokor,valasztokerulet,valasztok_szama,megjelentek_szama,megjelentek_szama/_source,ervenyes_lapok_szama,ervenyes_lapok_szama/_source,mcp,mcp/_source,haza_nem_elado,haza_nem_elado/_source,sms,sms/_source,fkgp,fkgp/_source,udp,udp/_source,fidesz,fidesz/_source,sem,sem/_source,lmp,lmp/_source,jesz,jesz/_source,ump,ump/_source,munkaspart,munkaspart/_source,szocialdemokratak,szocialdemokratak/_source,kti,kti/_source,egyutt2014,egyutt2014/_source,zoldek,zoldek/_source,osszefogas,osszefogas/_source,kormanyvaltok,kormanyvaltok/_source,jobbik,jobbik/_source,osszes_ervenyes_listas,osszes_ervenyes_listas/_source
"http://valasztas.hu/dyn/pv14/szavossz/hu/M08/T150/szkjkv_029.html","1","","","825","478","478","478","478","0","0","1","1","2","2","1","1","0","0","221","221","1","1","34","34","0","0","0","0","0","0","0","0","2","2","1","1","3","3","0","0","129","129","80","80","475","475"