Python 2.7 如何在Portia visual scrapy中使用正则表达式?

Python 2.7 如何在Portia visual scrapy中使用正则表达式?,python-2.7,web-crawler,scrapy-spider,portia,Python 2.7,Web Crawler,Scrapy Spider,Portia,我可以使用Portia web crawler对网页进行注释,我的问题是如何在提取数据时使用正则表达式 比如说, 我已从页面中提取位置文件 输出看起来像 地点:abc xyz地点 但我只需要xyz,abc值 我在谷歌上搜索解决方案,但没有得到更多信息 您能解释一下Portia scrapy中的regex吗?您需要使用捕获组来提取数据,因此在这种情况下: Location: (.*) 这告诉portia提取Location:string后面的所有数据 例如,如果您只想提取Location:和之间

我可以使用Portia web crawler对网页进行注释,我的问题是如何在提取数据时使用正则表达式

比如说,

我已从页面中提取位置文件

输出看起来像

地点:abc xyz地点

但我只需要xyz,abc值

我在谷歌上搜索解决方案,但没有得到更多信息


您能解释一下Portia scrapy中的regex吗?

您需要使用捕获组来提取数据,因此在这种情况下:

Location: (.*)
这告诉portia提取Location:string后面的所有数据

例如,如果您只想提取Location:和之间的所有数据,则可以使用以下命令:

Location: (.*),

您还可以将信息放在捕获组中,以便提取包括模式在内的所有数据。

您需要使用捕获组来提取数据,因此在这种情况下:

Location: (.*)
这告诉portia提取Location:string后面的所有数据

例如,如果您只想提取Location:和之间的所有数据,则可以使用以下命令:

Location: (.*),
您还可以将信息放在捕获组中,以便提取模式之前(包括模式)的所有数据