Xpath 网页抓取:我如何处理欧元标志?
因此,我试图在网站上搜索产品的价格,它们的HTML如下所示:Xpath 网页抓取:我如何处理欧元标志?,xpath,screen-scraping,euro,Xpath,Screen Scraping,Euro,因此,我试图在网站上搜索产品的价格,它们的HTML如下所示: 12.99欧元 现在,我编写了一个xpath查询,它获取price,并返回如下字符串: –12.99 如果可能的话,我只想得到12.99。我有什么选择?我应该使用正则表达式吗?还是有更好/更简单的解决方案?看起来像是字符集问题。请确保您使用与中显示的文档相同的字符集进行解析。我在页面上找不到任何提及utf8或其他不同内容的内容。如何解析文档?XPath在树模型上使用由XML或HTML解析器创建的Unicode字符,因此问题不在于更改X
12.99欧元
现在,我编写了一个xpath查询,它获取price,并返回如下字符串:
–12.99
如果可能的话,我只想得到
12.99
。我有什么选择?我应该使用正则表达式吗?还是有更好/更简单的解决方案?看起来像是字符集问题。请确保您使用与中显示的文档相同的字符集进行解析。我在页面上找不到任何提及utf8
或其他不同内容的内容。如何解析文档?XPath在树模型上使用由XML或HTML解析器创建的Unicode字符,因此问题不在于更改XPath表达式,您需要确保使用的解析器使用编写文档时使用的编码/字符集来解析文档。因此,如果页面具有
,我也应该这样做,并且可以工作吗?