Web scraping 返回数字和字母而不是“Scrapy”&引用;对于href值

Web scraping 返回数字和字母而不是“Scrapy”&引用;对于href值,web-scraping,scrapy,Web Scraping,Scrapy,我正在尝试使用Scrapy为href链接信息刮取一个web论坛,当我这样做时,我会得到带有许多字母和数字的href链接,其中应该有问号 这是我正在抓取的html文档的一个示例: <a href="showthread.php?t=2755261" id="thread_title_2676278"></a> 运行此操作时,我会得到以下结果: [u'showthread.php?s=f969fe6ed424b22d8fddf605a9effe90&t=26762

我正在尝试使用Scrapy为href链接信息刮取一个web论坛,当我这样做时,我会得到带有许多字母和数字的href链接,其中应该有问号

这是我正在抓取的html文档的一个示例:

<a href="showthread.php?t=2755261" id="thread_title_2676278"></a> 
运行此操作时,我会得到以下结果:

[u'showthread.php?s=f969fe6ed424b22d8fddf605a9effe90&t=2676278']
应退还的是:

[u'showthread.php?t=2676278']
我已经在文档的其他地方对带有问号的href数据进行了其他测试,并且还返回了“s=f969fe6ed424b22d8fddf605a9effe90&

为什么返回的数据中只有“s=f969fe6ed424b22d8fddf605a9effe90&”而不是问号


谢谢

为了更准确地更新每个线程的视图数量,我从中抓取的站点似乎使用了唯一标识符。我无法返回没有唯一id的刮取数据,它会随着时间的推移而改变,并为线程id刮取了不同的HTML标记,然后将其加入到web地址(showthread.php?t=)以创建我正在寻找的链接。

这可能是一个会话id,因为刮取器无法处理Cookies。谢谢您的回复。我已经在“settings.py”中禁用了cookies,但是我仍然在我的所有链接中得到这个字符串,其中包含“?”。是的,这就是原因。你正在抓取的论坛检测到你的抓取器无法处理cookies(这是存储长
s
值的常用方法,它也存在于浏览器中,但不可见,隐藏在cookie中),因此它会将它们添加到URL中。所以我需要调整我的爬行器来处理cookies,或者除了添加代码将其从返回值中删除外,没有其他方法可以去除url中的字符串吗?最简单的方法可能是启用cookies,是的。
[u'showthread.php?t=2676278']