Web scraping 返回数字和字母而不是“Scrapy”&引用；对于href值_Web Scraping_Scrapy

Web scraping 返回数字和字母而不是“Scrapy”&引用；对于href值

web-scraping scrapy

Web scraping 返回数字和字母而不是“Scrapy”&引用；对于href值,web-scraping,scrapy,Web Scraping,Scrapy,我正在尝试使用Scrapy为href链接信息刮取一个web论坛，当我这样做时，我会得到带有许多字母和数字的href链接，其中应该有问号这是我正在抓取的html文档的一个示例： <a href="showthread.php?t=2755261" id="thread_title_2676278"></a> 运行此操作时，我会得到以下结果： [u'showthread.php?s=f969fe6ed424b22d8fddf605a9effe90&t=26762

我正在尝试使用Scrapy为href链接信息刮取一个web论坛，当我这样做时，我会得到带有许多字母和数字的href链接，其中应该有问号

这是我正在抓取的html文档的一个示例：

<a href="showthread.php?t=2755261" id="thread_title_2676278"></a>

运行此操作时，我会得到以下结果：

[u'showthread.php?s=f969fe6ed424b22d8fddf605a9effe90&t=2676278']

应退还的是：

[u'showthread.php?t=2676278']

我已经在文档的其他地方对带有问号的href数据进行了其他测试，并且还返回了“s=f969fe6ed424b22d8fddf605a9effe90&”

为什么返回的数据中只有“s=f969fe6ed424b22d8fddf605a9effe90&”而不是问号

谢谢

为了更准确地更新每个线程的视图数量，我从中抓取的站点似乎使用了唯一标识符。我无法返回没有唯一id的刮取数据，它会随着时间的推移而改变，并为线程id刮取了不同的HTML标记，然后将其加入到web地址（showthread.php？t=）以创建我正在寻找的链接。

这可能是一个会话id，因为刮取器无法处理Cookies。谢谢您的回复。我已经在“settings.py”中禁用了cookies，但是我仍然在我的所有链接中得到这个字符串，其中包含“？”。是的，这就是原因。你正在抓取的论坛检测到你的抓取器无法处理cookies（这是存储长

值的常用方法，它也存在于浏览器中，但不可见，隐藏在cookie中），因此它会将它们添加到URL中。所以我需要调整我的爬行器来处理cookies，或者除了添加代码将其从返回值中删除外，没有其他方法可以去除url中的字符串吗？最简单的方法可能是启用cookies，是的。

[u'showthread.php?t=2676278']