如何从已知的网站获取文本'；包含在a<；p>；使用Python的特定CSS类？_Python_Html

如何从已知的网站获取文本'；包含在a<；p>；使用Python的特定CSS类？

python html

如何从已知的网站获取文本'；包含在a<；p>；使用Python的特定CSS类？,python,html,Python,Html,我需要从Twitter状态URL获取文本，如：我知道有Twitter API，但我想在一个循环中进行尽可能多的查询（我存储了几个ID），查询Twitter API意味着处理限制的代码。获得：奎阿布索·戈尔德贝尔。莱瓦·巴隆·德斯德3/4岁卡雷拉a Bartra y con el defensa pegado，85英尺获得：我最推荐数字海洋获得： #HalaMadrid pic.twitter.com/61nJpT5TAO 实际状态（tweet）在中。但是，在其他一些html

我需要从Twitter状态URL获取文本，如：

我知道有Twitter API，但我想在一个循环中进行尽可能多的查询（我存储了几个ID），查询Twitter API意味着处理限制的代码。

获得：

奎阿布索·戈尔德贝尔。莱瓦·巴隆·德斯德3/4岁卡雷拉a Bartra y con el defensa pegado，85英尺

获得：

我最推荐数字海洋

获得：

#HalaMadrid pic.twitter.com/61nJpT5TAO

实际状态（tweet）在

中。但是，在其他一些

html

节点中包含一些类似于hashtag或链接的文本

获取站点文本和实际文本的更好方法是什么？我听说过Beautiful Soup或Scrapy，但我不确定。使用Twitter的API，或者更好的是，使用Twitter的API的python包装，可能会产生更干净的代码，但是如果你想使用web scraping Beautiful Soup，肯定可以做到这一点

下面是一些快速示例代码，可以帮助您开始：

from BeautifulSoup import BeautifulSoup
import requests

r  = requests.get("http://twitter.com/CarolinaPadron/status/456540908368842752")
data = r.text
soup = BeautifulSoup(data)
print soup.findAll("p", "tweet-text")[0].text

您是否有意寻找一种不涉及twitter api的方法？我也用过漂亮的汤，记得我觉得很简单。是的，我会编辑我的问题。我想随着时间的推移进行一些查询，而不必处理更多的应用程序、线程和睡眠问题。谢谢。相信我，我想检索的推文超过20万条，我有ID，所以我想这样做会更简单。我不认为我的问题是那么糟糕