Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/74.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何从已知的网站获取文本';包含在a<;p>;使用Python的特定CSS类?_Python_Html - Fatal编程技术网

如何从已知的网站获取文本';包含在a<;p>;使用Python的特定CSS类?

如何从已知的网站获取文本';包含在a<;p>;使用Python的特定CSS类?,python,html,Python,Html,我需要从Twitter状态URL获取文本,如: 我知道有Twitter API,但我想在一个循环中进行尽可能多的查询(我存储了几个ID),查询Twitter API意味着处理限制的代码。 获得: 奎阿布索·戈尔德贝尔。莱瓦·巴隆·德斯德3/4岁 卡雷拉a Bartra y con el defensa pegado,85英尺 获得: 我最推荐数字海洋 获得: #HalaMadrid pic.twitter.com/61nJpT5TAO 实际状态(tweet)在中。但是,在其他一些html

我需要从Twitter状态URL获取文本,如:

我知道有Twitter API,但我想在一个循环中进行尽可能多的查询(我存储了几个ID),查询Twitter API意味着处理限制的代码。

获得:

奎阿布索·戈尔德贝尔。莱瓦·巴隆·德斯德3/4岁 卡雷拉a Bartra y con el defensa pegado,85英尺

获得:

我最推荐数字海洋

获得:

#HalaMadrid pic.twitter.com/61nJpT5TAO

实际状态(tweet)在

中。但是,在其他一些
html
节点中包含一些类似于hashtag或链接的文本


获取站点文本和实际文本的更好方法是什么?我听说过Beautiful Soup或Scrapy,但我不确定。使用Twitter的API,或者更好的是,使用Twitter的API的python包装,可能会产生更干净的代码,但是如果你想使用web scraping Beautiful Soup,肯定可以做到这一点

下面是一些快速示例代码,可以帮助您开始:

from BeautifulSoup import BeautifulSoup
import requests

r  = requests.get("http://twitter.com/CarolinaPadron/status/456540908368842752")
data = r.text
soup = BeautifulSoup(data)
print soup.findAll("p", "tweet-text")[0].text

您是否有意寻找一种不涉及twitter api的方法?我也用过漂亮的汤,记得我觉得很简单。是的,我会编辑我的问题。我想随着时间的推移进行一些查询,而不必处理更多的应用程序、线程和睡眠问题。谢谢。相信我,我想检索的推文超过20万条,我有ID,所以我想这样做会更简单。我不认为我的问题是那么糟糕