Python 推特流媒体-查找10大热门话题| PySpark
我正在做一个项目,在Twitter上查找前10个热门话题或标签。我正在使用以下代码创建一个类:Python 推特流媒体-查找10大热门话题| PySpark,python,apache-spark,pyspark,Python,Apache Spark,Pyspark,我正在做一个项目,在Twitter上查找前10个热门话题或标签。我正在使用以下代码创建一个类: class TweetsListener(StreamListener): def __init__(self, csocket): self.client_socket = csocket def on_data(self, data): try: msg = json.loads( data ) print(msg['user
class TweetsListener(StreamListener):
def __init__(self, csocket):
self.client_socket = csocket
def on_data(self, data):
try:
msg = json.loads( data )
print(msg['user']['screen_name'].encode('utf-8'))
return True
except BaseException as e:
print("Error on_data: %s" % str(e))
return True
def on_error(self, status):
print(status)
return True
以下是发送数据的代码:
def sendData(c_socket):
auth = OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_secret)
twitter_stream = Stream(auth, TweetsListener(c_socket))
twitter_stream.filter(track=['india']
这里twitter\u stream.filter
正在过滤带有标签India的消息。我想从Twitter上获取所有消息。简而言之,我不希望应用过滤器。有没有办法做到这一点
谢谢你的帮助。
-注:Spark流媒体和PySpark的新手现在Twitter提供了一个示例流: 它是相当新的,所以我不确定包装器(看起来您正在使用Tweepy)是否已经实现了它,但是它应该不难与之交互