Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/316.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 从Twitter抓取数据并解析_Python_Twitter_Tweepy - Fatal编程技术网

Python 从Twitter抓取数据并解析

Python 从Twitter抓取数据并解析,python,twitter,tweepy,Python,Twitter,Tweepy,我正在努力: 抓取多条推文,在推文中查找url,抓取我找到的url,并将每个“url数据”保存到不同的txt文件中 到目前为止,我写下了这些部分,我被卡住了,有人能帮我吗 抓取推文: import tweepy from tweepy import OAuthHandler import sys import re def process_or_store(tweet): print(json.dumps(tweet)) consumer_key = '***************

我正在努力:

抓取多条推文,在推文中查找url,抓取我找到的url,并将每个“url数据”保存到不同的txt文件中

到目前为止,我写下了这些部分,我被卡住了,有人能帮我吗

抓取推文:

import tweepy
from tweepy import OAuthHandler
import sys
import re

def process_or_store(tweet):
    print(json.dumps(tweet))

consumer_key = '***************************'
consumer_secret = '******************************'
access_token = '*******************************'
access_secret = '****************************'
auth = OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_secret)
api = tweepy.API(auth)

f = open("C:\\Twitter\Twitts.txt",'w')
print >>f, 'twits'


for status in tweepy.Cursor(api.home_timeline).items(20):
    # Process a single status
    print(status.text)
    f.write(status.text+ '\n')


def extract_urls(fname):
    with open(fname) as f:
        return re.findall('http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', f.read())
来自URL的数据:

import urllib2

url = 'https://***************'
response = urllib2.urlopen(url)
with open('C:\\Twitter\Data_from_urls\ + "url"', 'w') as f:
    f.write(response.read())

你能解释一下你的代码中哪一部分工作不正常吗?你得到了什么,但看起来不对劲,还是什么都没有得到?另外,请记住在
之后关闭()
文件。将数据写入其中。我不知道如何编写从txt中获取URL(仅URL)并绘制所有URL(多线程或逐个)的部分。根据一些快速测试,您的正则表达式看起来基本正常工作。
extract\u url()
函数应该返回一组可以迭代的正则表达式对象。您需要另一个调用
extract_URL()
,并在循环中使用结果的函数,在循环中您可以将URL数据保存到文件中。您能解释一下代码的哪些部分工作不正常吗?你得到了什么,但看起来不对劲,还是什么都没有得到?另外,请记住在
之后关闭()
文件。将数据写入其中。我不知道如何编写从txt中获取URL(仅URL)并绘制所有URL(多线程或逐个)的部分。根据一些快速测试,您的正则表达式看起来基本正常工作。
extract\u url()
函数应该返回一组可以迭代的正则表达式对象。您需要另一个函数调用
extract\u URL()
,并在循环中使用结果,在循环中可以将URL数据保存到文件中。