Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/url/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何使用python存储从URL提取的标题?_Python_Url_Store_Meta Tags_Goose - Fatal编程技术网

如何使用python存储从URL提取的标题?

如何使用python存储从URL提取的标题?,python,url,store,meta-tags,goose,Python,Url,Store,Meta Tags,Goose,我的任务是从URL列表中提取标题和元描述。我用过鹅。我做得对吗 从鹅进口鹅 导入URL解析 将numpy作为np导入 导入操作系统 进口大熊猫 os.chdir("C:\Users\EDAWES01\Desktop\Cookie profiling") data = pandas.read_csv('activity_url.csv', delimiter=';') data_read=np.array(data) quantity = data_read[0:, 2] url_data = d

我的任务是从URL列表中提取标题和元描述。我用过鹅。我做得对吗

从鹅进口鹅 导入URL解析 将numpy作为np导入 导入操作系统 进口大熊猫

os.chdir("C:\Users\EDAWES01\Desktop\Cookie profiling")
data = pandas.read_csv('activity_url.csv', delimiter=';')
data_read=np.array(data)
quantity = data_read[0:, 2]
url_data = data_read[quantity==1][0:3,1] 
user_id = data_read[quantity==1][0:3,0] 
url_data 

#remove '~oref='
clean_url_data=[] #intialize
for i in xrange(0,len(url_data)):
    clean_url_data.append(i)
    clean_url_data[i]=urlparse.urlparse(url_data[i])[2].split("=")
    clean_url_data[i]=clean_url_data[i][1]

clean_url_data=np.array([clean_url_data])

#store title 
website_title=[]
#store meta_description
website_meta_description=[] 


g=Goose()

for urlt in xrange(0, len(clean_url_data)):
    website_title.append(urlt)
    website_title[urlt]=g.extract(clean_url_data[urlt])
    website_title[urlt]=website_title[urlt].title

website_title=np.array([website_title])

for urlw in xrange(0, len(clean_url_data)):
    website_meta_description.append(urlw)
    website_meta_description[urlw]=g.extract(clean_url_data[urlw])
    website_meta_description[urlw]=website_meta_description[urlw].meta_description


website_meta_desciption=np.array([website_meta_description])

您可以打开url并将其分配给任何频道。当您读取它并将其存储在任何变量中时,这将是带有html标记和值的页面源代码。您可以使用与搜索条件匹配的正则表达式从该页面获取所需信息。您可以这样做:

sock = urllib2.urlopen('http://www.google.co.in')
page = sock.read()
sock.close()
listOfUrls = re.findall(r'https?://.*?/', page)
变量页面将为您提供所有html页面标记和结构。 你可以写任何定期的体验来获取你需要的细节。 假设re.findall(r'https?:/.*?/,第页)将为您提供所有URL。
同样,您可以从页面获取所需的详细信息,您可以打开url并将其分配给任何频道。当您读取它并将其存储在任何变量中时,这将是带有html标记和值的页面源代码。您可以使用与搜索条件匹配的正则表达式从该页面获取所需信息。您可以这样做:

sock = urllib2.urlopen('http://www.google.co.in')
page = sock.read()
sock.close()
listOfUrls = re.findall(r'https?://.*?/', page)
变量页面将为您提供所有html页面标记和结构。 你可以写任何定期的体验来获取你需要的细节。 假设re.findall(r'https?:/.*?/,第页)将为您提供所有URL。 同样,您可以从页面获取所需的详细信息