用python提取博客数据

用python提取博客数据,python,rss,Python,Rss,我们必须从包含博客列表的文本文件中读取指定数量的博客(n) 然后我提取博客数据并将其附加到文件中 这只是将nlp应用于数据的主要任务的一部分 到目前为止,我已经做到了: import urllib2 from bs4 import BeautifulSoup def create_data(n): blogs=open("blog.txt","r") #opening the file containing list of blogs f=file("data.txt","wt

我们必须从包含博客列表的文本文件中读取指定数量的博客(
n

然后我提取博客数据并将其附加到文件中

这只是将
nlp
应用于数据的主要任务的一部分

到目前为止,我已经做到了:

import urllib2
from bs4 import BeautifulSoup
def create_data(n):
    blogs=open("blog.txt","r") #opening the file containing list of blogs

    f=file("data.txt","wt") #Create a file data.txt

    with open("blog.txt")as blogs:
        head = [blogs.next() for x in xrange(n)]
        page = urllib2.urlopen(head['href'])

        soup = BeautifulSoup(page)
        link = soup.find('link', type='application/rss+xml')
        print link['href']

        rss = urllib2.urlopen(link['href']).read()
        souprss = BeautifulSoup(rss)
        description_tag = souprss.find('description')

        f = open("data.txt","a") #data file created for applying nlp
        f.write(description_tag)
这个代码不起作用。它致力于直接提供链接。例如:

page = urllib2.urlopen("http://www.frugalrules.com")
我从另一个脚本调用此函数,用户在该脚本中输入
n

我做错了什么

回溯:

    Traceback (most recent call last):
  File "C:/beautifulsoup4-4.3.2/main.py", line 4, in <module>
    create_data(2)#calls create_data(n) function from create_data
  File "C:/beautifulsoup4-4.3.2\create_data.py", line 14, in create_data
    page=urllib2.urlopen(head)
  File "C:\Python27\lib\urllib2.py", line 127, in urlopen
    return _opener.open(url, data, timeout)
  File "C:\Python27\lib\urllib2.py", line 395, in open
    req.timeout = timeout
AttributeError: 'list' object has no attribute 'timeout'
回溯(最近一次呼叫最后一次):
文件“C:/beautifulsoup4-4.3.2/main.py”,第4行,在
create_data(2)#从create_data调用create_data(n)函数
文件“C:/beautifulsoup4-4.3.2\create_data.py”,第14行,在create_data中
page=urlib2.urlopen(head)
文件“C:\Python27\lib\urllib2.py”,第127行,在urlopen中
return\u opener.open(url、数据、超时)
文件“C:\Python27\lib\urllib2.py”,第395行,打开
请求超时=超时
AttributeError:“list”对象没有属性“timeout”

标题是一个列表:

    head = [blogs.next() for x in xrange(n)]
    page = urllib2.urlopen(head['href'])
列表由整数索引(或片)索引。当
head
是一个列表时,您不能使用
head['href']

    head = [blogs.next() for x in xrange(n)]
    page = urllib2.urlopen(head['href'])
如果不知道
blog.txt
的内容是什么样子的,很难说如何解决这个问题。如果
blog.txt
的每一行都包含一个URL,那么 您可以使用:

with open("blog.txt") as blogs:
    for url in list(blogs)[:n]:
        page = urllib2.urlopen(url)
        soup = BeautifulSoup(page.read())
        ...
        with open('data.txt', 'a') as f:
            f.write(...)
请注意,
file
是一种不推荐使用的
open
(已在Python3中删除)。不要使用
f=file(“data.txt”,“wt”)
,而是使用更现代的语法(如上所示)


比如说,

import urllib2
import bs4 as bs

def create_data(n):
    with open("data.txt", "wt") as f:
        pass
    with open("blog.txt") as blogs:
        for url in list(blogs)[:n]:
            page = urllib2.urlopen(url)
            soup = bs.BeautifulSoup(page.read())

            link = soup.find('link', type='application/rss+xml')
            print(link['href'])

            rss = urllib2.urlopen(link['href']).read()
            souprss = bs.BeautifulSoup(rss)
            description_tag = souprss.find('description')

            with open('data.txt', 'a') as f:
                f.write('{}\n'.format(description_tag))

create_data(2)
我假设您在每次通过循环时都在打开、写入和关闭
data.txt
,因为您希望保存部分结果——可能是为了防止程序被迫提前终止

否则,在开始时只打开一次文件会更容易:

with open("blog.txt") as blogs, open("data.txt", "wt") as f:

head
是一个列表:

    head = [blogs.next() for x in xrange(n)]
    page = urllib2.urlopen(head['href'])
列表由整数索引(或片)索引。当
head
是一个列表时,您不能使用
head['href']

    head = [blogs.next() for x in xrange(n)]
    page = urllib2.urlopen(head['href'])
如果不知道
blog.txt
的内容是什么样子的,很难说如何解决这个问题。如果
blog.txt
的每一行都包含一个URL,那么 您可以使用:

with open("blog.txt") as blogs:
    for url in list(blogs)[:n]:
        page = urllib2.urlopen(url)
        soup = BeautifulSoup(page.read())
        ...
        with open('data.txt', 'a') as f:
            f.write(...)
请注意,
file
是一种不推荐使用的
open
(已在Python3中删除)。不要使用
f=file(“data.txt”,“wt”)
,而是使用更现代的语法(如上所示)


比如说,

import urllib2
import bs4 as bs

def create_data(n):
    with open("data.txt", "wt") as f:
        pass
    with open("blog.txt") as blogs:
        for url in list(blogs)[:n]:
            page = urllib2.urlopen(url)
            soup = bs.BeautifulSoup(page.read())

            link = soup.find('link', type='application/rss+xml')
            print(link['href'])

            rss = urllib2.urlopen(link['href']).read()
            souprss = bs.BeautifulSoup(rss)
            description_tag = souprss.find('description')

            with open('data.txt', 'a') as f:
                f.write('{}\n'.format(description_tag))

create_data(2)
我假设您在每次通过循环时都在打开、写入和关闭
data.txt
,因为您希望保存部分结果——可能是为了防止程序被迫提前终止

否则,在开始时只打开一次文件会更容易:

with open("blog.txt") as blogs, open("data.txt", "wt") as f:

head
是一个列表:

    head = [blogs.next() for x in xrange(n)]
    page = urllib2.urlopen(head['href'])
列表由整数索引(或片)索引。当
head
是一个列表时,您不能使用
head['href']

    head = [blogs.next() for x in xrange(n)]
    page = urllib2.urlopen(head['href'])
如果不知道
blog.txt
的内容是什么样子的,很难说如何解决这个问题。如果
blog.txt
的每一行都包含一个URL,那么 您可以使用:

with open("blog.txt") as blogs:
    for url in list(blogs)[:n]:
        page = urllib2.urlopen(url)
        soup = BeautifulSoup(page.read())
        ...
        with open('data.txt', 'a') as f:
            f.write(...)
请注意,
file
是一种不推荐使用的
open
(已在Python3中删除)。不要使用
f=file(“data.txt”,“wt”)
,而是使用更现代的语法(如上所示)


比如说,

import urllib2
import bs4 as bs

def create_data(n):
    with open("data.txt", "wt") as f:
        pass
    with open("blog.txt") as blogs:
        for url in list(blogs)[:n]:
            page = urllib2.urlopen(url)
            soup = bs.BeautifulSoup(page.read())

            link = soup.find('link', type='application/rss+xml')
            print(link['href'])

            rss = urllib2.urlopen(link['href']).read()
            souprss = bs.BeautifulSoup(rss)
            description_tag = souprss.find('description')

            with open('data.txt', 'a') as f:
                f.write('{}\n'.format(description_tag))

create_data(2)
我假设您在每次通过循环时都在打开、写入和关闭
data.txt
,因为您希望保存部分结果——可能是为了防止程序被迫提前终止

否则,在开始时只打开一次文件会更容易:

with open("blog.txt") as blogs, open("data.txt", "wt") as f:

head
是一个列表:

    head = [blogs.next() for x in xrange(n)]
    page = urllib2.urlopen(head['href'])
列表由整数索引(或片)索引。当
head
是一个列表时,您不能使用
head['href']

    head = [blogs.next() for x in xrange(n)]
    page = urllib2.urlopen(head['href'])
如果不知道
blog.txt
的内容是什么样子的,很难说如何解决这个问题。如果
blog.txt
的每一行都包含一个URL,那么 您可以使用:

with open("blog.txt") as blogs:
    for url in list(blogs)[:n]:
        page = urllib2.urlopen(url)
        soup = BeautifulSoup(page.read())
        ...
        with open('data.txt', 'a') as f:
            f.write(...)
请注意,
file
是一种不推荐使用的
open
(已在Python3中删除)。不要使用
f=file(“data.txt”,“wt”)
,而是使用更现代的语法(如上所示)


比如说,

import urllib2
import bs4 as bs

def create_data(n):
    with open("data.txt", "wt") as f:
        pass
    with open("blog.txt") as blogs:
        for url in list(blogs)[:n]:
            page = urllib2.urlopen(url)
            soup = bs.BeautifulSoup(page.read())

            link = soup.find('link', type='application/rss+xml')
            print(link['href'])

            rss = urllib2.urlopen(link['href']).read()
            souprss = bs.BeautifulSoup(rss)
            description_tag = souprss.find('description')

            with open('data.txt', 'a') as f:
                f.write('{}\n'.format(description_tag))

create_data(2)
我假设您在每次通过循环时都在打开、写入和关闭
data.txt
,因为您希望保存部分结果——可能是为了防止程序被迫提前终止

否则,在开始时只打开一次文件会更容易:

with open("blog.txt") as blogs, open("data.txt", "wt") as f:

“不起作用”是什么意思?包括您的回溯。完成。但是如果我做了
rss=urllib2.urlopen(link['href'])
回溯是TypeError:列表索引必须是整数,而不是str,我对这一点很陌生,所以请耐心听我说。“不起作用”是什么意思?包括您的回溯。完成。但是如果我做了
rss=urllib2.urlopen(link['href'])
回溯是TypeError:列表索引必须是整数,而不是str,我对这一点很陌生,所以请耐心听我说。“不起作用”是什么意思?包括您的回溯。完成。但是如果我做了
rss=urllib2.urlopen(link['href'])
回溯是TypeError:列表索引必须是整数,而不是str,我对这一点很陌生,所以请耐心听我说。“不起作用”是什么意思?包括您的回溯。完成。但是如果我做了
rss=urllib2.urlopen(link['href'])
回溯是TypeError:列表索引必须是整数,而不是str,我对这一点很陌生,所以请耐心听我说。blog.txt的内容只是博客的URL,就像在不同的行中一样。我必须只阅读列表中的前n个博客,从网络中提取数据并将其全部写入一个文件中。这很有效!!非常感谢!!:')抱歉,无法对答案进行投票。我的名声太低了/txt的内容只是博客的URL,比如在不同的行中,我必须只读取列表中的前n个博客,e