使用python从文本文件加载url_Python_Scrapy_Urllib

使用python从文本文件加载url

python scrapy

使用python从文本文件加载url,python,scrapy,urllib,Python,Scrapy,Urllib,我将200个url放在一个名为url.txt的文本文件中，如下所示： url_1 url_2 url_3 .... url_n 我想在python中浏览所有这些内容，以获得每个url页面的内容（文本）。通过这个文本文件的每个url最简单的方法是什么？痒？或者只是写另一个脚本 import urllib from bs4 import BeautifulSoup as BS html =urllib.urlopen('url').read() soup = BS(html) print

我将200个url放在一个名为url.txt的文本文件中，如下所示：

url_1
url_2
url_3
....
url_n

我想在python中浏览所有这些内容，以获得每个url页面的内容（文本）。通过这个文本文件的每个url最简单的方法是什么？痒？或者只是写另一个脚本

import urllib
from bs4 import BeautifulSoup as BS

html =urllib.urlopen('url').read()

soup = BS(html)


print soup.find('div',{'class':'drkgry'})[1].get_text()

这看起来很简单-这就是你要找的吗

import urllib2

with open('MyFileOfURLs.txt', 'r') as f:
    urls = []
    for url in f:
        urls.append(url.strip())

html = {}
for url in urls:
    urlFile = urllib2.urlopen(url) as urlFile
    html[url] = urlFile.read()
    urlFile.close()

print html

这看起来很简单-这就是你要找的吗

import urllib2

with open('MyFileOfURLs.txt', 'r') as f:
    urls = []
    for url in f:
        urls.append(url.strip())

html = {}
for url in urls:
    urlFile = urllib2.urlopen(url) as urlFile
    html[url] = urlFile.read()
    urlFile.close()

print html

这看起来很简单-这就是你要找的吗

import urllib2

with open('MyFileOfURLs.txt', 'r') as f:
    urls = []
    for url in f:
        urls.append(url.strip())

html = {}
for url in urls:
    urlFile = urllib2.urlopen(url) as urlFile
    html[url] = urlFile.read()
    urlFile.close()

print html

这看起来很简单-这就是你要找的吗

import urllib2

with open('MyFileOfURLs.txt', 'r') as f:
    urls = []
    for url in f:
        urls.append(url.strip())

html = {}
for url in urls:
    urlFile = urllib2.urlopen(url) as urlFile
    html[url] = urlFile.read()
    urlFile.close()

print html

对于这个任务来说，Scrapy可能有些过分了，除非您想要非常快地爬行（由于异步特性）、跟随链接、提取许多字段等等

一只蜘蛛会像这样

from scrapy.http import Request
from scrapy.selector import HtmlXPathSelector
from scrapy.spider import BaseSpider


class MySpider(BaseSpider):
    name = 'myspider'

    def start_requests(self):
        with open('urls.txt') as fp:
            for line in fp:
                yield Request(line.strip(), callback=self.parse_website)

    def parse_website(self, response):
        hxs = HtmlXPathSelector(response)
        print hxs.select('//div[@class="drkgry"]/text()').extract()

您可以跳过创建完整项目。将其另存为

myspider.py

并运行

scrapy runspider myspider.py

，将

urls.txt

文件放在同一目录中。

scrapy对于此任务来说可能太过苛刻了，除非您希望爬行速度非常快（由于异步特性）、跟随链接、提取许多字段等

一只蜘蛛会像这样

from scrapy.http import Request
from scrapy.selector import HtmlXPathSelector
from scrapy.spider import BaseSpider


class MySpider(BaseSpider):
    name = 'myspider'

    def start_requests(self):
        with open('urls.txt') as fp:
            for line in fp:
                yield Request(line.strip(), callback=self.parse_website)

    def parse_website(self, response):
        hxs = HtmlXPathSelector(response)
        print hxs.select('//div[@class="drkgry"]/text()').extract()

您可以跳过创建完整项目。将其另存为

myspider.py

并运行

scrapy runspider myspider.py

，将

urls.txt

文件放在同一目录中。

scrapy对于此任务来说可能太过苛刻了，除非您希望爬行速度非常快（由于异步特性）、跟随链接、提取许多字段等

一只蜘蛛会像这样

from scrapy.http import Request
from scrapy.selector import HtmlXPathSelector
from scrapy.spider import BaseSpider


class MySpider(BaseSpider):
    name = 'myspider'

    def start_requests(self):
        with open('urls.txt') as fp:
            for line in fp:
                yield Request(line.strip(), callback=self.parse_website)

    def parse_website(self, response):
        hxs = HtmlXPathSelector(response)
        print hxs.select('//div[@class="drkgry"]/text()').extract()

您可以跳过创建完整项目。将其另存为

myspider.py

并运行

scrapy runspider myspider.py

，将

urls.txt

文件放在同一目录中。

scrapy对于此任务来说可能太过苛刻了，除非您希望爬行速度非常快（由于异步特性）、跟随链接、提取许多字段等

一只蜘蛛会像这样

from scrapy.http import Request
from scrapy.selector import HtmlXPathSelector
from scrapy.spider import BaseSpider


class MySpider(BaseSpider):
    name = 'myspider'

    def start_requests(self):
        with open('urls.txt') as fp:
            for line in fp:
                yield Request(line.strip(), callback=self.parse_website)

    def parse_website(self, response):
        hxs = HtmlXPathSelector(response)
        print hxs.select('//div[@class="drkgry"]/text()').extract()

您可以跳过创建完整项目。将其另存为

myspider.py

并运行

scrapy runspider myspider.py

，使

urls.txt

文件位于同一目录中。

您需要做什么？解释目的可能会帮助我们帮助你，你的方法看起来非常简单-你能解释一下它在什么方面不够简单吗？而且，它看起来每个URL都是一行-为什么你说它是两行？你到底需要做什么？解释目的可能会帮助我们帮助你，你的方法看起来非常简单-你能解释一下它在什么方面不够简单吗？而且，它看起来每个URL都是一行-为什么你说它是两行？你到底需要做什么？解释目的可能会帮助我们帮助你，你的方法看起来非常简单-你能解释一下它在什么方面不够简单吗？而且，它看起来每个URL都是一行-为什么你说它是两行？你到底需要做什么？解释目的可能会帮助我们帮助你，你的方法看起来非常简单-你能解释一下它在什么方面不够简单吗？而且，看起来每个URL都是一行-为什么你说它是两行？