我正试图通过Scrapy刮一个网站。然而,该网站有时速度非常慢,在浏览器中第一次请求时需要15-20秒才能做出响应。不管怎样,有时候,当我尝试使用Scrapy对网站进行爬网时,我总是遇到TCP超时错误。即使网站在我的浏览器上打开的很好。以下是信息:
2017-09-05 17:34:41 [scrapy.downloadermiddlewares.retry] DEBUG: Gave up retrying <GET http://www.hosane.com/result/spec
ia
何乐而不为
我有一个奇怪的问题
看起来Scrapy并没有从一个页面中提取所有现有的URL。即,它查找/提取在此类标记上找到的URL:
有人有自己的解决方案吗
提前谢谢你 我使用firebug查看了您共享的链接,打开了“网络”部分,并意识到这就是您想要的链接:
$ scrapy shell "https://www.knaw.nl/en/members/members/@@faceted_query?b_start[]=0&version=cb403bd0d9fed8ab5ee81b142
我试图循环通过一个csv文件,将每一列推入一个数组,但我不确定如何做到这一点,我知道标记{!COL1}将为我提供所需的数据,但我不知道如何将其保存到一个变量中,我可以使用该变量将其推入数组中
csvToArray = "CODE:";
csvToArray += "SET !DATASOURCE artist.csv" + "\n";
csvToArray += "SET !ERRORIGNORE YES" + "\n";
csvToArray += "SET !DATASOURCE_LINE
我是一个非常业余的数据分析师。我试图从网站上的GIS地图上获取信息:
我想获取地图上图层的原始数据,但网站似乎无法被删除,因为它只是加载图像
有什么建议吗
非常感谢
洛朗
除非您能想出如何说服服务器返回图像以外的任何内容,否则我认为您将陷入困境。但是没有明显的查询参数可供尝试,源代码中也没有任何线索。尝试TZ GIS用户组:谁可能知道从哪里获取该数据的形状文件。或者可能是在OpenStreetMap上——但一些国家对发布电力基础设施数据持谨慎态度……谢谢Spacedman!我看看能不能在那些
我是ApacheNutch的新手,我想知道是否可以对网页的选定区域进行爬网。例如,选择一个特定的div并仅对该div中的内容进行爬网。任何帮助都将不胜感激。谢谢 你必须写一篇文章来扩展你的目标
我估计你会自己做一些事情,比如解析html的特定部分,提取你想要的URL,并将它们添加为大纲链接
HtmlParseFilter实现:(下面的代码给出了大致思路)
希望这会有帮助
如果您不熟悉该插件,我已经编写了一个简单的插件“”,它使用HtmlParseFilter界面将html页面和文本内容保存在本地
我正在尝试安装html5lib。起初,我试图安装最新版本(8或9个9),但它与我的BeautifulSoup冲突,所以我决定尝试旧版本的verison(0.999999,)。我安装了它,但当我尝试使用它时:
>>> with urlopen("http://example.com/") as f:
document = html5lib.parse(f, encoding=f.info().get_content_charset())
我得到一个错误:
Traceba
我正在构建我的第一个Selenium刮板,但我遇到了错误:
线程“main”org.openqa.selenium.SessionNotCreatedException中出现异常:无法创建新的远程会话。所需功能=功能[{ensureCleanSession=true,browserName=internet explorer,版本=,平台=WINDOWS}],所需功能=功能[{}]
关于以下代码:
import java.io.*;
import org.apache.commons.io.F
我正在尝试解决如何提取一段文本的位置,然后使用提取的值根据提取的信息单击链接,作为web scraping imacro的一部分。此页面上的所有链接都具有相同的文本,并由表中不同列中的数字标识。例如,链路A1在TD1中,但唯一标识符在TD2中。为了计算链接位置,我在唯一的数字位置上加4,然后除以6
到目前为止,我的代码是这样的,但是当imacro运行时,它无法使用搜索功能提取位置
SEARCH SOURCE=TXT:{{number}} EXTRACT=POS
SET !VAR1 {{!EXTR
我有一个html文件,我想用一些高级css选择器解析html
我怎样才能做到这一点呢?Pentaho并没有为您提供一种原生的方法来实现这一点,互联网上的大多数答案都会引导您使用正则表达式,这是可以的,但有时您需要更高级的东西
在该场景中,您可以使用步骤您可以将java代码与javascript混合使用。
在下面的示例中,我使用了library,只需下载jsoup-x.x.x.jar,并放入Pentaho的data integration\lib文件夹重新启动它。
接下来,您将使用以下示例代码添加
我们有一个网站,有许多流动路径(登录,注册,付款等)
我们使用Puppeter脚本(通过节点的typescript)来自动测试我们的网站行为(全流程),当我们收到错误(或意外结果)时,我们会发送电子邮件或某种警报
但是我看到人们
例如:
const puppeteer = require('puppeteer');
describe("Jasmine puppeteer", function() {
let browser;
let page;
beforeAll(() =&g
我正在制作一个应用程序,一旦外部网站上有新项目可用,它就会向用户发送通知
目前这个过程是手动的,我自己检查更新并发出通知。然后我更新我的网站以显示新项目
我正试图使用一个网络刮板在我的网站上运行,以提取信息并显示在应用程序中,但即使是手动运行
是否有任何工具可用于自动化此过程
因此,这将:
定期检查外部网站的更新
获取更改并更新我的网站(WordPress)
向用户发送通知
我已经自动化了类似的东西(不包括WordPress部分)。
这也是一个监控新项目(出租公寓)网站的自动化系统:当新公寓可用
我想从玻璃门上刮网。并从中找到一个包裹
我下载了chromedriver的78.0.3904.11版本。但当我运行python文件时,它总是说:
2019-09-29 15:57:25182信息363:main2.py(10991)-配置浏览器
回溯(最近一次呼叫最后一次):
文件“main2.py”,第397行,在
browser=get_browser()
get_浏览器中第368行的文件“main2.py”
浏览器=wd.Chrome(选项=Chrome\u选项)
文件“/usr/loca
=IMPORTFROMWEB是由开发的google sheets的自定义函数
它帮助我将数据从动态html加载到电子表格。(excel或google工作表的任何其他解决方案也适用)
我在装一张桌子。
代码在A6和A15中
但函数返回单元格中的所有内容,而不是将它们分开。splitResult似乎不起作用
splitResult与splitResults的区别是什么?您是否尝试过使用不同于晨星的源代码?Yahoo使用普通的IMPORTHTML()非常容易删除。也就是说,没有自定义函数
我把hti
我正在潜入网络抓取,我希望使用请求库将IP轮换添加到我的python脚本中。由于AWS lambda函数,我还想将此脚本投入生产
从我所读到的内容来看,似乎有两种解决方案:要么使用VPN,要么将代理列表与crawlera、代理旋转器或其他解决方案结合使用。然而,最新的解决方案对我来说太贵了
我做了一些研究,第一个解决方案(VPN)似乎是我最好的解决方案,但我没有找到如何在脚本上实现它,有人能给我一个提示吗
非常感谢:)VPN将更改您电脑的ip,因此您无需更改脚本中的任何内容。您好,谢谢您的回答,
我在JS中使用与cheerio配对的请求,并试图在该页面上找到“添加到购物车”按钮的x和y
这是“添加到购物车”链接,如您所见,链接末尾的查询参数具有某种x和y
这些是图像上的鼠标单击坐标。放0,0可能没问题
假设我有以下页面结构:
在该结构中,我有以下嵌套结构:
我写
offers = response.xpath('//li[@class = "search-page__result"]')
尝试创建一个无误列表。我相信这部分是成功的,因为如果我说
for offer in offers:
print(offer.get())
然后,它将HTML小节打印为字符串
但是如果我说
for offer in offers:
features = offer.x
我正在尝试做一个电子商务网站的网页抓取,并寻找了所有主要的解决方案。我发现最好的是谷歌Chrome的网页抓取扩展。我真的想把网站上所有可用的数据都拿出来
例如,我正试图搜集一个电子商务网站的数据。现在,当我试图创建一个站点地图时,我被困在这一部分,我必须从页面中选择元素。同一个类别A的页面,在向下滚动时包含各种产品,一个类别页面被进一步拆分为第1页、第2页,少数类别也有第3页,依此类推
现在,如果我选择同一页的多个元素,比如说第1页,这完全可以,但是当我尝试从第2页或第3页选择元素时,scrap
我想每4秒刷新一次动态数据,它是一个带有imacro的数字,并用excell或任何其他方式表示该数字随时间的变化
我该怎么做?据我所知,Imacro可以获取数据,但它可以废弃动态数据
代码来自一场篮球比赛,正好是两支球队之间的得分表:
下面是一个游戏桌的示例
<table id="parts" class="parts-first horizontal">
<tbody>
<tr class="odd">
我正在使用Scrapy,在处理超链接时遇到问题。文章将有一个名称,但这将是一个指向另一个页面的超链接。我不知道如何将标记文本嵌入到标记文本中。我正在努力练习
response.css('div.article-body p::text').extract()要使用css通配符选择器
response.css('div.article-body p *::text').extract()
或者,如果您想要div.article-body中的所有内容
response.css('div.artic
我在学校的一个项目中使用的网站不包含静态html,它使用一个函数导入模块,其中包含我需要的html代码,当我使用BeautifulSoup向网站提出请求时,作为回报,我得到的是一个HTML文件,其中包含导入HTML代码的函数的脚本。关于如何访问实际的HTML代码,有什么想法吗
<script>
webpack.import('modules/leaderboard/leaderboard').then(function (module) {
new modul
我目前正试图通过使用BeautifulSoup将值输入到Trait id OMIA id:input框中,从中获取结果。
由于我试图从页面获得响应,我知道我必须使用requests.post。但是,如果我使用response=requests。posthttps://omia.org/search/,params={omia_id:179},我得到403状态码以及消息,说我需要对CSRF cookie做些什么
如何使用.post获得正确的响应?如果您遇到CSRF错误,可能需要包含CSRF头和co
我正在尝试下载这个交互式家庭3D模型的真正离线版本,如本网页所示:
因为它是动态加载的,所以所有基本的离线下载程序都无法工作
我想知道在下载完所有页面内容后,是否有办法提取浏览器的缓存?但所有现代浏览器似乎都缓存在奇怪的加密DB文件中,要将其转换为基本HTML/CSS/JS并不容易
是否有更复杂的工具来提取动态网站?理想情况下,我最终只使用纯HTML、CSS和JS,因为它只是一个HTML5网页,可以将图像加载到画布上。理论上绝对可能
我试图从本页中获取每日温度数据-特别是最低和最高每日温度:
我在html中找到了数据所在的行:
其余每日温度也可在其他li标签中找到:
我试图使用beautiful soup来获取上述数据,但当我尝试使用以下代码时,我并没有从html中获取所有li标记,即使我在网站上检查html时它们都在那里
当我打印生成的temp_cont时,有其他li标记,但不包含每日数据:
我已经尝试过使用其他html解析器,但没有成功——所有其他解析器都输出相同的数据。
我正在研究其他解决方案,比如尝试使用javas
是否有人知道一种方法(免费或付费工具、软件库等)来清除HTML和HTTP响应?我尝试过像Mozenda和Octoparse这样的工具,但它们只在获取HTML时起作用
例如,如果您使用chrome打开一个站点并打开开发者工具,在网络选项卡中,您可以看到流量和响应,我需要用程序捕获相同的数据
我已经尝试过复制post请求并用Postman发送它,但它成功了,但我不知道如何将其自动化(复制发送的HTTP头将是困难的一部分,因为令牌过期了)
任何类型的帮助或提示都会非常有用,谢谢。因此,在阅读了Scra
为了NLP研究的目的,我试图从KBBI获取印度尼西亚词典,我注意到它是一个受保护的页面,需要先进行身份验证登录,下面是我在Scrapy Python中使用的代码片段
import scrapy
import re
import pandas as pd
from scrapy.http import FormRequest
from scrapy import Request
class scrape_kamus_kbbi(scrapy.Spider):
name = "ka
我正在抓取一个可能包含大量开始URL的站点,例如:
http://www.a.com/list_1_2_3.htm
我想填充start\u URL像[list\ud+\ud+\ud+\.htm],
并在爬网期间从URL中提取项目,如[node\ud+\.htm]
我可以使用CrawlSpider来实现此功能吗?
如何在爬网中动态生成开始URL?有两个问题:
1) 是的,您可以通过使用规则来实现此功能,例如
rules =(Rule(SgmlLinkExtractor(allow = ('nod
我已经用了两天,正在寻找如何登录到一个网站,然后刮数据。我看到了这个主题,但不知道如何将其应用到仪表板中
你能解释一下如何做到这一点吗
当我只使用Scrapy时,我会这样实现:
parsed = [FormRequest.from_response(
response,
formdata={
'session[email]': 'email@gmail.com',
'session[
我正在使用HtmlUnit刮取html,但是html格式不正确,几乎没有未关闭的标记,因此HtmlUnit给出了错误的结果。因此,我需要在将其传递给HtmlUnit之前清理它
我该怎么做呢
一个简短的代码片段或教程将不胜感激我相信您可以通过实现自己的代码片段或教程来实现这一点。然后,您必须找到一些HTML库来正确地解决这个问题(如果可能的话)。然后,您所要做的就是确保包装器将内容发送到库中,这样当它到达HTMLUnit的解析器时,HTML内容就已经被处理。Plz提供您的HTMLUnit代码
运行爬虫程序时,它是否遵守robots.txt文件?根据,它确实遵守
你坚持使用robots.txt吗?
是
据报道,事实证明确实如此
你坚持使用robots.txt吗?
是
是的,我们有(也有拔取器和连接器)是的,我们有(也有拔取器和连接器)
我已经删除了一些包含表的站点,如果表本身是类名,大多数站点都使用以下代码。(想法是将数据刮取并放入csv文件中)
当我使用网站()时;第一列返回的信息比我想要的要多,这可能是因为第一列有一个超链接。在此方面的任何帮助都将不胜感激:)嗨!你说的更多信息是什么意思?你有什么要求?更清楚地帮助您。可能只需删除换行就可以了。。。例如:cell.get_text().replace('\n','')?使用这一行从该页面中删除脚本标记,以清除不需要的项目[script.extract()for script
我试图从Trip Advisor酒店中获取“价值”数据的星级评级,但无法使用类名获取数据:
以下是我尝试使用的代码:
review_pages=requests.get("https://www.tripadvisor.com/Hotel_Review-g60745-d94367-Reviews-Harborside_Inn-Boston_Massachusetts.html")
soup3=BeautifulSoup(review_pages.text,'html.parser')
我使用scrapy,start\u url具有以下结构:
https://www.yoox.com/us/men/shoponline/accessories_mc#/dept=men&gender=U&page=1&season=X
Scrapy不加载页面:
scrapy shell https://www.yoox.com/us/men/shoponline/accessories_mc#/dept=men&gender=U&page=1&s
试图在这个卡车销售网站上挖掘新的库存,但似乎无法解决问题
=IMPORTHTML("https://usedtrucks.ryder.com/en/search-used-trucks#/facet-search?g=tractor&r=united-states&group=tandem-axle-sleeper&price=22563&price=30741&f=new-inventory&trant=auto&trant=auto-s
如果您有一个包含多行文本的文本文件file.txt,例如
asd asd
asdasd asdasd
如何选择要刮除第2行asdasd asdasd?然后选择第1行,以此类推
对于(“^”xidel--data=file.txt--extract=$raw^”中的/f%a,是否设置“变量=%a”仅从第一行提取第一个单词,它跳过第一个空格后面的内容?首先,不需要指定--data:
xidel --help | FIND "--data"
--data=<string>
在我们的用户组YT频道中,我们有一个不断增长的开发者视频列表。我们希望我们的频道有一个简单的备份系统。我看不到明显的答案(我们为GCP上的备份支付YT),所以我正在寻求一些脚本/API机制
最佳情况下,我们希望只备份差异,因为旧的视频当然不会改变
但我所发现的只是一种手动机制来下载我们的频道(在90个大的zip文件中…),然后我必须备份到GCP或AWS上
有人能给我指出一个API,我可以在那里抓取我们所有的YT频道视频(我最终会选择cron)?然后我可以写一个脚本把它们移到AWS冰川
我正在尝试使用Beautifulsoup从csv中的URL列表中刮取标题,但它不会在每次遇到不起作用的URL时都继续。有人能帮我吗
下面是我使用的代码
#!/usr/bin/python
# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup #required to parse html
import requests #required to make request
with open('df_urls.csv','r') as f:
嗨,我正在浏览一个网站
我通过以下方法获取页面信息:
$url = "http://www.cleartrip.com/m/flights/results?from=CCU&to=DEL&depart_date=22/06/2012&adults=1&childs=0&infants=0&dep_time=0&class=Economy&airline=&carrier=&x=57&y=16&flex
我有一个客户,他想构建一个面向大学生的web应用程序。他们希望学生能够从有效的班级和老师列表中选择他们所在的班级。网站,如,和都有准确的名单,从许多大学是准确的一年一年
这些公司如何汇总这些数据?这些大学是否有专门的api?或者,这些公司是否每年向这些大学的学生支付输入这些数据的费用 我猜这些公司有某种协议,使用API进行数据交换。如果您没有访问该API的权限,您仍然可以构建一个简单的webscraper来为您提取数据。我们已经为客户做了一些这方面的工作,在每种情况下,我们都必须刮取数据。如果你
我有一个大约36000个URL的列表,范围从到(其中一些页面返回404个错误)
每个页面都包含一个数字(足球俱乐部包含的球队数量)。在HTML文件中,数字显示为5
是否有一种相当简单的方法来编译excel或csv文件,并将URL和相关的团队数量作为一个字段
我曾尝试研究phantomJS,但我的方法只花了10秒就打开了一个网页,我真的不想花100个小时来做这件事。我不知道如何(或者是否有可能)使用诸如import.io之类的刮削工具来完成这项工作
谢谢 对于您想要实现的目标,我可以看到两种解决方
最近我发现了这样的事情。
如果我读得没错,API可用于酒店供应商,他们可以将自己的酒店添加为库存并管理其价格。谷歌利用其信息为特定搜索提供酒店广告
我的问题是-我(我的公司)作为一个用户,是否可以仅仅通过知道酒店的位置和名称来使用酒店价格信息。基本上,通过API获取我们没有添加到谷歌酒店广告中的酒店的价格
在这些API中提供价格的每个API似乎都要求酒店ID,酒店ID似乎是特定于供应商的,现在普通用户可以访问任何酒店价格。如果有,请提示我怎么做。多谢各位
这是我的第一个网页抓取任务。我的任务是清理一个网站
这是一个包含丹麦律师姓名的网站。我的困难在于,我只能根据我在搜索栏中输入的特定名称查询来检索名称。是否有一个在线的网络工具,我可以用来刮网站包含的所有名称?我使用过Import.io之类的工具,但迄今为止没有成功。我对所有这些是如何工作的感到非常困惑。请向下滚动到更新2
该网站强制您输入至少一个搜索参数,因此您可以循环搜索Arbejdsområde列表的所有项目,并对每个项目提出请求。下面的示例显示了如何在Excel VBA open VBE中
我正在努力学习网页抓取工具
因此,如果有人帮助我开始学习,一些教程链接可能会有所帮助
什么时候应该去刮网
rss提要有什么好处
市场上提供的最佳web抓取工具
谢谢 简而言之:“这取决于你想要实现什么。”
如果你有一个RSS提要,里面有你所需要的所有信息,你就不需要去抓取网页
如果您试图从未提供API直接访问数据的网站提取数据,则可以使用刮取以结构化方式从页面提取所需的信息。您可以将数据保存到数据库中并从那里开始工作
例如:在早期的Web 2.0时代,有一些网站刮去了所有其他“航班”页面,
当前,当我从浏览器()访问Google Play商店时,我只能看到:
顶级应用、最畅销应用、最畅销应用、最畅销游戏、最畅销游戏、最畅销游戏
我正在努力搜集数据,以获得Play Store中每种类型应用(即教育、健康、社交等)的最畅销/最卖座应用。我本以为这些数据可以在浏览器Play Store上获得,因为很明显,它可以在Android应用程序Play Store上获得。在web浏览器Play Store上选择类别时,没有选项可查看最畅销/最卖座的应用程序
有许多(商业)API提供每种类型的顶级G
我必须找到所有包含特定部分文本的段落
我觉得是这样的
本段全文如下:
"Open Until: Tuesday November 20, 2018, // 4:00 pm MST"
每次都有一个新的日期,所以我必须给出部分文本,如
element = soup.findAll("p",text="Open Until")
您尚未共享该部分的相关html元素,因此很难为您提供任何解决方案。但是,text=“Open-Until”不能以这种方式工作。它只查找全文而不是部分内容。试试下面的方法
f
我一直在从事网页抓取工作,在一个robots.txt文件中遇到了以下模式
Disallow: /*{{url}}*
Disallow: /*{{imageURL}}*
它们是否意味着不允许我删除任何URL?这看起来像是网站作者犯了一个错误,因为{{URL}和{{imageURL}}可能是应该用实际值替换的变量
根据原始robots.txt规范解释此记录时,所有字符都必须按字面解释,因此不允许使用以下URL:
https://example.com/*{{url}}*
https://exam
您好,我有一个关于我的蜘蛛脚本的问题,我想让我的脚本尽可能可读,我想保存代码尽可能多。是否可以在不同的URL上使用相同的解析
我只想每页刮取10个项目,并将其保存在items.py的不同项目功能中
这是我的密码
def start_requests(self): #I have 3 URL's Here
yield scrapy.Request('https://teslamotorsclub.com/tmc/post-ratings/6/posts', self.parse) #Ur
我正在尝试使用cmdline.execute将html代码存储到名为response的变量中,如下面的代码所示,但无法在scrapy shell中存储和程序代码中断,有人能告诉我如何将原始html存储到变量中吗
进口羊瘙痒
从scrapy导入cmdline
linkedinURL=“”
response=cmdline.execute(“scrapy shell.split()))
打印(响应)您可以这样将原始html存储到变量:
class MySpider(scrapy.Spider):
我正在使用python 3.7中的beautifulsoup进行web抓取。下面的代码成功地抓取了日期、标题、标签,但没有抓取文章的内容。相反,它什么也不给
import time
import requests
from bs4 import BeautifulSoup
from bs4.element import Tag
url = 'https://www.thehindu.com/search/?q=cybersecurity&order=DESC&sort=publi
我想用wget抓取/刮取wordpress网站。
问题:wget将下载文档/链接,尽管它们具有rel=nofollow属性。是的,我允许robots.txt
例如:
wget--mirror--page requisites--adjust extension--convert links--restrict file names=windows--no parent--span hosts--domains=randomscii.wordpress.com,wp.comhttps://rand
我一辈子都想不出如何使用beautiful soup从以下网页中获取隔离源信息:
我一直试着检查标签是否存在,当我知道它确实存在时,它总是返回它不存在。如果我甚至不能证实它的存在,我也不知道该怎么刮
谢谢 数据是从外部URL加载的。要获取隔离\u源,可以使用以下示例:
重新导入
导入请求
从bs4导入BeautifulSoup
url=”https://www.ncbi.nlm.nih.gov/nuccore/JOKX00000000.2/"
soup=BeautifulSoup(reques
上一页 1 2 3 4 5 6 ...
下一页 最后一页 共 30 页