Python 3.x 如何使用类以特定元素为目标_Python 3.x_Web Scraping_Beautifulsoup_Scrapy - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/python-3.x/16.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 3.x 如何使用类以特定元素为目标_Python 3.x_Web Scraping_Beautifulsoup_Scrapy - Fatal编程技术网

Python 3.x 如何使用类以特定元素为目标

python-3.x web-scraping scrapy

Python 3.x 如何使用类以特定元素为目标,python-3.x,web-scraping,beautifulsoup,scrapy,Python 3.x,Web Scraping,Beautifulsoup,Scrapy,我正在尝试刮取这个名为startup India的网站，其中我刮取一家公司的URL和名称，但要刮取URL和名称，我必须以他们为目标，但我不知道哪种方法是正确的，请帮助 import logging from bs4 import BeautifulSoup import requests import csv import scrapy class WebCrawlerPipeline(object): def process_item(self, item, spider):

我正在尝试刮取这个名为startup India的网站，其中我刮取一家公司的URL和名称，但要刮取URL和名称，我必须以他们为目标，但我不知道哪种方法是正确的，请帮助

import logging from bs4 import BeautifulSoup import requests import csv import scrapy class WebCrawlerPipeline(object): def process_item(self, item, spider): return item class ProfileCrawlerPipeline(object): def open_spider(self, spider): self.urls = list() self.companies = list() pass def process_item(self, item, spider): item = dict(item) url = item.get('item') # yield scrapy.Request(url=url, callback=self.parse_content) # logging.info(url) r = requests.get(url).content soup = BeautifulSoup(r, 'html.parser') # url_txt = soup.select('div.container') container = soup.find("div", class_="container") logging.info(container) # # self.write_to_csv() def parse_content(self, response): logging.info(response.url) def close_spider(self, spider): pass def write_to_csv(self): pass

代码将受到欢迎
您不需要将BeautifulSoup与Scrapy一起使用

我建议您看看Scrapy教程并使用Xpath或CSS选择器：
我们建议使用更简单的爬虫框架。这里有一个例子。仅供参考，这是刮（刮，刮，刮，刮）不是刮我明白你的意思，即使我习惯刮，非常愿意使用刮，但问题是当我提出请求时，刮没有启动回调，因为我使用的是beautifulsoup4。

[web scraping]相关文章推荐

Web scraping 黑客新闻：如何提取评论层次结构 web-scraping

Web scraping 维基百科pdf生成器，如何解决；“宽桌”；问题 web-scraping

Web scraping 从网页中提取数据 web-scraping

Web scraping 如何才能找到安全地抓取或爬行网站而不被阻止的速率？ web-scraping scrapy

Web scraping 在windows cmd中安装scrapinghub splash web-scraping scrapy

Web scraping 使用Beautifulsoup在python中刮取下一页 web-scraping

Web scraping Scrapy：检查标记内部是否有另一个标记，并刮除两个元素 web-scraping scrapy

Web scraping 获取一个特定的标签，标签上有一部分字符串 web-scraping

Web scraping excel中的列表数据抓取 web-scraping

Web scraping 如何使用bs4从网站中刮取相同级别的元素 web-scraping

Web scraping 什么'；删除此网站的xpath代码是什么？ web-scraping xpath

Web scraping 如何从hcaptcha中找到回调函数名？ web-scraping

随机文章推荐

Cluster computing 在不立即提交作业的情况下保留群集节点的最佳方法是什么？ cluster-computing

Cluster computing 从web日志中对类别进行评分 cluster-computing

Cluster computing Spark流计算作业划分为不同的节点 cluster-computing apache-spark

Cluster computing 有副本时为什么要使用碎片 cluster-computing

Cluster computing 如何在Postgresql中设置集群？ cluster-computing

Cluster computing MQ集群'；的发送方通道将进入重试状态，反之亦然 cluster-computing ibm-mq

Cluster computing MarkLogic Ops Direct：需要外部签名的服务器证书 cluster-computing marklogic

[python 3.x]相关推荐

Tags

Cloud Foundry Visual Studio 2010 Pagination .net 4.0 Gstreamer Scala .htaccess Uiview Gremlin Playframework Networking Nativescript Reference Smalltalk Kubernetes Asynchronous Facebook Graph Api Sharepoint 2010 Tfs Composer Php Snmp Installation Gridview Google Apps Script Curl Javascript Calendar Sails.js Jvm Llvm Apache2 Visual C++ Deep Learning Hibernate Smtp Jwt Url Process Java 8 Ibm Cloud Google Cloud Dataflow Azure Devops Mediawiki Office365 Jsp Asp.net Core Grid Spring Mvc Bison User Interface Vim Datetime Keyboard Android Ndk Antlr4 Phantomjs Usb Data Binding Log4net Paypal X86 Ecmascript 6 Appium Outlook Jqgrid Openlayers 3 Image Processing Import Dart Mapbox Tableau Api Liferay Mdx If Statement Gps Sqlite Mysql Dynamic Maven 2 Applescript Terraform Razor Swiftui Binding Julia Itext Windows 7 Apache Camel Microsoft Graph Api Exchange Server Operating System Azure Active Directory Scroll Swing Windows Phone 8.1 Discord Windows 8 Opencl Sencha Touch 2 Oauth 2.0 Continuous Integration Lambda Internationalization Google Cloud Platform Web Kentico Wpf Cloud Phpstorm Ember.js Linq Vb6 Passwords Jenkins Sublimetext3 Ssrs 2008 Localization Cordova Windows Phone Gatsby Module Visual Studio 2012 Gruntjs Angular Material Ruby On Rails 3.1 Jquery Mobile Github Navigation Lisp Cors Debian Wolfram Mathematica Actionscript Xcode4 Scrapy Sql Server Sip Timer Mvvm Iphone Ignite Facebook Colors Drools Database Design Opencv Amazon Redshift Redux Gulp Ruby Opengl Url Rewriting Notifications Debugging Object Express Odata Push Notification Twitter Shiny Protractor Arm Shopify Linker Keras Monitoring Crystal Reports Ibm Mq Ftp Svn Azure Functions Clojure Aframe Robotframework Automated Tests Docusignapi Hadoop Api Plsql Fluent Nhibernate Graphql Internet Explorer 8 Vector Telegram Typescript Dynamics Crm Speech Recognition Winapi Neo4j Wcf Tinymce Laravel 4 Optimization Antlr Bootstrap 4 System Verilog Sql Server 2008 R2 Spring Security Seo Emacs Parsing

Copyright © 2024. All Rights Reserved by - Fatal编程技术网