Python 如何从ScrapingHub中提取文件？_Python_Scrapy_Web Crawler_Scrapinghub

Python 如何从ScrapingHub中提取文件？

python scrapy web-crawler

Python 如何从ScrapingHub中提取文件？,python,scrapy,web-crawler,scrapinghub,Python,Scrapy,Web Crawler,Scrapinghub,我已经部署了一些Scrapy Spider来收集数据，我可以从ScrapingHub下载.csv格式的数据其中一些爬行器具有文件管道，我使用它将文件（pdf）下载到特定文件夹。有什么方法可以通过平台或API从ScrapingHub检索这些文件吗？尽管我必须阅读ScrapingHubs文档，但我很确定，尽管有文件浏览器，但在爬网和支柱期间没有生成实际文件或忽略了这些文件。。。考虑到这样一个事实，如果您试图部署一个项目，而不是使用与废弃项目（）对应的文件，除非您对设置和设置文件进行了一些修改，然后

我已经部署了一些Scrapy Spider来收集数据，我可以从ScrapingHub下载.csv格式的数据

其中一些爬行器具有文件管道，我使用它将文件（pdf）下载到特定文件夹。有什么方法可以通过平台或API从ScrapingHub检索这些文件吗？

尽管我必须阅读ScrapingHubs文档，但我很确定，尽管有文件浏览器，但在爬网和支柱期间没有生成实际文件或忽略了这些文件。。。考虑到这样一个事实，如果您试图部署一个项目，而不是使用与废弃项目（）对应的文件，除非您对设置和设置文件进行了一些修改，然后scrapinghub接受您的额外参数）。。。例如，如果您尝试在一个文件中包含大量的起始URL，然后使用real and函数将所有这些内容解析到您的spider中。。。工作起来很有魅力，但scrapinghub并没有考虑到这一点

我假设您知道您可以直接从web界面下载CSV格式或所需格式的文件。。。就我个人而言，我在Python中使用scraping Hub客户端API。。。我相信这三个库在这一点上都是不推荐的，但是你必须混合搭配才能得到功能齐全的脚

我在一个相当知名的色情网站做兼职，我为他们做的是内容聚合，我花了很多时间看了很多淫秽的东西，但对像我这样的人来说，这很有趣。。。希望你在读这篇文章的时候，不要太在意一个变态的LOL能赚这么多钱，对吗？无论如何。。。通过使用scraping hugs API client for python，我能够使用API密钥连接到我的帐户，并随意操作；就我个人而言，我认为有一些限制，没有太多的限制，只是有一件事真正困扰着我，那就是获取项目名称的函数被第一个版本的there客户端库弃用了。。。我希望看到，当我解析我的项目时，爬行器将在其中运行不同作业的项目的名称会导致爬行。。。所以当我第一次和客户乱搞的时候看起来很混乱

更棒的是，我的生活如此甜蜜，当你创建一个项目时，运行你的爬行器，收集你的所有项目，可以直接从web界面下载这些文件，正如我所提到的，但我能做的是将我的输出作为目标，例如给我想要的效果

我在一个网站上爬行，我得到了一个像视频这样的媒体项目，有三样东西你总是需要的。媒体名称或视频标题、可访问视频的URL源或嵌入视频的URL，然后您可以请求您需要的每个实例。。。当然还有与视频媒体相关的标签和类别的元数据

我相信现在输出最多物品的最大爬网是150000个，是国外爬网，大约是15%或17%的杜普拉火灾案例。然后，我使用API客户端通过给定的字典或键值调用每个视频（顺便说一句，不是字典）。。。当然，在我的例子中，我将始终使用所有三个键值，但我可以将RN或键值下的类别或标记定位到相应的位置，并仅输出项目及其总数（意味着仍然输出所有三个项目）脚印只显示符合或匹配我想要的特定字符串或表达式的内容，让我能够非常有效地分割我的内容。在这个特别的scrapy项目中，我只是简单地从所有这些“pronz”打印出或创建一个.m3u播放列表