Python 如何从ScrapingHub中提取文件?

Python 如何从ScrapingHub中提取文件?,python,scrapy,web-crawler,scrapinghub,Python,Scrapy,Web Crawler,Scrapinghub,我已经部署了一些Scrapy Spider来收集数据,我可以从ScrapingHub下载.csv格式的数据 其中一些爬行器具有文件管道,我使用它将文件(pdf)下载到特定文件夹。有什么方法可以通过平台或API从ScrapingHub检索这些文件吗?尽管我必须阅读ScrapingHubs文档,但我很确定,尽管有文件浏览器,但在爬网和支柱期间没有生成实际文件或忽略了这些文件。。。考虑到这样一个事实,如果您试图部署一个项目,而不是使用与废弃项目()对应的文件,除非您对设置和设置文件进行了一些修改,然后

我已经部署了一些Scrapy Spider来收集数据,我可以从ScrapingHub下载.csv格式的数据


其中一些爬行器具有文件管道,我使用它将文件(pdf)下载到特定文件夹。有什么方法可以通过平台或API从ScrapingHub检索这些文件吗?

尽管我必须阅读ScrapingHubs文档,但我很确定,尽管有文件浏览器,但在爬网和支柱期间没有生成实际文件或忽略了这些文件。。。考虑到这样一个事实,如果您试图部署一个项目,而不是使用与废弃项目()对应的文件,除非您对设置和设置文件进行了一些修改,然后scrapinghub接受您的额外参数)。。。例如,如果您尝试在一个文件中包含大量的起始URL,然后使用real and函数将所有这些内容解析到您的spider中。。。工作起来很有魅力,但scrapinghub并没有考虑到这一点

我假设您知道您可以直接从web界面下载CSV格式或所需格式的文件。。。就我个人而言,我在Python中使用scraping Hub客户端API。。。我相信这三个库在这一点上都是不推荐的,但是你必须混合搭配才能得到功能齐全的脚

我在一个相当知名的色情网站做兼职,我为他们做的是内容聚合,我花了很多时间看了很多淫秽的东西,但对像我这样的人来说,这很有趣。。。希望你在读这篇文章的时候,不要太在意一个变态的LOL能赚这么多钱,对吗?无论如何。。。通过使用scraping hugs API client for python,我能够使用API密钥连接到我的帐户,并随意操作;就我个人而言,我认为有一些限制,没有太多的限制,只是有一件事真正困扰着我,那就是获取项目名称的函数被第一个版本的there客户端库弃用了。。。我希望看到,当我解析我的项目时,爬行器将在其中运行不同作业的项目的名称会导致爬行。。。所以当我第一次和客户乱搞的时候看起来很混乱

更棒的是,我的生活如此甜蜜,当你创建一个项目时,运行你的爬行器,收集你的所有项目,可以直接从web界面下载这些文件,正如我所提到的,但我能做的是将我的输出作为目标,例如给我想要的效果

我在一个网站上爬行,我得到了一个像视频这样的媒体项目,有三样东西你总是需要的。媒体名称或视频标题、可访问视频的URL源或嵌入视频的URL,然后您可以请求您需要的每个实例。。。当然还有与视频媒体相关的标签和类别的元数据

我相信现在输出最多物品的最大爬网是150000个,是国外爬网,大约是15%或17%的杜普拉火灾案例。然后,我使用API客户端通过给定的字典或键值调用每个视频(顺便说一句,不是字典)。。。当然,在我的例子中,我将始终使用所有三个键值,但我可以将RN或键值下的类别或标记定位到相应的位置,并仅输出项目及其总数(意味着仍然输出所有三个项目)脚印只显示符合或匹配我想要的特定字符串或表达式的内容,让我能够非常有效地分割我的内容。在这个特别的scrapy项目中,我只是简单地从所有这些“pronz”打印出或创建一个.m3u播放列表