Java 沃森内容分析:如何使网络爬虫插件获取数据,发送帖子请求?
我有WCA 3.5.0服务器,我需要使用网络爬虫从站点获取文档。 问题在于,我必须向站点发送POST请求以获取一些数据(最初,我的站点只包含一个表单,其中包含一些字段和提交按钮以将请求发送到服务器)。因此,我的POST请求主体应该是这样的:Java 沃森内容分析:如何使网络爬虫插件获取数据,发送帖子请求?,java,web-crawler,http-post,Java,Web Crawler,Http Post,我有WCA 3.5.0服务器,我需要使用网络爬虫从站点获取文档。 问题在于,我必须向站点发送POST请求以获取一些数据(最初,我的站点只包含一个表单,其中包含一些字段和提交按钮以将请求发送到服务器)。因此,我的POST请求主体应该是这样的: {"DateFrom":"2000-01-01T00:00:00","DateTo":"2030-01-01T23:59:59","Bundles":[{"Name":"the test name that i passed","Type":-1}],"Co
{"DateFrom":"2000-01-01T00:00:00","DateTo":"2030-01-01T23:59:59","Bundles":[{"Name":"the test name that i passed","Type":-1}],"Company":[],"Transaction":[],"Text":""}
我在考虑为网络爬虫制作一个预取插件。
但从我发现的文档来看,这几乎是不可能的:
“参数数组中传递给用户的第一个元素([0])
插件是PrefetchPluginArg1类型的对象,它是一个接口
它扩展了接口PrefetchPluginArg。这是唯一的
参数和传递给预取的唯一参数类型
插件。”
PrefetchPluginArg1类只有getHTTPHeader()、setHTTPHeader()、getURL()、setURL()、doFetch()、setFetch(),
其中:
- getHTTPHeader方法返回一个字符串,其中包含 爬虫程序发送的HTTP请求头的内容,以便 爬虫可以下载文档李>
- getURL方法返回文档的URL(字符串形式),该文档 爬虫下载。您可以使用此URL来决定文档是否 需要请求标头中的其他信息,例如 饼干