Web scraping 如何用Pentaho解析HTML文件？_Web Scraping_Jsoup_Pentaho - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/tfs/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Web scraping 如何用Pentaho解析HTML文件？_Web Scraping_Jsoup_Pentaho - Fatal编程技术网

Web scraping 如何用Pentaho解析HTML文件？

web-scraping pentaho

Web scraping 如何用Pentaho解析HTML文件？,web-scraping,jsoup,pentaho,Web Scraping,Jsoup,Pentaho,我有一个html文件，我想用一些高级css选择器解析html 我怎样才能做到这一点呢？Pentaho并没有为您提供一种原生的方法来实现这一点，互联网上的大多数答案都会引导您使用正则表达式，这是可以的，但有时您需要更高级的东西在该场景中，您可以使用步骤您可以将java代码与javascript混合使用。在下面的示例中，我使用了library，只需下载jsoup-x.x.x.jar，并放入Pentaho的data integration\lib文件夹重新启动它。接下来，您将使用以下示例代码添加

我有一个html文件，我想用一些高级css选择器解析html

我怎样才能做到这一点呢？

Pentaho并没有为您提供一种原生的方法来实现这一点，互联网上的大多数答案都会引导您使用正则表达式，这是可以的，但有时您需要更高级的东西

在该场景中，您可以使用步骤您可以将java代码与javascript混合使用。

在下面的示例中，我使用了library，只需下载

jsoup-x.x.x.jar

，并放入Pentaho的

data integration\lib

文件夹重新启动它。

接下来，您将使用以下示例代码添加一个

修改的Java脚本值：
doc = org.jsoup.Jsoup.parse(myHTMLString);
myTextOfNodeWithAdvancedSelect = doc.select("body > table:nth-child(3) ").text();

其中，myHTMLString
是您想要解析的字符串（可以通过HTTP客户端
步骤或其他方式获得）
不要忘记在字段表中添加同名的变量，并按如下所示的方式设置变量类型




[tfs]相关文章推荐



                                                        
                                       





随机文章推荐



                                                        
Visual studio 2013 Intellisense for angular.js在javascript文件中不起作用
visual-studio-2013 
Visual studio 2013 VS2013 Web部署从服务器替换错误
visual-studio-2013 
Visual studio 2013 .net远程调试visual studio 2013
visual-studio-2013 
Visual studio 2013 加入“；资源“；至VS2013项目
visual-studio-2013 
Visual studio 2013 Visual Studio 2013网站
visual-studio-2013 
Visual studio 2013 如何在Visual Studio 2013 EXPRESS中以编程方式重新启动调试会话
visual-studio-2013 
Visual studio 2013 无法创建新项目（VS2013和多混合设备应用程序）
visual-studio-2013 
Visual studio 2013 如何验证组件是否与Windows 8.1兼容？
visual-studio-2013 
Visual studio 2013 Visual Studio 2013中的Microsoft.VisualStudio.QualityTools.WebTestFramework.dll在哪里？
visual-studio-2013 
Visual studio 2013 DirectX 11&；Windows SDK：有针对Windows 7的现代项目设置教程吗？
visual-studio-2013windows-7 
Visual studio 2013 是否可以将csproj文件配置为允许任何项目项类型？
visual-studio-2013 
Visual studio 2013 Visual Studio 2013安装错误：.NET 4.5需要启用，但已启用
visual-studio-2013 
Visual studio 2013 Wix自定义安装目录错误2727
visual-studio-2013wix 
Visual studio 2013 VS数据库项目用户创建错误
visual-studio-2013 
Visual studio 2013 '；预期条件'；不存在于类型'；量角器类型'；
visual-studio-2013typescriptprotractor 
Visual studio 2013 使用现有生成时，TFS部署超时
visual-studio-2013 
Visual studio 2013 Visual Studio数据库项目重命名列
visual-studio-2013 
Visual studio 2013 集成LMS的LTI标准
visual-studio-2013moodleasp.net-mvc-5 
Visual studio 2013 无法在Core 1.0版本中打开.sln
visual-studio-2013visual-studio-code 
Visual studio 2013 如何轻松地为大型解决方案中的所有项目和配置启用PDB输出？
visual-studio-2013configuration


                                        

                                        
                                        


                                                
                                                        [web scraping]相关推荐
                                                        
Web scraping 在哪里下载电影数据集？
									Web Scraping
							 
Web scraping 所有Amazon产品ID的列表
									Web Scraping
							 									Scrapy
							 
Web scraping Scrapy不提取数据
									Web Scraping
							 									Scrapy
							 
Web scraping API或刮谷歌的工作
									Web Scraping
							 
Web scraping “如何修复”；在此上下文中不允许映射值“；yaml文件中有错误吗？
									Web Scraping
							 									Yaml
							 
Web scraping 使用IMPORTHTML将数据从易趣导入谷歌电子表格
									Web Scraping
							 									Google Sheets
							 
Web scraping Web从soup文件中抓取相关信息
									Web Scraping
							 
Web scraping 如何使用Apify刮取动态加载列表和单个页面？
									Web Scraping
							 
Web scraping googlefinance中区块链eos的符号是什么（欧元和英镑）
									Web Scraping
							 									Google Sheets
							 
Web scraping 使用BS4抓取购物者评论和评级
									Web Scraping
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Ruby
Robotframework
Django Models
Doctrine Orm
Ios
Unix
Amazon S3
Loops
Synchronization
Reporting Services
Editor
Silverlight 4.0
Asynchronous
Razor
Mediawiki
Gulp
Url
Twitter
Tinymce
Youtube Api
Batch File
Pip
Streaming
Generics
Processing
Postman
Bison
Drupal 6
Network Programming
Macos
Hibernate
Graphviz
Amazon Web Services
Ssis
Tabs
Wix
Subsonic
Math
Ubuntu
Airflow
Optimization
Pytorch
Cocos2d X
Snowflake Cloud Data Platform
Sqlite
Activemq
Django Rest Framework
Google Cloud Platform
Windows Phone 7
Time Complexity
Assembly
Cloud Foundry
Three.js
Awk
Node.js
Vector
Odata
Ssh
Entity Framework
Jsf
Vue.js
Akka
Hybris
Cryptography
Facebook Graph Api
Shiny
Primefaces
Ionic2
Tkinter
Smalltalk
Swift2
Plsql
Puppet
Ruby On Rails
Deployment
Ruby On Rails 4
Dynamics Crm 2011
Polymer
Spring Security
Android Emulator
Stm32
Json
Tcl
Ruby On Rails 3
Algorithm
Struts2
Localization
Joomla
Outlook
Windows
Mule
Parameters
Autocomplete
Sencha Touch
Hadoop
Telerik
Ibm Mobilefirst
Coq
Proxy
Listview
Dns
Webgl
Omnet++
Apache Zookeeper
Eclipse Rcp
Firefox Addon
Azure Ad B2c
C++
Language Agnostic
Xpath
Typo3
Tfs
Debian
Open Source
Cmake
Dotnetnuke
Recursion
Uitableview
Opengl Es
Xcode4
Cocos2d Iphone
Netlogo
Installation
Cookies
Terraform
Pyspark
Scrapy
Openlayers
Asp Classic
Ip
Search
Prestashop
Hazelcast
Github
Google Sheets
Rspec
Ecmascript 6
Merge
Pagination
Push Notification
Ansible
Electron
Laravel 5
Log4j
Google Apps Script
Apache Camel
Sass
Ide
Jersey
Angular
Smtp
Qt4
Tree
Kibana
Flash
Forms
Symfony1
C# 4.0
Plugins
Virtualbox
Windows Phone 8.1
Log4net
Certificate
Asp.net Mvc
Keycloak
Windows Runtime
List
Kotlin
Internationalization
Geolocation
Influxdb
Ocaml
Windows 7
Variables
Google Maps Api 3
Discord.py
Dependency Injection
Jwt
Graphics
Couchdb
Php
Csv
Filter
Tcp
Speech Recognition
Fortran
Jsp
Ruby On Rails 3.2
Bots
Teradata
Curl
Apache Pig
Single Sign On
Tsql
Drools
Shell
Apache Kafka
Google Calendar Api
Reference
Powerbi
Performance


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网