Java 如何从网站url获取html元素名称
我想获取HTML元素名和属性名(我不想使用Java 如何从网站url获取html元素名称,java,apache-tika,Java,Apache Tika,我想获取HTML元素名和属性名(我不想使用documet.getElementsByTag(“*”或文档。选择(“*”)而不进行硬编码) 是否有机会使用ApacheTika动态获取HTML元素名,如果可能,请提供示例 Document doc=Jsoup.connect("http://seenyc.co/").get(); Elements elements=doc.getAllElements(); for(Element ele:el
documet.getElementsByTag(“*”
或文档。选择(“*”
)而不进行硬编码)
是否有机会使用ApacheTika动态获取HTML元素名,如果可能,请提供示例
Document doc=Jsoup.connect("http://seenyc.co/").get();
Elements elements=doc.getAllElements();
for(Element ele:elements){
String s=ele.tagName();
Attributes n=ele.attributes();
System.out.println(s);
System.out.println(n);
}
HashSet allTags=new HashSet();
Document doc=Jsoup.connect(“http://seenyc.co/).get();
Elements=doc.getAllegements();
用于(元素元素:元素){
字符串s=ele.tagName();
属性n=元素属性();
所有标签。添加;
}
//在这里,您的哈希集将具有来自网站的所有不同标记名
这就是您想要的吗?当然,您可以通过
childNodes
遍历子节点。您可以为我提供获取元素名称的示例代码吗?否,您可以自己搜索API。提示:节点有名称。实际上,我试过使用jsoup,但没有找到任何方法来获取元素名称。我也试过使用DOM,但它期待良好的格式?RTFM!
HashSet<String> allTags=new HashSet<String>();
Document doc=Jsoup.connect("http://seenyc.co/").get();
Elements elements=doc.getAllElements();
for(Element ele:elements){
String s=ele.tagName();
Attributes n=ele.attributes();
allTags.add(s);
}
// here your hashset will have all distinct tag names from website