Java JSoup排除表行_Java_Web Scraping_Jsoup

Java JSoup排除表行

java web-scraping

Java JSoup排除表行,java,web-scraping,jsoup,Java,Web Scraping,Jsoup,我使用JSoup选择器从表中获取行。但是有一个问题，因为在网站上td类名是混乱的，因此我需要清理我的值并从列表中排除这些元素。如果我的活动元素包含单词“dancing”，我将如何选择从表中删除整行 String url = "https://golf.procon.org/met-values-for-800-activities/"; Document doc = Jsoup.connect(url).get(); Element table = doc.select(

我使用JSoup选择器从表中获取行。但是有一个问题，因为在网站上td类名是混乱的，因此我需要清理我的值并从列表中排除这些元素。如果我的活动元素包含单词“dancing”，我将如何选择从表中删除整行

    String url = "https://golf.procon.org/met-values-for-800-activities/";
    Document doc = Jsoup.connect(url).get();
    Element table = doc.select("table").get(1);

    Iterator<Element> activity = table.select("td[class=xl75]").iterator();
    Iterator<Element> specification = table.select("td[class=xl72]").iterator();
    Iterator<Element> metAmount = table.select("td[class=xl73], td[class=xl74]").iterator();

stringurl=”https://golf.procon.org/met-values-for-800-activities/";
Document doc=Jsoup.connect（url.get（）；
元素表=单据选择（“表”）.get（1）；
迭代器活动=table.select（“td[class=xl75]”）。迭代器（）；
迭代器规范=table.select（“td[class=xl72]”）。迭代器（）；
Iterator metAmount=table.select（“td[class=xl73]，td[class=xl74]”。Iterator（）；

元素如下所示：

<td class="xl73" style="border-width: medium 0.5pt 0.5pt; border-style: none solid solid; border-color: windowtext; width: 91pt; height: 11.25pt; background-color: transparent;" width="121" height="15">dancing</td>

跳舞

我需要排除像这样的元素，可能还有这一行后面的所有列，直到行的末尾。

非常感谢您的帮助。

要排除包含给定文本的元素，您应该使用

not

和

contains

table.select("td[class=xl75]:not(:contains(dancing))")