Java中使用jsoup进行HTML解析和提取

=Start=

缘由：

在整理如何使用Java发起HTTP请求的过程中，发现了一篇内容非常详细的文章，其在最后附带了一个「Parsing and extracting HTML」的内容，刚好是我比较感兴趣和需要的内容，所以实际验证测试了一遍之后在此整理出来，方便以后参考和使用。

正文：

参考解答：

What are the pros/cons of leading HTML parsers in Java

几乎所有已知的HTML解析器都实现了W3C的DOM API（是JAXP API(Java提供的用于进行XML处理的API)的一部分），并返回给你一个org.w3c.dom.Document文档对象——可直接被JAXP API使用。主要的不同之处在于各自的特性上面。

一般来说：

HTML格式的整理——JTidy, NekoHTML, TagSoup 和 HtmlCleaner；
HTML单元测试工具——HtmlUnit；
DOM树遍历、HTML元素提取——Jsoup；

现在（各HTML解析器）各自的优缺点应该已经足够清楚了。如果你只是想使用标注的JAXP API进行遍历，使用第一类即可（具体根据你的需求和它们的各自特点还有库的健壮性进行选择）；如果要对HTML做单测，请选择第二类HtmlUnit；如果要从HTML中提取特定的数据，选择Jsoup吧。

How to scan and extract a webpage in Java

package com.ixyzero.learn.utils;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

/**
 * Created by ixyzero on 2019/5/11.
 */
public class JsoupTest {
    public static void main(String[] args) throws Exception {
        String url = "https://stackoverflow.com/questions/2835505";
        Document document = Jsoup.connect(url).get();

        String question = document.select("#question .post-text").text();
        System.out.println("Question: " + question);
        System.out.println();

        Elements answerers = document.select("#answers .user-details a");
        for (Element answerer : answerers) {
            System.out.println("Answerer: " + answerer.text());
        }
        System.out.println();


        // 使用链式的 .userAgent/.timeout 进行特定设置
        Document doc = Jsoup.connect("https://www.google.com.hk/search?num=100&site=&source=hp&q=filetype%3Ajsp&oq=filetype%3Ajsp")
                            .userAgent("Googlebot/2.1 (+http://www.googlebot.com/bot.html)")
                            .timeout(5000)
                            .get();
        // System.out.println(doc);
        // System.out.println(doc.getElementsByTag("cite"));

        Elements element = doc.getElementsByTag("cite");
        for (Element e: element) {
            System.out.println(e.text());
        }
    }

}

更多更详细的用法可以参考「jsoup的官方文档」以及「JSoup快速入门」一文，根据自己的实际需求进行选用。

参考链接：

=END=

14 5 月, 2019

Docker

KnowledgeBase, Programing

HTML, HTMLParser, Java, jsoup