【jsoup】总结:
jsoup 是一个用于处理 HTML 的 Java 库,它提供了非常方便的 API 来解析、遍历和操作 HTML 文档。无论是从本地文件读取 HTML,还是从网络上抓取网页内容,jsoup 都能高效地完成任务。它的语法简洁,功能强大,广泛应用于网页爬虫、数据提取以及 HTML 修复等场景。
| 特性 | 描述 |
| HTML 解析 | 支持解析 HTML 字符串或 URL,自动修复不完整的 HTML 结构 |
| CSS 选择器 | 提供类似 CSS 选择器的语法来定位元素,如 `select("div.title")` |
| DOM 操作 | 可以遍历和修改 HTML 文档结构,支持添加、删除、替换节点 |
| 数据提取 | 从 HTML 中提取文本、属性、链接等信息,适用于数据抓取 |
| 跨平台 | 基于 Java 编写,可在任何支持 Java 的环境中运行 |
| 开源免费 | 开源项目,社区活跃,文档丰富 |
应用场景:
- 网页内容抓取(爬虫)
- 自动化测试中的 HTML 验证
- 数据清洗与格式化
- 构建自定义的 HTML 处理工具
使用示例(Java):
```java
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class JsoupExample {
public static void main(String[] args) throws Exception {
// 从 URL 加载 HTML
Document doc = Jsoup.connect("https://example.com").get();
// 使用 CSS 选择器获取所有段落
Elements paragraphs = doc.select("p");
// 遍历并打印每个段落的文本
for (Element p : paragraphs) {
System.out.println(p.text());
}
}
}
```
总结:
jsoup 是一个功能全面、易于使用的 HTML 处理库,适合需要解析和操作 HTML 的开发者。无论你是做数据抓取、自动化测试,还是简单的 HTML 操作,jsoup 都是一个值得推荐的工具。


