如何使用Java和jsoup获取HTML文件的编码并提取纯文本内容?

2026-05-21 08:511阅读0评论SEO问题
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计479个文字,预计阅读时间需要2分钟。

如何使用Java和jsoup获取HTML文件的编码并提取纯文本内容?

plaintext使用Maven引入并获取编码jar依赖:groupId: com.ibm.icuartifactId: icu4jversion: 67.1

获取文件编码:package com.lovnx.note.util;import com.ibm.icu.text.CharsetDetector;import com.ibm.icu.text.Ch...

maven引入获取编码的jar

<dependency> <groupId>com.ibm.icu</groupId> <artifactId>icu4j</artifactId> <version>67.1</version> </dependency>

获取文件编码

package com.lovnx.note.util; import com.ibm.icu.text.CharsetDetector; import com.ibm.icu.text.CharsetMatch; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.select.Elements; import java.io.IOException; import java.net.URL; import java.nio.file.Files; import java.nio.file.Path; import java.nio.file.Paths; /** * @author @256g的胃 * @ClassName HtmlParse * @Description * @Date 15:32 2020/7/9 **/ public class HtmlParse { public static String getEncode(String filePath) throws IOException { Path path = Paths.get(filePath); byte[] data = Files.readAllBytes(path); CharsetDetector detector = new CharsetDetector(); detector.setText(data); CharsetMatch match = detector.detect(); String encoding = match.getName(); System.out.println("The Content in " + match.getName()); return encoding; } public static void main(String[] args) throws Exception { System.out.println(HtmlParse.getEncode("/Users/cxt/Downloads/test.html")); } }

上面获取文件编码是为了在服务器根据文件流下载文件时防止文件乱码直接指定编码格式,然后再根据下载下来的文件识别纯文本

Document doc = Jsoup.parse("读取的文本字符串,此处应该是带html标签的");

如何使用Java和jsoup获取HTML文件的编码并提取纯文本内容?

String text = doc.text();

jsoup也支持 直接指定文件的形式去获取纯文本

参考 jsoup.org/

补充知识:java 解析html/读取html内容

jsoup

String 转化

1、Document doc = Jsoup.parse(html);

例如:

String html = "<html><head><title>First parse</title></head>" + "<body><p>Parsed HTML into a doc.</p></body></html>"; Document doc = Jsoup.parse(html); System.out.println(doc.text()); ;

常用api

2、获取节点文本:Document.text();

以上这篇java获取文件编码,jsoup获取html纯文本操作就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持易盾网络。

本文共计479个文字,预计阅读时间需要2分钟。

如何使用Java和jsoup获取HTML文件的编码并提取纯文本内容?

plaintext使用Maven引入并获取编码jar依赖:groupId: com.ibm.icuartifactId: icu4jversion: 67.1

获取文件编码:package com.lovnx.note.util;import com.ibm.icu.text.CharsetDetector;import com.ibm.icu.text.Ch...

maven引入获取编码的jar

<dependency> <groupId>com.ibm.icu</groupId> <artifactId>icu4j</artifactId> <version>67.1</version> </dependency>

获取文件编码

package com.lovnx.note.util; import com.ibm.icu.text.CharsetDetector; import com.ibm.icu.text.CharsetMatch; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.select.Elements; import java.io.IOException; import java.net.URL; import java.nio.file.Files; import java.nio.file.Path; import java.nio.file.Paths; /** * @author @256g的胃 * @ClassName HtmlParse * @Description * @Date 15:32 2020/7/9 **/ public class HtmlParse { public static String getEncode(String filePath) throws IOException { Path path = Paths.get(filePath); byte[] data = Files.readAllBytes(path); CharsetDetector detector = new CharsetDetector(); detector.setText(data); CharsetMatch match = detector.detect(); String encoding = match.getName(); System.out.println("The Content in " + match.getName()); return encoding; } public static void main(String[] args) throws Exception { System.out.println(HtmlParse.getEncode("/Users/cxt/Downloads/test.html")); } }

上面获取文件编码是为了在服务器根据文件流下载文件时防止文件乱码直接指定编码格式,然后再根据下载下来的文件识别纯文本

Document doc = Jsoup.parse("读取的文本字符串,此处应该是带html标签的");

如何使用Java和jsoup获取HTML文件的编码并提取纯文本内容?

String text = doc.text();

jsoup也支持 直接指定文件的形式去获取纯文本

参考 jsoup.org/

补充知识:java 解析html/读取html内容

jsoup

String 转化

1、Document doc = Jsoup.parse(html);

例如:

String html = "<html><head><title>First parse</title></head>" + "<body><p>Parsed HTML into a doc.</p></body></html>"; Document doc = Jsoup.parse(html); System.out.println(doc.text()); ;

常用api

2、获取节点文本:Document.text();

以上这篇java获取文件编码,jsoup获取html纯文本操作就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持易盾网络。