从 HTML 到 XHTML 的转换会更改欧元符号,从而阻止正确的 XML 解析

Conversion from HTML to XHTML changes euro symbol, preventing correct XML parsing

我正在从 HTML 文件中提取信息,方法是使用 Java 中的 SAX 对其进行解析。解析程序给了我,它已经在使用 SAX,所以我想保持这种方式。
我要做的是:

  • 我从网站获取 HTML 文件
  • 使用 JTidy 库将其转换为有效的 XML。然而,这个库将所有 € 符号转换为"


    您遇到的问题是编码问题。

    管道中某处的某个工具正在破坏编码,然后该错误被继续执行,在您的输出中创建一个 â

    从外观上看,该网站使用 UTF-8(它也应该),但编码要么被错误声明,要么声明被忽略。

    是否是您的工具链中的工具之一导致了此问题,或者是否是工具的滥用,尚不完全清楚。


    使用 HTML 数字代替实际的欧元符号