Php html_实体_解码字符,如&;尤姆尔vs&;尤姆

Php html_实体_解码字符,如&;尤姆尔vs&;尤姆,php,character-encoding,Php,Character Encoding,我正在尝试将html编码的文本翻译成utf-8,并将其放入我的数据库中。 html_entity_decode或iconv与translatit都会丢失大量字符 我已经写了一长串要删除的字符,但是现在我看到&Yuml没有被翻译,但是&Yuml是 我确信还有其他类似的符号也被遗漏了 有没有关于如何最好地处理这些不一致的建议?并确保我正确翻译了每个字符?表格中的任何内容&blah;是(X)HTML中的实体引用;如果您需要确保获得了所有这些模式,请确保最终的UTF-8输出中没有一个包含该模式。你也会发

我正在尝试将html编码的文本翻译成utf-8,并将其放入我的数据库中。 html_entity_decode或iconv与translatit都会丢失大量字符

我已经写了一长串要删除的字符,但是现在我看到&Yuml没有被翻译,但是&Yuml是

我确信还有其他类似的符号也被遗漏了


有没有关于如何最好地处理这些不一致的建议?并确保我正确翻译了每个字符?

表格中的任何内容&blah;是(X)HTML中的实体引用;如果您需要确保获得了所有这些模式,请确保最终的UTF-8输出中没有一个包含该模式。你也会发现很多结尾没有分号的地方(但是有很多误报)


当然,维基百科有一个独特的功能。你可以实现这个(长)列表,看看你是否能在野外找到其他的列表。

谢谢derobert,我希望有一种方法可以做到这一点,而不必经过这么长的列表(希望已经存在)。看起来我将为此进行清理,我将为将来需要它的人发布该功能。