Python-非英语字符don'；在一种情况下不起作用_Python_Utf 8_Character_Non English

Python-非英语字符don'；在一种情况下不起作用

python utf-8

Python-非英语字符don'；在一种情况下不起作用,python,utf-8,character,non-english,Python,Utf 8,Character,Non English,尽管我试图在英语和母语网站上找到解决问题的方法，但我还是找不到解决办法。我正在查询在线词典以获取翻译的单词，但是非英语字符显示为，例如x86或x84。但是，如果我只打印（相同的非英语字符）字母将以正确的形式显示。我使用Python3.3.2和我从hascharset=UTF-8set中提取单词的站点的HTML源代码。此外，如果我使用例如replace（“x86”，“非英语字符”），我不会得到任何替换，但替换普通字符是有效的。您需要使用\转义： In [1]: s= "\x86" In [2

尽管我试图在英语和母语网站上找到解决问题的方法，但我还是找不到解决办法。我正在查询在线词典以获取翻译的单词，但是非英语字符显示为，例如

x86

或

x84

。但是，如果我只打印（相同的非英语字符）字母将以正确的形式显示。我使用Python3.3.2和我从has

charset=UTF-8

set中提取单词的站点的HTML源代码。

此外，如果我使用例如

replace（“x86”，“非英语字符”）

，我不会得到任何替换，但替换普通字符是有效的。

您需要使用

转义：

In [1]: s= "\x86"

In [2]:  s.replace("\x86","non-english_character")
Out[2]: 'non-english_character'

它起作用了！谢谢事实上，我输入了错误的初始输出-首先它是打印的，例如，

\xc4\x85

而不是

ą

，帮助的是

替换（\\xc4\\xc5）

-所以它首先是用斜杠打印的，在替换中，我只是在

xc4

和

x85

之前又添加了一个，所以它最终打印出

ą

，但我仍然想知道我的“解决方案”是如何有效的。我必须为每个非英语字符执行类似的替换函数，有没有更优雅的方法来避免像/x86/x85这样的输出？想更改一些设置吗？这样您就可以将

\xc4\x85

作为输出了？如果您添加了代码和站点，可能会有所帮助。

“\xc4\x85.encode”（“拉丁语-1”）.decode（）

outputI稍后将尝试添加代码并尝试其他建议，但现在，你能告诉我这样一个从给定网站的HTML源代码中提取一些数据的程序是否可以用于商业用途，即从中赚钱是否合法？从技术上讲，这样的HTML源文件对每个人都是可用的，该程序只是加快了过程。只是好奇。