Python 3.x 将UTF-8（文字）转换为Umlaute_Python 3.x_Utf 8

Python 3.x 将UTF-8（文字）转换为Umlaute

python-3.x utf-8

Python 3.x 将UTF-8（文字）转换为Umlaute,python-3.x,utf-8,Python 3.x,Utf 8,我用刮板从Facebook上获取评论。不幸的是，它将德语中的Umlaute“Ä”“Ü”“Ö”转换为UTF-8文本，如“\xc3\xb6”。我现在尝试了不同的方法来重新转换文件，但不幸的是，我所做的任何事情都没有成功 for file in glob.glob("Comments/*.csv"): rawfile=csv.reader(open(file,"rU", encoding = "ISO-8859-1")) new_tablename=file +"converted"

我用刮板从Facebook上获取评论。不幸的是，它将德语中的Umlaute“Ä”“Ü”“Ö”转换为UTF-8文本，如“\xc3\xb6”。我现在尝试了不同的方法来重新转换文件，但不幸的是，我所做的任何事情都没有成功

for file in glob.glob("Comments/*.csv"):
    rawfile=csv.reader(open(file,"rU", encoding = "ISO-8859-1"))
    new_tablename=file +"converted"
    new_table=csv.writer(open("%s.csv" % (new_tablename),"w"))
    for row in rawfile:
        for w in row:
            a=str(w)
            b=a.encode('latin-1').decode('utf-8')
            print(b)
        new_table.writerow(row)

另一种方法是创建包含所有文字和德语字符的词典，但这种方法也不起作用

import csv, glob, re
print("Start")
converter_table=csv.reader(open("LiteralConvert.csv","rU"))
converterdic={}
for line in converter_table:
    charToFind=line[2]
    charForReplace=line[1]
    print(charToFind+" will be replaced by "+charForReplace)
    converterdic[charToFind] = charForReplace


print(converterdic)

for file in glob.glob("Comments/*.csv"):
        rawfile=csv.reader(open(file,"rU", encoding = "ISO-8859-1"))
    print("opening: "+ file)
    new_tablename=file +"converted"
    new_table=csv.writer(open("%s.csv" % (new_tablename),"w"))
    print("created clean file: " + new_tablename)
    for row in rawfile:
        for w in row:
            #print(w)
            try:
                w.translate(converterdic)
            except KeyError:
                continue
        new_table.writerow(row)

但是，如果我这样做的话，第一个解决方案很好：

s="N\xc3\xb6 kein Schnee von gestern doch der beweis daf\xc3\xbcr das L\xc3\xbcgenpresse existiert."
b = s.encode('latin-1').decode('utf-8')

print(b)

但当我解析文件中的字符串时就不是了。

我已经阅读了所有的注释和其他答案，试图了解问题在哪里，以及您面临的问题的核心是什么。这是我经过深思熟虑后得出的结论：

编码/解码字符串的常见核心问题是对所看到内容的解释。在这方面，非常重要的是要理解：

如果您有Python（或文件）中的字符串/文本，您永远无法看到它的“原样”。

并且必须首先决定编码/解码方案

换句话说，您总是通过给定编码/解码的过滤器查看您所查看的内容，如果编码/解码方案发生更改，它会更改您所查看的内容，而不会更改您所查看的内容
让我们再说一遍，换言之，换言之：要查看文件中的字符串或文本，必须使用某种工具进行可视化…并且…这种可视化工具使用某种有关编码的信息（隐式使用默认值，或通过敦促您指定应使用哪种编码来显式使用），因此没有编码/解码就没有视觉化。理解这一点会对你如何思考你所看到的以及你在看什么产生巨大影响。这就像电影中的3D眼镜：戴上它们不会改变屏幕上的内容，但会改变你的视觉方式
因此，如果您有一个UTF-8编码的字符串，带有非ASCII字符，并使用显示UTF-8字符的工具查看该字符串，您会看到德文Umlaute原样，但如果您使用用于显示二进制字符串的工具查看同一字符串，则ti将不会显示其中的非ASCII字符（它是二进制的，因此它逐字节可视化，并且在不了解所用代码的情况下不能显示非ASCII）或UTF-8解释（Umlaut是两个字节，但可视化工具逐字节显示）-它将以“\xc3\xb6”的形式显示非ASCII字符“，但是……在字符串/文件中，没有8个字节-只有两个字节“0xC3”和“0xB6”。这就是为什么会出现这样的情况，例如print（）命令，以便向您显示字节的用法”\xc3\xb6”
希望你现在明白我在说什么了（这是一种经过长时间/几天/几个月的困惑后的启蒙体验），是吗
下面是一段摘录，您可以在以下内容中找到字母“ö”：

“U+00F6öc3 b6öö拉丁文小写字母O随以DIAERESIS”“”
我已经阅读了所有的评论和其他答案，试图了解问题所在，以及您面临的问题的核心。在对其进行了许多深入思考后，我得出了以下结论：
编码/解码字符串的常见核心问题是对所见内容的解释。在这种情况下，理解以下内容非常重要：
如果您有Python（或文件）中的字符串/文本，您永远无法看到它的“原样”。
并且必须首先决定编码/解码方案
换句话说，您总是通过给定编码/解码的过滤器查看您所查看的内容，如果编码/解码方案发生更改，它会更改您所查看的内容，而不会更改您所查看的内容
让我们再说一遍，换言之，换言之：要查看文件中的字符串或文本，必须使用某种工具进行可视化…并且…这种可视化工具使用某种有关编码的信息（隐式使用默认值，或通过敦促您指定应使用哪种编码来显式使用），因此没有编码/解码就没有视觉化。理解这一点会对你如何思考你所看到的以及你在看什么产生巨大影响。这就像电影中的3D眼镜：戴上它们不会改变屏幕上的内容，但会改变你的视觉方式
因此，如果您有一个UTF-8编码的字符串，带有非ASCII字符，并使用显示UTF-8字符的工具查看该字符串，您会看到德文Umlaute原样，但如果您使用用于显示二进制字符串的工具查看同一字符串，则ti将不会显示其中的非ASCII字符（它是二进制的，因此它逐字节可视化，并且在不了解所用代码的情况下不能显示非ASCII）或UTF-8解释（Umlaut是两个字节，但可视化工具逐字节显示）-它将以“\xc3\xb6”的形式显示非ASCII字符“，但是……在字符串/文件中，没有8个字节-只有两个字节“0xC3”和“0xB6”。这就是为什么会出现这样的情况，例如print（）命令，以便向您显示字节的用法”\xc3\xb6”
希望你现在明白我在说什么了（这是一种经过长时间/几天/几个月的困惑后的启蒙体验），是吗
下面是一段摘录，您可以在以下内容中找到字母“ö”：

“U+00F6öc3 b6ö；拉丁文小写字母O随分音符”“”
您实际上是在做
b'\xc3\xb6'。解码（'ISO-8859-1'）。编码（'LATIN-1'）。解码（'utf8'）

rawfile = csv.reader(open(file,"rU", encoding = "ISO-8859-1")) ... a = str(w) b = a.encode('latin-1').decode('utf-8')

[utf 8]相关文章推荐

UTF-8编码问题（最后一个unicode字符是什么） utf-8 internationalization

Utf 8 土耳其语翻译文件编码不正确 utf-8 character-encoding xpages

将代码点转换为UTF-8的更优雅、更简单的方法 utf-8 lua

如何向SmartGWT应用程序添加UTF-8支持 utf-8

经典ASP和UTF-8 utf-8 character-encoding asp-classic

Utf 8 如何在OCaml中创建lambda字符？ utf-8 ocaml

Utf 8 Lua string.format使用UTF8字符 utf-8 lua

Utf 8 如何显示正确渲染的德语字符？ utf-8

随机文章推荐

Email 使用swiftmailer和google帐户发送的邮件是否在邮件的任何地方显示使用了swiftmailer？ email symfony gmail

Email 在Jira 4.1电子邮件通知中配置电子邮件发件人地址 email notifications jira

Email 清除Mac OS X 10.6/PHP Mail（）上的MAMP（后缀？）邮件队列循环失败 email php

Email 更改JBoss邮件服务的默认配置时出现问题 email jakarta-ee jboss

Email Magento自动发送跟踪电子邮件 email magento

Email 是否可以使用gmail smtp配置在sharepoint 2010中发送邮件 email sharepoint-2010

Email 哪些电子邮件彼此等效？ email

Email Outlook向数据库发送电子邮件 email outlook

Email JavaMail客户端读取新消息，但不读取现有消息 email

Email 如何修复发送泰语文本电子邮件的问题？ email asp-classic

Email 如何根据不同的规则创建工作流 email salesforce workflow

Email 发送邮件的VB脚本 email batch-file vbscript

Email 用C#发送邮件，无需密码 email c#-4.0

Email Alfresco activiti mail.execute花费太多时间 email workflow alfresco

Email 正在将Testlink与Gmail SMTP连接 email smtp gmail

Email 通过Excel VBA通过outlook发送电子邮件-将字符串转换为货币格式或百分比 email excel vba

Email 如何向同一地址发送多封电子邮件？我想知道如何向同一地址发送多封电子邮件。我需要它来为一个激进主义组织创建一个电子邮件活动系统。没有任何营销的东西。人们将编写自己的内容，单击“发送”，电子邮件将发送到一组特定的地址。发件人不必在电子邮件内容之外添加任何内容 email

Email 转义电子邮件地址-最佳实践 email encoding

Email HTML编码新闻稿 email

Email DKIM不根据同一域上的发送主机进行验证 email