Character encoding 编码：008D字符？_Character Encoding

Character encoding 编码：008D字符？

character-encoding

Character encoding 编码：008D字符？,character-encoding,Character Encoding,问题：我在Windows机器上用记事本用葡萄牙语写了一堆txt文件。其中一些似乎被编码为ANSI。当我在Ubuntu上使用gedit打开这些文件时，其中一些文件包含包含008D的框（参见屏幕截图）。这是在将它们转换为UTF-8之后当我使用cat、head或more将文件内容打印到终端时，这是同一文件的输出。请注意，从Ultima vez到（包括）奇怪字符的所有内容都不会打印到终端 Olá madrinha! Eu gostava de ir contigo passar férias na

问题：我在Windows机器上用记事本用葡萄牙语写了一堆txt文件。其中一些似乎被编码为ANSI。当我在Ubuntu上使用

gedit

打开这些文件时，其中一些文件包含包含008D
的框（参见屏幕截图）。这是在将它们转换为UTF-8之后

当我使用

cat

、

head

或

more

将文件内容打印到终端时，这是同一文件的输出。请注意，从Ultima vez到（包括）奇怪字符的所有内容都不会打印到终端

Olá madrinha! Eu gostava de ir contigo passar férias na montanha, porque acho que vai ser divertido e há muito tempo que já não vou a tua casa e na últimaar a ter saudades. Madrinha, não sei porque és tão simpática comigo mas para mim, és a melhor madrinha do mundo inteiro.  Madrinha, ajudas-me sempre que preciso e estás sempre a apoiar-me por isso, quero ir a tua casa para te apoiar a ti.  Obrigada madrinha, por me apoiares.  Muito obrigado madrinha

当我使用

atom.io

打开同一个文件时，所有内容看起来都应该是这样的：

问题：最紧迫的问题是：如何在不打开所有文件并手动删除它们的情况下摆脱此角色？其次，这是什么，也就是说，我应该用谷歌搜索什么来解决类似的问题呢？

找到了神奇的关键字（“使用sed删除unicode字符串”）。这就是诀窍：：

# Define unicode character you want to remove;
# In this case 008D:
CHARS=$(python -c 'print u"\u008D".encode("utf8")')

# Then run sed on all files in directory
sed -i 's/['"$CHARS"']//g' *