Character encoding 编码:008D字符?

Character encoding 编码:008D字符?,character-encoding,Character Encoding,问题:我在Windows机器上用记事本用葡萄牙语写了一堆txt文件。其中一些似乎被编码为ANSI。当我在Ubuntu上使用gedit打开这些文件时,其中一些文件包含包含008D的框(参见屏幕截图)。这是在将它们转换为UTF-8之后 当我使用cat、head或more将文件内容打印到终端时,这是同一文件的输出。请注意,从Ultima vez到(包括)奇怪字符的所有内容都不会打印到终端 Olá madrinha! Eu gostava de ir contigo passar férias na

问题:我在Windows机器上用记事本用葡萄牙语写了一堆txt文件。其中一些似乎被编码为ANSI。当我在Ubuntu上使用
gedit
打开这些文件时,其中一些文件包含包含
008D
的框(参见屏幕截图)。这是在将它们转换为UTF-8之后

当我使用
cat
head
more
将文件内容打印到终端时,这是同一文件的输出。请注意,从Ultima vez到(包括)奇怪字符的所有内容都不会打印到终端

Olá madrinha! Eu gostava de ir contigo passar férias na montanha, porque acho que vai ser divertido e há muito tempo que já não vou a tua casa e na últimaar a ter saudades. Madrinha, não sei porque és tão simpática comigo mas para mim, és a melhor madrinha do mundo inteiro.  Madrinha, ajudas-me sempre que preciso e estás sempre a apoiar-me por isso, quero ir a tua casa para te apoiar a ti.  Obrigada madrinha, por me apoiares.  Muito obrigado madrinha
当我使用
atom.io
打开同一个文件时,所有内容看起来都应该是这样的:


问题:最紧迫的问题是:如何在不打开所有文件并手动删除它们的情况下摆脱此角色?其次,这是什么,也就是说,我应该用谷歌搜索什么来解决类似的问题呢?

找到了神奇的关键字(“使用sed删除unicode字符串”)。这就是诀窍::

# Define unicode character you want to remove;
# In this case 008D:
CHARS=$(python -c 'print u"\u008D".encode("utf8")')

# Then run sed on all files in directory
sed -i 's/['"$CHARS"']//g' *