Character encoding 编码:008D字符?
问题:我在Windows机器上用记事本用葡萄牙语写了一堆txt文件。其中一些似乎被编码为ANSI。当我在Ubuntu上使用Character encoding 编码:008D字符?,character-encoding,Character Encoding,问题:我在Windows机器上用记事本用葡萄牙语写了一堆txt文件。其中一些似乎被编码为ANSI。当我在Ubuntu上使用gedit打开这些文件时,其中一些文件包含包含008D的框(参见屏幕截图)。这是在将它们转换为UTF-8之后 当我使用cat、head或more将文件内容打印到终端时,这是同一文件的输出。请注意,从Ultima vez到(包括)奇怪字符的所有内容都不会打印到终端 Olá madrinha! Eu gostava de ir contigo passar férias na
gedit
打开这些文件时,其中一些文件包含包含008D
的框(参见屏幕截图)。这是在将它们转换为UTF-8之后
当我使用cat
、head
或more
将文件内容打印到终端时,这是同一文件的输出。请注意,从Ultima vez到(包括)奇怪字符的所有内容都不会打印到终端
Olá madrinha! Eu gostava de ir contigo passar férias na montanha, porque acho que vai ser divertido e há muito tempo que já não vou a tua casa e na últimaar a ter saudades. Madrinha, não sei porque és tão simpática comigo mas para mim, és a melhor madrinha do mundo inteiro. Madrinha, ajudas-me sempre que preciso e estás sempre a apoiar-me por isso, quero ir a tua casa para te apoiar a ti. Obrigada madrinha, por me apoiares. Muito obrigado madrinha
当我使用atom.io
打开同一个文件时,所有内容看起来都应该是这样的:
问题:最紧迫的问题是:如何在不打开所有文件并手动删除它们的情况下摆脱此角色?其次,这是什么,也就是说,我应该用谷歌搜索什么来解决类似的问题呢?找到了神奇的关键字(“使用sed删除unicode字符串”)。这就是诀窍::
# Define unicode character you want to remove;
# In this case 008D:
CHARS=$(python -c 'print u"\u008D".encode("utf8")')
# Then run sed on all files in directory
sed -i 's/['"$CHARS"']//g' *