Python 从英文文本到UTF-8的文件编码

Python 从英文文本到UTF-8的文件编码,python,Python,如何在Python中将带有CRLF行终止符的非ISO扩展ASCII英文文本转换为utf-8,我认为linux命令unix2dos、dos2unix、iconv会很有帮助 诸如此类 iconv-f拉丁语-1-t UTF-8拉丁语.txt>utf8.txt 我认为linux命令unix2dos、dos2unix、iconv会有帮助 诸如此类 iconv-f拉丁语-1-t UTF-8拉丁语.txt>utf8.txt 如果为输入文件获取原始字节流,则可以将其解码为utf-8。请参见一些Python 3示

如何在Python中将带有CRLF行终止符的非ISO扩展ASCII英文文本转换为utf-8,我认为linux命令unix2dos、dos2unix、iconv会很有帮助

诸如此类

iconv-f拉丁语-1-t UTF-8拉丁语.txt>utf8.txt


我认为linux命令unix2dos、dos2unix、iconv会有帮助

诸如此类

iconv-f拉丁语-1-t UTF-8拉丁语.txt>utf8.txt


如果为输入文件获取原始字节流,则可以
将其解码为
utf-8
。请参见一些Python 3示例


如果为输入文件获取原始字节流,则可以
将其解码为
utf-8
。请参见一些Python 3示例


扩展Jishiyu的答案,您可以使用来标识字符集。比如说

iconv -f `uchardet a_strange_file.txt` -t UTF-8 -o the_output_file.txt a_strange_file.txt

虽然这在python中不起作用。

扩展Jishiyu的答案,但您可以使用它来标识字符集。比如说

iconv -f `uchardet a_strange_file.txt` -t UTF-8 -o the_output_file.txt a_strange_file.txt

虽然这在python中不起作用。

我已经使用该库创建了一个自动化的, 我在NAS上使用它将字幕转换为UTF-8,但它可以用于任何自动转换

请随意使用:)

编辑:

#!/bin/bash
LANGUAGE=czech
TO=utf8
CONVERT="enca -L $LANGUAGE -x $TO"

# Find and onvert
find ./ -type f -name "*.srt" | while read fn; do
  IS_TARGET=`enca "${fn}" | egrep -ow -m 1 'UTF-8|Unrecognized|KOI8-CS2|7bit ASCII|UCS-2|Macintosh Central European'`

    if [ "$IS_TARGET" != "UTF-8" ] &&
       [ "$IS_TARGET" != "UCS-2" ] &&
       [ "$IS_TARGET" != "Macintosh Central European" ] &&
       [ "$IS_TARGET" != "Unrecognized" ] &&
       [ "$IS_TARGET" != "7bit ASCII" ] &&
       [ "$IS_TARGET" != "KOI8-CS2" ]; then

        echo "${fn} ---- Will be converted!"
    # optional backup of original srt
        # cp "${fn}" "${fn}.bak"
        $CONVERT "${fn}"
    fi  

done

我用图书馆创建了一个自动化的, 我在NAS上使用它将字幕转换为UTF-8,但它可以用于任何自动转换

请随意使用:)

编辑:

#!/bin/bash
LANGUAGE=czech
TO=utf8
CONVERT="enca -L $LANGUAGE -x $TO"

# Find and onvert
find ./ -type f -name "*.srt" | while read fn; do
  IS_TARGET=`enca "${fn}" | egrep -ow -m 1 'UTF-8|Unrecognized|KOI8-CS2|7bit ASCII|UCS-2|Macintosh Central European'`

    if [ "$IS_TARGET" != "UTF-8" ] &&
       [ "$IS_TARGET" != "UCS-2" ] &&
       [ "$IS_TARGET" != "Macintosh Central European" ] &&
       [ "$IS_TARGET" != "Unrecognized" ] &&
       [ "$IS_TARGET" != "7bit ASCII" ] &&
       [ "$IS_TARGET" != "KOI8-CS2" ]; then

        echo "${fn} ---- Will be converted!"
    # optional backup of original srt
        # cp "${fn}" "${fn}.bak"
        $CONVERT "${fn}"
    fi  

done

但是我需要一个自动转换为指定格式的python包。但是我需要一个自动转换为指定格式的python包。您可能应该在答案中包含源代码,而不是仅仅链接到它。您可能应该在答案中包含源代码,而不是仅仅链接到它。