在python 3.5.2中打开具有西里尔字母名称的.doc（x）和.pdf文件_Python_Pdf_Unicode_Utf 8_Ms Word

在python 3.5.2中打开具有西里尔字母名称的.doc（x）和.pdf文件

python pdf unicode utf-8 ms-word

在python 3.5.2中打开具有西里尔字母名称的.doc（x）和.pdf文件,python,pdf,unicode,utf-8,ms-word,Python,Pdf,Unicode,Utf 8,Ms Word,我遇到的问题如下：我正在制作一个python脚本，用于列出在指定目录树中找到的.doc（x）和.pdf文件，并返回它们的页面总数： def allFiles(): page_count = 0 counter = 1 path = pathName() f = open(path + '\\' + 'Spisak svih fajlova.txt', 'w') f.write('Spisak fajlova: ' + '\n') file_list = [] file_path = []

我遇到的问题如下：我正在制作一个python脚本，用于列出在指定目录树中找到的.doc（x）和.pdf文件，并返回它们的页面总数：

def allFiles():
page_count = 0
counter = 1
path = pathName()

f = open(path + '\\' + 'Spisak svih fajlova.txt', 'w')
f.write('Spisak fajlova: ' + '\n')

file_list = []
file_path = []

for folderName, subfolders, files in os.walk(path):
    for filename in files:
        if (filename.endswith('.doc') or filename.endswith('.docx') or filename.endswith('.pdf')):
            file_list.append(filename)
            file_path.append(os.path.join(folderName, filename))

print('\n' + 'Broj fajlova je: %g' % len(file_list) + '\n')
print(file_list)
print()
# print(file_path)

word = win32com.client.Dispatch('Word.Application')

for filename in file_path:
    if filename.endswith('.pdf'):
        pdf = PdfFileReader(open(filename, 'rb'))
        num_pages = pdf.getNumPages()
        page_count += num_pages
        f.write('%g. ' % counter + os.path.basename(filename) + ',' + ' %g' % num_pages + ',' + '\n')
        counter += 1
    elif (filename.endswith('.doc') or filename.endswith('.docx')):
        wordfile = word.Documents.Open(filename)
        wordfile.Repaginate()
        num_pages = wordfile.ComputeStatistics(2)
        page_count += num_pages
        wordfile.Close()
        f.write('%g. ' % counter + os.path.basename(filename) + ',' + ' %g' % num_pages + ',' + '\n')
        counter += 1

word.Quit()
f.write('\n' + 'Ukupan broj stranica je: %g' % page_count)
f.close()

print('\n' + 'Broj stranica je: %g' % page_count)
return page_count

在我试图让它处理一个带有（塞尔维亚）西里尔文标题或非英语字符的文件之前，脚本做得很好

我得到的错误是：

    Traceback (most recent call last):
  File "broj_stranica_2.py", line 165, in <module>
    result()
  File "broj_stranica_2.py", line 160, in result
    allFiles()
  File "broj_stranica_2.py", line 122, in allFiles
    print(file_list)
  File "C:\Anaconda3\lib\encodings\cp852.py", line 19, in encode
    return codecs.charmap_encode(input,self.errors,encoding_map)[0]
UnicodeEncodeError: 'charmap' codec can't encode characters in position 2-10: character maps to <undefined>

我使用的Python版本是3.5.2（与anaconda一起安装）。使用PyPDF2操作.pdf文件，使用win32com操作.doc（x）

我尝试处理的文件的名称是“docx”和“docx”和“pdf”。

答案来自，由@roeland标记，由@J.F.Sebastian回答，谢谢：）

问题不在于打开文件，而是在print语句中，在控制台中打印文件名

然而，如果您确实需要将其打印到控制台，那么对我来说，有效的方法就是使用该模块。只需导入它并通过以下方式启用它：

import win_unicode_console
win_unicode_console.enable()

可能重复的

import win_unicode_console
win_unicode_console.enable()