Python pdfminer pdf2html:撇号转换为特殊字符
我使用Python中的pdfminer包将PDF转换为HTML,但它将撇号转换为特殊字符。例如:Python pdfminer pdf2html:撇号转换为特殊字符,python,encoding,pdfminer,Python,Encoding,Pdfminer,我使用Python中的pdfminer包将PDF转换为HTML,但它将撇号转换为特殊字符。例如: 这是一个撇号之间的文本™ 应该是: “这是撇号之间的文本” 有没有办法将特殊字符转换回撇号或更改编码之类的?我对字符编码不是很熟悉。也许我可以选择一种编码来转换为HTML?我假设引号是unicode字符“左单引号”(U+2018)和“右单引号”(U+2019)。以utf-8编码,它们是: '\xe2\x80\x98This is a text between apostrophes\xe2\x80\
这是一个撇号之间的文本™代码>
应该是:
“这是撇号之间的文本”
有没有办法将特殊字符转换回撇号或更改编码之类的?我对字符编码不是很熟悉。也许我可以选择一种编码来转换为HTML?我假设引号是unicode字符“左单引号”(U+2018)和“右单引号”(U+2019)。以utf-8编码,它们是:
'\xe2\x80\x98This is a text between apostrophes\xe2\x80\x99'
本文中的字节为:
'\xc3\xa2\xe2\x82\xac\xcb\x9cThis is a text between apostrophes\xc3\xa2\xe2\x82\xac\xe2\x84\xa2'
这是每个引号8个字节,这让我怀疑字符串是否被多次编码。我尝试了以下几种组合:
>>> u'\u2018'.encode('utf-8').decode('iso-8859-1').encode('utf-8')
'\xc3\xa2\xc2\x80\xc2\x98'
不幸的是,我无法重现您得到的结果。我假设引号是unicode字符“左单引号”(U+2018)和“右单引号”(U+2019)。以utf-8编码,它们是:
'\xe2\x80\x98This is a text between apostrophes\xe2\x80\x99'
本文中的字节为:
'\xc3\xa2\xe2\x82\xac\xcb\x9cThis is a text between apostrophes\xc3\xa2\xe2\x82\xac\xe2\x84\xa2'
这是每个引号8个字节,这让我怀疑字符串是否被多次编码。我尝试了以下几种组合:
>>> u'\u2018'.encode('utf-8').decode('iso-8859-1').encode('utf-8')
'\xc3\xa2\xc2\x80\xc2\x98'
不幸的是,我无法重现您得到的结果。您可以显示用于阅读PDF的代码吗?您可以指定您正在使用的Python版本吗(pdfminer的API在2.x和3.x之间发生了变化)?您可以显示用于读取PDF的代码吗?您能指定您正在使用的Python版本吗(pdfminer的API在2.x和3.x之间发生了变化)?