Python pdfminer pdf2html:撇号转换为特殊字符

Python pdfminer pdf2html:撇号转换为特殊字符,python,encoding,pdfminer,Python,Encoding,Pdfminer,我使用Python中的pdfminer包将PDF转换为HTML,但它将撇号转换为特殊字符。例如: 这是一个撇号之间的文本™ 应该是: “这是撇号之间的文本” 有没有办法将特殊字符转换回撇号或更改编码之类的?我对字符编码不是很熟悉。也许我可以选择一种编码来转换为HTML?我假设引号是unicode字符“左单引号”(U+2018)和“右单引号”(U+2019)。以utf-8编码,它们是: '\xe2\x80\x98This is a text between apostrophes\xe2\x80\

我使用Python中的pdfminer包将PDF转换为HTML,但它将撇号转换为特殊字符。例如:

这是一个撇号之间的文本™

应该是:

“这是撇号之间的文本”


有没有办法将特殊字符转换回撇号或更改编码之类的?我对字符编码不是很熟悉。也许我可以选择一种编码来转换为HTML?

我假设引号是unicode字符“左单引号”(U+2018)和“右单引号”(U+2019)。以utf-8编码,它们是:

'\xe2\x80\x98This is a text between apostrophes\xe2\x80\x99'
本文中的字节为:

'\xc3\xa2\xe2\x82\xac\xcb\x9cThis is a text between apostrophes\xc3\xa2\xe2\x82\xac\xe2\x84\xa2'
这是每个引号8个字节,这让我怀疑字符串是否被多次编码。我尝试了以下几种组合:

>>> u'\u2018'.encode('utf-8').decode('iso-8859-1').encode('utf-8')
'\xc3\xa2\xc2\x80\xc2\x98'

不幸的是,我无法重现您得到的结果。

我假设引号是unicode字符“左单引号”(U+2018)和“右单引号”(U+2019)。以utf-8编码,它们是:

'\xe2\x80\x98This is a text between apostrophes\xe2\x80\x99'
本文中的字节为:

'\xc3\xa2\xe2\x82\xac\xcb\x9cThis is a text between apostrophes\xc3\xa2\xe2\x82\xac\xe2\x84\xa2'
这是每个引号8个字节,这让我怀疑字符串是否被多次编码。我尝试了以下几种组合:

>>> u'\u2018'.encode('utf-8').decode('iso-8859-1').encode('utf-8')
'\xc3\xa2\xc2\x80\xc2\x98'

不幸的是,我无法重现您得到的结果。

您可以显示用于阅读PDF的代码吗?您可以指定您正在使用的Python版本吗(pdfminer的API在2.x和3.x之间发生了变化)?您可以显示用于读取PDF的代码吗?您能指定您正在使用的Python版本吗(pdfminer的API在2.x和3.x之间发生了变化)?