Python pdfminer pdf2html：撇号转换为特殊字符_Python_Encoding_Pdfminer

Python pdfminer pdf2html：撇号转换为特殊字符

python encoding

Python pdfminer pdf2html：撇号转换为特殊字符,python,encoding,pdfminer,Python,Encoding,Pdfminer,我使用Python中的pdfminer包将PDF转换为HTML，但它将撇号转换为特殊字符。例如：这是一个撇号之间的文本™ 应该是： “这是撇号之间的文本” 有没有办法将特殊字符转换回撇号或更改编码之类的？我对字符编码不是很熟悉。也许我可以选择一种编码来转换为HTML？我假设引号是unicode字符“左单引号”（U+2018）和“右单引号”（U+2019）。以utf-8编码，它们是： '\xe2\x80\x98This is a text between apostrophes\xe2\x80\

我使用Python中的pdfminer包将PDF转换为HTML，但它将撇号转换为特殊字符。例如：

这是一个撇号之间的文本™
应该是：
“这是撇号之间的文本”

有没有办法将特殊字符转换回撇号或更改编码之类的？我对字符编码不是很熟悉。也许我可以选择一种编码来转换为HTML？
我假设引号是unicode字符“左单引号”（U+2018）和“右单引号”（U+2019）。以utf-8编码，它们是：
'\xe2\x80\x98This is a text between apostrophes\xe2\x80\x99'

本文中的字节为：
'\xc3\xa2\xe2\x82\xac\xcb\x9cThis is a text between apostrophes\xc3\xa2\xe2\x82\xac\xe2\x84\xa2'

这是每个引号8个字节，这让我怀疑字符串是否被多次编码。我尝试了以下几种组合：
>>> u'\u2018'.encode('utf-8').decode('iso-8859-1').encode('utf-8')
'\xc3\xa2\xc2\x80\xc2\x98'

不幸的是，我无法重现您得到的结果。
我假设引号是unicode字符“左单引号”（U+2018）和“右单引号”（U+2019）。以utf-8编码，它们是：
'\xe2\x80\x98This is a text between apostrophes\xe2\x80\x99'

本文中的字节为：
'\xc3\xa2\xe2\x82\xac\xcb\x9cThis is a text between apostrophes\xc3\xa2\xe2\x82\xac\xe2\x84\xa2'

这是每个引号8个字节，这让我怀疑字符串是否被多次编码。我尝试了以下几种组合：
>>> u'\u2018'.encode('utf-8').decode('iso-8859-1').encode('utf-8')
'\xc3\xa2\xc2\x80\xc2\x98'

不幸的是，我无法重现您得到的结果。
您可以显示用于阅读PDF的代码吗？您可以指定您正在使用的Python版本吗（pdfminer的API在2.x和3.x之间发生了变化）？您可以显示用于读取PDF的代码吗？您能指定您正在使用的Python版本吗（pdfminer的API在2.x和3.x之间发生了变化）？