Python 如何使用BeautifulSoup从html解析印地语字体?
我想使用BeautifulSoup获取标记的内容 我的代码:Python 如何使用BeautifulSoup从html解析印地语字体?,python,utf-8,html-parsing,beautifulsoup,hindi,Python,Utf 8,Html Parsing,Beautifulsoup,Hindi,我想使用BeautifulSoup获取标记的内容 我的代码: html= "<html><body><td class="HindiTextGray" align="left" valign="top"> <br /> सूरत। सिल्कसिटी सूरत के कपड़ा बाजार की व्यापारिक प्रक्रिया में बड़ा बदलाव देखने को मिल रहा है।<br /&g
html= "<html><body><td class="HindiTextGray" align="left" valign="top">
<br />
सूरत। सिल्कसिटी सूरत के कपड़ा बाजार की व्यापारिक प्रक्रिया में बड़ा बदलाव देखने को मिल रहा है।<br />
</td></body></html>"
soup = BeautifulSoup(html)
td =soup.find('td')
extra = td.script.extract()
td.table.extract()
td.span.extract()
self.response.write(td.contents)
但我得到:
[u'\n',,u'\r\n\u0938\u0942\u0930\u0924\u0964
\u0938\u093f\u0932\u094d\u0915\u0938\u093f\u091f\u0940 \u0938\u0942\u0930\u0924\u0915\u0947\u0915\u092a\u0921\u093c\u093e \u092c\u093e\u091c\u093e\u0930\u0915\u0940 \u0935\u094d\u092f\u093e\u092a\u093e\u0930\u093f\u0915 \u092a\u094d\u0930\u0915\u094d\u0930\u093f\u092f\u093e \u092e\u0947\u0902\u092c\u0921\u093c\u093e \u092c\u0926\u0932\u093e\u0935\u0926\u0947\u0916\u0928\u0947 \u0915\u094b\u092e\u093f\u0932\u0930\u0939\u093e\u0939\u0948\u0964 \u092f\u0939\u092c\u0926\u0932\u093e\u0935 \u0938\u0948\u091f\u093f\u0902\u0917 \u0906\u0927\u093e\u0930\u093f\u0924 \u0935\u094d\u092f\u093e\u092a\u093e\u0930 \u092a\u094d\u0930\u0915\u094d\u0930\u093f\u092f\u093e\u0915\u093e \u0939\u0948\u0964\u0907\u0938\u092e\u0947\u0902 90 \u092b\u0940\u0938\u0926\u0940\u0915\u092a\u0921\u093c\u093e \u0935\u094d\u092f\u093e\u092a\u093e\u0930\u0940 \u0935\u093f\u0936\u094d\u0935\u093e\u0938\u0930\u0916\u0924\u0947 \u0939\u0948\u0902\u0932\u0947\u0915\u093f\u0928 \u0907\u0938\u0915\u0947\u092e\u0941\u0924\u093e\u092c\u093f\u0915 \u0935\u094d\u092f\u093e\u092a\u093e\u0930\u0915\u0930\u0928\u0947 \u0935\u093e\u0932\u094b\u0902\u0915\u0940 \u0938\u0902\u0916\u094d\u092f\u093e\u092e\u0939\u091c 15 \u092a\u094d\u0930\u0924\u093f\u0936\u0924\u0939\u0940 \u0939\u0948\u0964',
如果你打印一个列表,你会看到它的
repr
。如果你想打印编码文本,请单独打印项目。@karthikr的可能副本:不是真的;这个问题有一个UnicodeDecodeError;这个问题有一个显示问题,已经解码的文本。这些不是你想要的字符吗?例如सू代码>-不是938吗?@kindall,是..但我想向用户显示此代码..我已将此文本按原样存储在数据存储中..但我希望它以印地语显示。我使用self.response.headers['Content-Type']='text/html;charset=utf-8',但出现解码错误
सूरत। सिल्कसिटी सूरत के कपड़ा बाजार की व्यापारिक प्रक्रिया में बड़ा बदलाव देखने को मिल रहा है।