Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/280.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何使用BeautifulSoup从html解析印地语字体?_Python_Utf 8_Html Parsing_Beautifulsoup_Hindi - Fatal编程技术网

Python 如何使用BeautifulSoup从html解析印地语字体?

Python 如何使用BeautifulSoup从html解析印地语字体?,python,utf-8,html-parsing,beautifulsoup,hindi,Python,Utf 8,Html Parsing,Beautifulsoup,Hindi,我想使用BeautifulSoup获取标记的内容 我的代码: html= "<html><body><td class="HindiTextGray" align="left" valign="top"> <br /> सूरत। सिल्कसिटी सूरत के कपड़ा बाजार की व्यापारिक प्रक्रिया में बड़ा बदलाव देखने को मिल रहा है।<br /&g

我想使用BeautifulSoup获取标记的内容

我的代码:

html= "<html><body><td class="HindiTextGray" align="left" valign="top">
      <br />
      सूरत। सिल्कसिटी सूरत के कपड़ा बाजार की व्यापारिक प्रक्रिया में बड़ा बदलाव देखने को मिल रहा है।<br /> 
      </td></body></html>"


soup = BeautifulSoup(html)
td =soup.find('td')
extra = td.script.extract()
td.table.extract()
td.span.extract()
self.response.write(td.contents)
但我得到:

[u'\n',
,u'\r\n\u0938\u0942\u0930\u0924\u0964
\u0938\u093f\u0932\u094d\u0915\u0938\u093f\u091f\u0940 \u0938\u0942\u0930\u0924\u0915\u0947\u0915\u092a\u0921\u093c\u093e \u092c\u093e\u091c\u093e\u0930\u0915\u0940 \u0935\u094d\u092f\u093e\u092a\u093e\u0930\u093f\u0915 \u092a\u094d\u0930\u0915\u094d\u0930\u093f\u092f\u093e \u092e\u0947\u0902\u092c\u0921\u093c\u093e \u092c\u0926\u0932\u093e\u0935\u0926\u0947\u0916\u0928\u0947 \u0915\u094b\u092e\u093f\u0932\u0930\u0939\u093e\u0939\u0948\u0964 \u092f\u0939\u092c\u0926\u0932\u093e\u0935 \u0938\u0948\u091f\u093f\u0902\u0917 \u0906\u0927\u093e\u0930\u093f\u0924 \u0935\u094d\u092f\u093e\u092a\u093e\u0930 \u092a\u094d\u0930\u0915\u094d\u0930\u093f\u092f\u093e\u0915\u093e \u0939\u0948\u0964\u0907\u0938\u092e\u0947\u0902 90 \u092b\u0940\u0938\u0926\u0940\u0915\u092a\u0921\u093c\u093e \u0935\u094d\u092f\u093e\u092a\u093e\u0930\u0940 \u0935\u093f\u0936\u094d\u0935\u093e\u0938\u0930\u0916\u0924\u0947 \u0939\u0948\u0902\u0932\u0947\u0915\u093f\u0928 \u0907\u0938\u0915\u0947\u092e\u0941\u0924\u093e\u092c\u093f\u0915 \u0935\u094d\u092f\u093e\u092a\u093e\u0930\u0915\u0930\u0928\u0947 \u0935\u093e\u0932\u094b\u0902\u0915\u0940 \u0938\u0902\u0916\u094d\u092f\u093e\u092e\u0939\u091c 15 \u092a\u094d\u0930\u0924\u093f\u0936\u0924\u0939\u0940 \u0939\u0948\u0964',


如果你打印一个列表,你会看到它的
repr
。如果你想打印编码文本,请单独打印项目。@karthikr的可能副本:不是真的;这个问题有一个UnicodeDecodeError;这个问题有一个显示问题,已经解码的文本。这些不是你想要的字符吗?例如
सू-不是938吗?@kindall,是..但我想向用户显示此代码..我已将此文本按原样存储在数据存储中..但我希望它以印地语显示。我使用self.response.headers['Content-Type']='text/html;charset=utf-8',但出现解码错误
    सूरत। सिल्कसिटी सूरत के कपड़ा बाजार की व्यापारिक प्रक्रिया में बड़ा बदलाव देखने को मिल रहा है।