Python 从社交网站上摘录印地语、泰米尔语、旁遮普语(印度语)帖子
我正在使用python和beautiful soup..试图提取印地语、泰米尔语、旁遮普语(印度语)在cookies的帮助下从社交网站发帖我很乐意摘录,但是摘录不是用那种语言本身,而是用某种编码形式我希望它用同样的语言我想用同样的语言印地语发帖应该用同样的印地语来摘录Python 从社交网站上摘录印地语、泰米尔语、旁遮普语(印度语)帖子,python,cookies,beautifulsoup,Python,Cookies,Beautifulsoup,我正在使用python和beautiful soup..试图提取印地语、泰米尔语、旁遮普语(印度语)在cookies的帮助下从社交网站发帖我很乐意摘录,但是摘录不是用那种语言本身,而是用某种编码形式我希望它用同样的语言我想用同样的语言印地语发帖应该用同样的印地语来摘录 import mechanize import cookielib from bs4 import BeautifulSoup import urllib2 import csv from html2text import htm
import mechanize
import cookielib
from bs4 import BeautifulSoup
import urllib2
import csv
from html2text import html2text
import re
br = mechanize.Browser()
# Cookie Jar
cj = cookielib.LWPCookieJar()
br.set_cookiejar(cj)
# Browser options
br.set_handle_equiv(True)
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)
# Follows refresh 0 but not hangs on refresh > 0
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)
urls = []
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1'),('Connection','keep-alive'),('Accept','application/json, text/javascript, */*; q=0.01'),('Accept-Encoding','gzip, deflate, sdch'),('Host','link'),('Referer','https://link/'),('X-Requested-With','XMLHttpRequest'),('Accept-Language','en-US,en;q=0.8')]
br.open('https://link')
br._factory.is_html = True
# Select the first (index zero) form
#br.select_form(predicate=lambda f: f.attrs.get('id', None) == 'login_form')
br.select_form(nr=0)
# User credentials
br.form['USER'] = 'username'
br.form['PASSWORD'] = 'password'
# Login
br.submit()
soup = BeautifulSoup(br.response().read())
for tag in soup.find_all("div", re.compile("classname")):
#print tag
for tag1 in tag.find_all(re.compile("^p")):
print tag1
输出样本:
\u0baa\u0b9f\u0bbf\u0ba4\u0bcd\u0ba4\u0ba4\u0bbf\u0bb2\u0bcd\u0baa\u0bbf\u0b9f\u0bbf\u0ba4\u0bcd\u0ba4\u0ba4\u0bc1\u263a
预期输出:用那种特定语言编写(这里是泰米尔语)unicode escape对我来说很有用
.decode('unicode-escape')
它仍然只是以编码形式出现..没有区别..@Vaulsteinexpect这类输出…(与站点中的帖子相同)मुहाजिर है , मगर हम एक दुनिया छोड़ आये है , तुम्हरे पास जितना है हम उतना छोड़ आये है ।我已经试过了。。产量没有差别@Vaulstein@Vaulstein..it给出html页面。无论印地语或泰米尔语文本出现在哪里,它都以编码形式打印\u0ba4\u0ba4\u0bcd\u0ba4\u0bc1\u0bb5\u0bae\u0bcd\u0b9a\u0bca\u0bb2\u0bcd\u0bb2\u0bc1\u0bb1\u0ba4\u0bc1\u0b8e\u0baa\u0bcd\u0baa\u0b9f\u0bbf?\u0bb5\u0bae\u0bcd\u0b9a\u0bca\u0bb2\u0@Vaulstein.. 在那个网站上尝试了解决方案,但没有一个奏效。。我只想用印地语(不是编码形式)提取印地语帖子…其他语言也是如此。。。