Python代码仅适用于标题标记,不适用于表
在正则表达式中,当写入Python代码仅适用于标题标记,不适用于表,python,python-2.7,Python,Python 2.7,在正则表达式中,当写入(.+?)时,它正在工作,但当此标题标记更改为(.+?)时,它将“[]”(方括号)作为输出。 我的代码是: import urllib import re urls = ["http://physics.iitd.ac.in/content/list-faculty-members", "http://www.iitkgp.ac.in/commdir3/list.php?division=3&deptcode=ME","http://www.iitkgp.ac.i
(.+?)
时,它正在工作,但当此标题标记更改为(.+?)
时,它将“[]”(方括号)作为输出。
我的代码是:
import urllib
import re
urls = ["http://physics.iitd.ac.in/content/list-faculty-members", "http://www.iitkgp.ac.in/commdir3/list.php?division=3&deptcode=ME","http://www.iitkgp.ac.in/commdir3/list.php?division=3&deptcode=CE"]
i = 0
regex = '<table>(.+?)</table>'
pattern = re.compile(regex)
while i< len(urls):
htmlfile = urllib.urlopen(urls[i])
htmltext = htmlfile.read()
tables = re.findall(pattern,htmltext)
print tables
i+=1
导入urllib
进口稀土
URL=[”http://physics.iitd.ac.in/content/list-faculty-members", "http://www.iitkgp.ac.in/commdir3/list.php?division=3&deptcode=ME","http://www.iitkgp.ac.in/commdir3/list.php?division=3&deptcode=CE"]
i=0
正则表达式='(.+?)'
pattern=re.compile(regex)
而i
使用:
导入urllib
进口稀土
从BeautifulSoup导入BeautifulSoup作为bs
URL=[”http://physics.iitd.ac.in/content/list-faculty-members",
"http://www.iitkgp.ac.in/commdir3/list.php?division=3&deptcode=ME",
"http://www.iitkgp.ac.in/commdir3/list.php?division=3&deptcode=CE"]
i=0
而i
谢谢,它工作得很好。:)还有一个问题:如果我希望从表中下载的数据只显示为表结构,会发生吗?你能详细说明你需要什么吗?是的,我想要的是上面的链接由表形式的教授数据组成,在运行此代码时,我得到了他们的所有详细信息,但不知道这一点的人无法理解。所以我想知道它是否可以在cmd上以相同的表格格式下载?尽管我已经用我尝试过的代码和您帮助过的代码发布了另一个问题。我可以把问题的链接发给你吗@伯尼,你可以。我会回答这个问题
import urllib
import re
from BeautifulSoup import BeautifulSoup as bs
urls = ["http://physics.iitd.ac.in/content/list-faculty-members",
"http://www.iitkgp.ac.in/commdir3/list.php?division=3&deptcode=ME",
"http://www.iitkgp.ac.in/commdir3/list.php?division=3&deptcode=CE"]
i = 0
while i < len(urls):
htmlfile = urllib.urlopen(urls[i])
htmltext = htmlfile.read()
soup = bs(htmltext)
tables = soup.find_all('table')
print tables
i+=1