Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/305.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 使用beutifulsoup和mechanize从html表获取文本时出错_Python_Html_Beautifulsoup_Mechanize - Fatal编程技术网

Python 使用beutifulsoup和mechanize从html表获取文本时出错

Python 使用beutifulsoup和mechanize从html表获取文本时出错,python,html,beautifulsoup,mechanize,Python,Html,Beautifulsoup,Mechanize,我试图从表标记内的html代码中获取文本,但我没有获取所有文本,而是获取部分文本,其余文本被忽略 以下是我的输出和代码: 输出 Public Sector Organization (Recruitment Test) Test held on: Saturday, 3rd & Sunday 4th, December 2016 >>> 代码 这种方法似乎可以满足您的需求 >>> content = open(r"C:\scratch\___Nat

我试图从表标记内的html代码中获取文本,但我没有获取所有文本,而是获取部分文本,其余文本被忽略

以下是我的输出和代码:

输出

Public Sector Organization (Recruitment Test)
Test held on: Saturday, 3rd & Sunday 4th, December 2016
>>> 
代码


这种方法似乎可以满足您的需求

>>> content = open(r"C:\scratch\___National Testing Service___.html").read()
>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup(content, 'lxml')
>>> tables = soup.findAll('table')
>>> len(tables)
8
>>> tables[2].text
'\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nPublic Sector Organization (Recruitment Test)\nTest held on: Saturday, 3rd & Sunday 4th, December 2016\n\n                            \n                            (Result)\n\n\n\n\n\n                                Search Result for the keyword   "\n                                60170001                             \n"\n\n\n\nRoll No\nName\nFather Name\nCNIC\n\nPost\n\n\nKDPH\n\n\nNTS Marks\n\n\n\n60170001\nSARA ISLAM                               \nNAZAR UL ISLAM  \n17301-2406027-4  \n\n    Assistant Manager(Electronics Engineering)   \n\n\n      \n\n\n    63   \n\n\n\n\n\n\n\n\n\n\nCurrent Date / Time: Tuesday 21st, February 2017 , 11:49:59 PM                           \n\n\n\n\n\xa0\n\n'

假设
mechanize
以我在Chrome浏览器中打开页面并保存即可获得的相同格式为您提供文件,您应该可以。

这种方法似乎满足了您的需要

>>> content = open(r"C:\scratch\___National Testing Service___.html").read()
>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup(content, 'lxml')
>>> tables = soup.findAll('table')
>>> len(tables)
8
>>> tables[2].text
'\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nPublic Sector Organization (Recruitment Test)\nTest held on: Saturday, 3rd & Sunday 4th, December 2016\n\n                            \n                            (Result)\n\n\n\n\n\n                                Search Result for the keyword   "\n                                60170001                             \n"\n\n\n\nRoll No\nName\nFather Name\nCNIC\n\nPost\n\n\nKDPH\n\n\nNTS Marks\n\n\n\n60170001\nSARA ISLAM                               \nNAZAR UL ISLAM  \n17301-2406027-4  \n\n    Assistant Manager(Electronics Engineering)   \n\n\n      \n\n\n    63   \n\n\n\n\n\n\n\n\n\n\nCurrent Date / Time: Tuesday 21st, February 2017 , 11:49:59 PM                           \n\n\n\n\n\xa0\n\n'

假设
mechanize
以我在Chrome浏览器中打开页面并保存即可获得的格式为您提供文件,您应该可以。

请求的输出是什么?原则上,我的输出应该是表[2]中的整个文本,有点像这样。。公共部门组织(招聘考试)考试时间:2016年12月3日星期六和4日星期日(结果)上传日期:2016年12月3日星期三,2016年11月23日关键字60170001 Roll No Name父亲姓名CNIC Post NTS标记60170001 MUMTAZ ALI RAHMAN WALI 16101-1938424-7讲师(BPS-17)(电子)67当前日期/时间:2017年2月22日星期三,09:30:48 pm请求的输出是什么?原则上,我的输出应该是表[2]中的全文,有点像这样。。公共部门组织(招聘考试)考试时间:2016年12月3日星期六和4日星期日(结果)上传日期:2016年12月3日星期三,2016年11月23日关键字60170001 Roll No Name父亲姓名CNIC Post NTS标记60170001 MUMTAZ ALI RAHMAN WALI 16101-1938424-7讲师(BPS-17)(电子)67当前日期/时间:2017年2月22日星期三,09:30:48 pm非常感谢..最后它工作得很好。刚刚安装了lxml。不客气。我不能确定问题出在哪里。非常感谢。最后它工作得很好。刚刚安装了lxml。不客气。我不能确定问题出在哪里。