Python 导入url;如何仅使用一半页面中的数据?

Python 导入url;如何仅使用一半页面中的数据?,python,html,url,Python,Html,Url,我想从一个网站导入一份成绩单,但只分析其中一半的数据。 我已经导入了URL,我想计算文本中唯一单词的总数,但只从成绩单“Mayfield庄园的租金,1545”这一行开始计算。有人知道我可以用什么代码来做这件事吗?我不知道如何从URL中计算单词,但只能从某一部分计算。 到目前为止,我写了: import requests source = 'http://www.myjacobfamily.com/historical%20manuscripts/mayfield%201.htm' r = req

我想从一个网站导入一份成绩单,但只分析其中一半的数据。 我已经导入了URL,我想计算文本中唯一单词的总数,但只从成绩单“Mayfield庄园的租金,1545”这一行开始计算。有人知道我可以用什么代码来做这件事吗?我不知道如何从URL中计算单词,但只能从某一部分计算。 到目前为止,我写了:

import requests
source = 'http://www.myjacobfamily.com/historical%20manuscripts/mayfield%201.htm'
r = requests.get(source)
print(r.text)

在开始之前,我会说我对你想做的事的原因和内容几乎没有什么背景信息。我已经在下面包含了我认为您正在寻找的代码。不过,我建议你在提出更多问题之前先复习

import requests
import bs4

response = requests.get('http://www.myjacobfamily.com/historical%20manuscripts/mayfield%201.htm')
soup = bs4.BeautifulSoup(response.text, 'html.parser')
lines = soup.find_all('p')
story = []
record = False
for line in lines:
    if "The Rental of the Manor of Mayfield, 1545." in line.text:
        story.append(line.text)
        record = True
        continue
    if record is True and "---" not in line.text:
        story.append(line.text)
    elif record is True and "---" in line.text:
        break
print(story)
在这段代码中,我使用
BeautifulSoup
模块解析
标记之间的所有信息,从您发布的链接中提取一个故事(可能是“半页”的意思?)。您可以使用internet浏览器上的开发人员工具查看此信息。一旦所有
都加载完毕,代码就会在其中进行迭代,直到1545年出租Mayfield庄园后才开始录制。遇到了。在这一点上,它将抓住每一行,直到到达包含“--”的一行(这似乎是他们在网站上描述故事的方式)。在这一点上,它打破了循环并打印了故事。您可以使用以下命令将此列表连接为单个字符串:

"".join(story)

就我个人而言,我认为您试图做的没有任何意义,因为将您想要的故事复制到文本文档中,然后使用类似Python的东西处理该文本文档会非常容易。网络抓取绝对不是我解决这个问题的第一选择…

我不明白你所说的“一半页面”是什么意思。你能详细说明一下吗