Python 导入url；如何仅使用一半页面中的数据？_Python_Html_Url

Python 导入url；如何仅使用一半页面中的数据？

python html url

Python 导入url；如何仅使用一半页面中的数据？,python,html,url,Python,Html,Url,我想从一个网站导入一份成绩单，但只分析其中一半的数据。我已经导入了URL，我想计算文本中唯一单词的总数，但只从成绩单“Mayfield庄园的租金，1545”这一行开始计算。有人知道我可以用什么代码来做这件事吗？我不知道如何从URL中计算单词，但只能从某一部分计算。到目前为止，我写了： import requests source = 'http://www.myjacobfamily.com/historical%20manuscripts/mayfield%201.htm' r = req

我想从一个网站导入一份成绩单，但只分析其中一半的数据。我已经导入了URL，我想计算文本中唯一单词的总数，但只从成绩单“Mayfield庄园的租金，1545”这一行开始计算。有人知道我可以用什么代码来做这件事吗？我不知道如何从URL中计算单词，但只能从某一部分计算。到目前为止，我写了：

import requests
source = 'http://www.myjacobfamily.com/historical%20manuscripts/mayfield%201.htm'
r = requests.get(source)
print(r.text)

在开始之前，我会说我对你想做的事的原因和内容几乎没有什么背景信息。我已经在下面包含了我认为您正在寻找的代码。不过，我建议你在提出更多问题之前先复习

import requests
import bs4

response = requests.get('http://www.myjacobfamily.com/historical%20manuscripts/mayfield%201.htm')
soup = bs4.BeautifulSoup(response.text, 'html.parser')
lines = soup.find_all('p')
story = []
record = False
for line in lines:
    if "The Rental of the Manor of Mayfield, 1545." in line.text:
        story.append(line.text)
        record = True
        continue
    if record is True and "---" not in line.text:
        story.append(line.text)
    elif record is True and "---" in line.text:
        break
print(story)

在这段代码中，我使用

BeautifulSoup

模块解析

和标记之间的所有信息，从您发布的链接中提取一个故事（可能是“半页”的意思？）。您可以使用internet浏览器上的开发人员工具查看此信息。一旦所有行
都加载完毕，代码就会在其中进行迭代，直到1545年出租Mayfield庄园后才开始录制。遇到了。在这一点上，它将抓住每一行，直到到达包含“--”的一行（这似乎是他们在网站上描述故事的方式）。在这一点上，它打破了循环并打印了故事。您可以使用以下命令将此列表连接为单个字符串：
"".join(story)

就我个人而言，我认为您试图做的没有任何意义，因为将您想要的故事复制到文本文档中，然后使用类似Python的东西处理该文本文档会非常容易。网络抓取绝对不是我解决这个问题的第一选择…
我不明白你所说的“一半页面”是什么意思。你能详细说明一下吗