Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/357.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何使用beautifulsoup提取特定句子后的文本?_Python_Beautifulsoup - Fatal编程技术网

Python 如何使用beautifulsoup提取特定句子后的文本?

Python 如何使用beautifulsoup提取特定句子后的文本?,python,beautifulsoup,Python,Beautifulsoup,我想提取文件中特定句子后面的文本。您特别需要BeautifulSoup吗?如果没有,请使用以下选项: 在一个特定的句子后面拆分文本试试这个,因为我不确定你在句子后面特别想提取什么,我假设你是指句子后面的所有内容 例如,如果我有一个文件file.txt: Lorem ipsum dolor sit amet,是一位杰出的献身者。维瓦摩斯 congue mattis risus,是一家名为amet elementum lorem Previda eu的公司。克拉维塔酒店 这是一种封建权杖。这是我最喜

我想提取文件中特定句子后面的文本。

您特别需要BeautifulSoup吗?如果没有,请使用以下选项:

在一个特定的句子后面拆分文本试试这个,因为我不确定你在句子后面特别想提取什么,我假设你是指句子后面的所有内容

例如,如果我有一个文件
file.txt:

Lorem ipsum dolor sit amet,是一位杰出的献身者。维瓦摩斯 congue mattis risus,是一家名为amet elementum lorem Previda eu的公司。克拉维塔酒店 这是一种封建权杖。这是我最喜欢的 布朗迪特非nec奥迪奥。拉齐尼女神Mauris euismod 狮子座是封建的。Phasellus ultrices nunc坐在侵权者的位子上 pretium eu mollis neque调味品。直径 尤伊斯莫。乌尔里西斯·埃拉特·尼布(Phasellus ultricies erat nibh)和帕特·夸姆(Pat quam)。努克奎斯 毛里斯·塞德·普鲁斯·阿利奎姆。整数维韦拉rutrum arcu ac 临时的

我的句子是,
Mauris euismod leo ut velit lobortis feugiat.

您可以这样做:

with open("file.txt") as file: #open a file securily, then automitaclly close it
    seperator = "Mauris euismod leo ut velit lobortis feugiat." #assign pre-opt variable for the sentence
    for line in file:
        text = line.split(seperator,1)[1]
    print text

>>> Phasellus ultrices nunc sit amet tortor pretium eu mollis neque condimentum. Fusce placerat bibendum diam eget euismod. Phasellus ultricies erat nibh, sed volutpat quam. Nunc quis mauris sed purus aliquet aliquam. Integer viverra rutrum arcu ac tempor.
使用
BeautifulSoup
您可以从文件中提取所有文本,如果您需要更具体的内容,请告诉我

from bs4 import BeautifulSoup

soup = """<html><body><div style="DISPLAY: block; TEXT-INDENT: 0pt"><br/></div> <div align="justify" style="DISPLAY: block; MARGIN-LEFT: 0pt; TEXT-INDENT: 0pt; MARGIN-RIGHT: 0pt"><font style="DISPLAY: inline; FONT-WEIGHT: bold; FONT-SIZE: 10pt; FONT-FAMILY: Arial">Our Earnings are Significantly Affected by General Business and Economic Conditions</font></div></body></html>"""

print(soup.get_text())

向我们展示您已经尝试过的内容,以及您预期投入/产出的一些示例。
我们的收入受到一般业务和经济状况的显著影响。您应该在问题中公布这一点。对不起。我不善于解释这个问题。这个文件只是一个示例。我有成千上万的文件。我知道我想要后面的文本。我不知道文本本身是否可以用代码来表达。它们是否都是从字体系列开始的,我需要更多的细节是的。但是有两种类型。一个有字体大小:粗体,另一个没有。所以,我想把它作为分隔符放在代码中。
 Our Earnings are Significantly Affected by General Business and Economic Conditions