Python 从网站源代码中提取文本

Python 从网站源代码中提取文本,python,Python,我想从网站链接中提取信息: http://www.website.com 有一个字符串出现了几次:“string TO CAPTURE”,但我想在第一次出现时捕获它。它将位于以下结构内: 我还想提取第行包含“要捕获的字符串”的链接,即: LINKtoWeb 在我看来,python可以很好地完成这项任务,但我对python也太陌生,无法让它工作,希望这里的python专家能告诉我如何工作。 我不知道从哪里开始,四处搜索并找到可能的解决方案: use YAML; my $data = Load

我想从网站链接中提取信息:

http://www.website.com
有一个字符串出现了几次:“string TO CAPTURE”,但我想在第一次出现时捕获它。它将位于以下结构内:

我还想提取第行包含“要捕获的字符串”的链接,即:

LINKtoWeb
在我看来,python可以很好地完成这项任务,但我对python也太陌生,无法让它工作,希望这里的python专家能告诉我如何工作。 我不知道从哪里开始,四处搜索并找到可能的解决方案:

use YAML;
my $data = Load(http://www.website.com);
say $data->{"<tr>"}->{"<td>"}->{"STRING TO CAPTURE"};
使用YAML;
我的$data=Load(http://www.website.com);
说$data->{”“}->{”“}->{“要捕获的字符串”};
但我不知道如何处理这12行中的所有文本?

然后下载并安装

html=urllib.urlopen('http://www.website.com)。读()
soup=BeautifulSoup.BeautifulSoup(html)
text=soup.findAll(text=True)
def获取内容(元素):
如果['style','script','document','head','title']中的element.parent.name:
返回错误
elif re.match(“”,str(元素)):
返回错误
返回真值
可见文本=过滤器(获取内容、文本)

source-

使用BeautifulSoup或ScrapyBeautifulSoup或lxml等模块可以完成您的工作代码可能需要在我的服务器上执行此过程,当他们加载网站时,您建议的工具是否可以用于此目的,步骤如何?对于我的服务器和网站,我需要在什么地方安装它?在运行爬行python脚本的机器上安装这个python包
import BeautifulSoup
应该可以正常工作…
来自bs4 import BeautifulSoup
BeautifulSoup是通过一个名为bs4的包提供的,提供了一些其他功能,其中包括
UnicodeAmmit
。我的服务器支持Python 2.7(它们安装在所有服务器中)。Beautifulsoup可以运行吗?我需要将BeautifulSoup复制到哪里,然后可以在我的代码中使用“import BeautifulSoup”?为我的愚蠢道歉是的,它应该有用。请按照这些说明进行安装-
LINKtoWeb
use YAML;
my $data = Load(http://www.website.com);
say $data->{"<tr>"}->{"<td>"}->{"STRING TO CAPTURE"};
html = urllib.urlopen('http://www.website.com').read()
soup = BeautifulSoup.BeautifulSoup(html)
texts = soup.findAll(text=True)

def get_stuff(element):
    if element.parent.name in ['style', 'script', '[document]', 'head', 'title']:
        return False
    elif re.match('<!--.*-->', str(element)):
        return False
    return True

visible_texts = filter(get_stuff, texts)