Python 从网站源代码中提取文本_Python

Python 从网站源代码中提取文本

python

Python 从网站源代码中提取文本,python,Python,我想从网站链接中提取信息： http://www.website.com 有一个字符串出现了几次：“string TO CAPTURE”，但我想在第一次出现时捕获它。它将位于以下结构内：我还想提取第行包含“要捕获的字符串”的链接，即： LINKtoWeb 在我看来，python可以很好地完成这项任务，但我对python也太陌生，无法让它工作，希望这里的python专家能告诉我如何工作。我不知道从哪里开始，四处搜索并找到可能的解决方案： use YAML; my $data = Load

我想从网站链接中提取信息：

http://www.website.com

有一个字符串出现了几次：“string TO CAPTURE”，但我想在第一次出现时捕获它。它将位于以下结构内：

我还想提取第行包含“要捕获的字符串”的链接，即：

LINKtoWeb

在我看来，python可以很好地完成这项任务，但我对python也太陌生，无法让它工作，希望这里的python专家能告诉我如何工作。我不知道从哪里开始，四处搜索并找到可能的解决方案：

use YAML;
my $data = Load(http://www.website.com);
say $data->{"<tr>"}->{"<td>"}->{"STRING TO CAPTURE"};

使用YAML；
我的$data=Load(http://www.website.com);
说$data->{”“}->{”“}->{“要捕获的字符串”}；

但我不知道如何处理这12行中的所有文本？

然后下载并安装

html=urllib.urlopen（'http://www.website.com）。读（）
soup=BeautifulSoup.BeautifulSoup（html）
text=soup.findAll（text=True）
def获取内容（元素）：
如果['style'，'script'，'document'，'head'，'title']中的element.parent.name：
返回错误
elif re.match（“”，str（元素））：
返回错误
返回真值
可见文本=过滤器（获取内容、文本）

source-

使用BeautifulSoup或ScrapyBeautifulSoup或lxml等模块可以完成您的工作代码可能需要在我的服务器上执行此过程，当他们加载网站时，您建议的工具是否可以用于此目的，步骤如何？对于我的服务器和网站，我需要在什么地方安装它？在运行爬行python脚本的机器上安装这个python包

import BeautifulSoup

应该可以正常工作…

来自bs4 import BeautifulSoup

BeautifulSoup是通过一个名为bs4的包提供的，提供了一些其他功能，其中包括

UnicodeAmmit

。我的服务器支持Python 2.7（它们安装在所有服务器中）。Beautifulsoup可以运行吗？我需要将BeautifulSoup复制到哪里，然后可以在我的代码中使用“import BeautifulSoup”？为我的愚蠢道歉是的，它应该有用。请按照这些说明进行安装-

LINKtoWeb

use YAML;
my $data = Load(http://www.website.com);
say $data->{"<tr>"}->{"<td>"}->{"STRING TO CAPTURE"};

html = urllib.urlopen('http://www.website.com').read()
soup = BeautifulSoup.BeautifulSoup(html)
texts = soup.findAll(text=True)

def get_stuff(element):
    if element.parent.name in ['style', 'script', '[document]', 'head', 'title']:
        return False
    elif re.match('<!--.*-->', str(element)):
        return False
    return True

visible_texts = filter(get_stuff, texts)