Python 删除博客内容_Python - Fatal编程技术网

Python 删除博客内容

python

Python 删除博客内容,python,Python,在获得了各种blogpost、tumblr和wordpress页面的url之后，我在处理html页面时遇到了一些问题。问题是，我想区分每个博客文章的内容、标题和日期。我可能可以通过正则表达式获得日期，但是现在人们使用的自定义脚本太多了，以至于html类和结构非常不同有没有人能提供一个解决方案呢？不要使用正则表达式。使用解析器。它真的很快事实上，如果你的站点发布atom或rss提要，就解析它们；它们具有定义良好的结构，可以很容易地获取您试图获取的数据更新：通常，您可以在博客文章的HTML中

在获得了各种blogpost、tumblr和wordpress页面的url之后，我在处理html页面时遇到了一些问题。问题是，我想区分每个博客文章的内容、标题和日期。我可能可以通过正则表达式获得日期，但是现在人们使用的自定义脚本太多了，以至于html类和结构非常不同

有没有人能提供一个解决方案呢？

不要使用正则表达式。使用解析器。它真的很快

事实上，如果你的站点发布atom或rss提要，就解析它们；它们具有定义良好的结构，可以很容易地获取您试图获取的数据

更新：

通常，您可以在博客文章的HTML中找到提要的

。寻找类似于以下内容的内容（根据Atom与RSS等的不同，

type

的确切值可能会有所不同）：

在文档的

中。如果您找到提要，请使用@Alex Martelli建议的

哦，你可能想看看。

如果可行的话，可以使用博客的RSS或Atom提要——它们是结构良好的XML，而不是结构不太好的HTML，在获取Python提要内容方面非常有帮助

如果某个博客缺少feed（或者feed真的很稀少），那么你必须解析它的HTML（叹气！），最好的方法是（使用最新的

3.0.*

，不是
3.1
——原因请参见）-不是最快的，但是在格式非常糟糕的HTML面前最有弹性（我怀疑，缺少提要的同一类博客可能会有腐烂的HTML）。
lxml
，library@Hank建议，我相信它确实包含一份BeautifulSoup，但是，如果你只需要一部分，为什么还要费心安装整个呢？-）我认为你应该改变你的方法。与其解析html页面，为什么不解析html页面呢？Wordpress内置了这个功能，它已经包含了你需要的信息，比如标题、作者、日期等

您仍然可以使用regex解析RSS提要，也可以使用现有的python模块，例如
谢谢，我来看看lxml。但是，我爬过的大多数博客都不发布公共提要@GohBlogger、Tumblr和Wordpress都默认提供提要，因此可能值得再次查看爬网结果。寻找类似于
@Hank的东西，谢谢，但是它也会发生在存档帖子上吗？？？@goh通常，每个帖子都有一个对提要的引用，尽管它的公开方式可能因服务而异。@Hank，你帮了很大的忙。非常感谢！
<link rel="alternate" type="application/atom+xml" title="My Weblog feed" href="/feed/" />