Python 删除博客内容

Python 删除博客内容,python,Python,在获得了各种blogpost、tumblr和wordpress页面的url之后,我在处理html页面时遇到了一些问题。问题是,我想区分每个博客文章的内容、标题和日期。我可能可以通过正则表达式获得日期,但是现在人们使用的自定义脚本太多了,以至于html类和结构非常不同 有没有人能提供一个解决方案呢?不要使用正则表达式。使用解析器。它真的很快 事实上,如果你的站点发布atom或rss提要,就解析它们;它们具有定义良好的结构,可以很容易地获取您试图获取的数据 更新: 通常,您可以在博客文章的HTML中

在获得了各种blogpost、tumblr和wordpress页面的url之后,我在处理html页面时遇到了一些问题。问题是,我想区分每个博客文章的内容、标题和日期。我可能可以通过正则表达式获得日期,但是现在人们使用的自定义脚本太多了,以至于html类和结构非常不同


有没有人能提供一个解决方案呢?

不要使用正则表达式。使用解析器。它真的很快

事实上,如果你的站点发布atom或rss提要,就解析它们;它们具有定义良好的结构,可以很容易地获取您试图获取的数据

更新:

通常,您可以在博客文章的HTML中找到提要的
。寻找类似于以下内容的内容(根据Atom与RSS等的不同,
type
的确切值可能会有所不同):


在文档的
中。 如果您找到提要,请使用@Alex Martelli建议的


哦,你可能想看看。

如果可行的话,可以使用博客的RSS或Atom提要——它们是结构良好的XML,而不是结构不太好的HTML,在获取Python提要内容方面非常有帮助


如果某个博客缺少feed(或者feed真的很稀少),那么你必须解析它的HTML(叹气!),最好的方法是(使用最新的
3.0.*
不是
3.1
——原因请参见)-不是最快的,但是在格式非常糟糕的HTML面前最有弹性(我怀疑,缺少提要的同一类博客可能会有腐烂的HTML)。
lxml
,library@Hank建议,我相信它确实包含一份BeautifulSoup,但是,如果你只需要一部分,为什么还要费心安装整个呢?-)我认为你应该改变你的方法。与其解析html页面,为什么不解析html页面呢?Wordpress内置了这个功能,它已经包含了你需要的信息,比如标题、作者、日期等


您仍然可以使用regex解析RSS提要,也可以使用现有的python模块,例如

谢谢,我来看看lxml。但是,我爬过的大多数博客都不发布公共提要@GohBlogger、Tumblr和Wordpress都默认提供提要,因此可能值得再次查看爬网结果。寻找类似于
@Hank的东西,谢谢,但是它也会发生在存档帖子上吗???@goh通常,每个帖子都有一个对提要的引用,尽管它的公开方式可能因服务而异。@Hank,你帮了很大的忙。非常感谢!
<link rel="alternate" type="application/atom+xml" title="My Weblog feed" href="/feed/" />