Java slideshare web刮取页面视图python_Java_Python_Html

Java slideshare web刮取页面视图python

java python html

Java slideshare web刮取页面视图python,java,python,html,Java,Python,Html,嘿，伙计们，为了我的学校项目，我需要使用python在slideshare.net上搜索网页视图。但是，它不允许我刮取教授特别告诉我们要刮取的用户名的页面视图。例如，如果我转到底部的slideshare.net/Username，当我进入页面源代码时，会有一个页面视图计数器 <span class="noWrap"> xxxx views </span> 当我将其作为 <span class="noWrap"> (

嘿，伙计们，为了我的学校项目，我需要使用python在slideshare.net上搜索网页视图。但是，它不允许我刮取教授特别告诉我们要刮取的用户名的页面视图。例如，如果我转到底部的slideshare.net/Username，当我进入页面源代码时，会有一个页面视图计数器

 <span class="noWrap"> xxxx views </span>

当我将其作为

 <span class="noWrap"> (.+?) </span>

什么事也没发生我得到的只是[]在窗外

这是完整的代码-

虽然这在技术上不是一个答案，但您需要更改正则表达式。我建议您看看python正则表达式的章节

我要告诉你的是你的台词

regex = ' <span class="noWrap">(.+?)</span>'

在正则表达式字符串的开头有一个空格，因此只有在xxxx视图之前至少有一个空格时，它才会匹配？什么是x？对于这个正则表达式，行尾下线标记不是问题。FWIW，\n==chr10是换行符；回车符为\r==chr13*nix对EOL使用\n；Windows使用\r\n。我认为Mac使用了\r，或者至少它曾经使用过\n是HTML的首选，但浏览器可以容忍这两种EOL样式。

regex = ' <span class="noWrap">(.+?)</span>'

htmltext = htmltext.replace("\n","")