Java slideshare web刮取页面视图python

Java slideshare web刮取页面视图python,java,python,html,Java,Python,Html,嘿,伙计们,为了我的学校项目,我需要使用python在slideshare.net上搜索网页视图。但是,它不允许我刮取教授特别告诉我们要刮取的用户名的页面视图。例如,如果我转到底部的slideshare.net/Username,当我进入页面源代码时,会有一个页面视图计数器 <span class="noWrap"> xxxx views </span> 当我将其作为 <span class="noWrap"> (

嘿,伙计们,为了我的学校项目,我需要使用python在slideshare.net上搜索网页视图。但是,它不允许我刮取教授特别告诉我们要刮取的用户名的页面视图。例如,如果我转到底部的slideshare.net/Username,当我进入页面源代码时,会有一个页面视图计数器

 <span class="noWrap"> xxxx views </span>
当我将其作为

 <span class="noWrap"> (.+?) </span>
什么事也没发生我得到的只是[]在窗外

这是完整的代码-
虽然这在技术上不是一个答案,但您需要更改正则表达式。我建议您看看python正则表达式的章节

我要告诉你的是你的台词

regex = ' <span class="noWrap">(.+?)</span>'

在正则表达式字符串的开头有一个空格,因此只有在xxxx视图之前至少有一个空格时,它才会匹配?什么是x?对于这个正则表达式,行尾下线标记不是问题。FWIW,\n==chr10是换行符;回车符为\r==chr13*nix对EOL使用\n;Windows使用\r\n。我认为Mac使用了\r,或者至少它曾经使用过\n是HTML的首选,但浏览器可以容忍这两种EOL样式。
regex = ' <span class="noWrap">(.+?)</span>'
htmltext = htmltext.replace("\n","")