Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/python-3.x/19.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 3.x 在Newspaper3k中解析MySQL中的HTML字符串_Python 3.x_Python Newspaper - Fatal编程技术网

Python 3.x 在Newspaper3k中解析MySQL中的HTML字符串

Python 3.x 在Newspaper3k中解析MySQL中的HTML字符串,python-3.x,python-newspaper,Python 3.x,Python Newspaper,我有一个MySQL表,其中满是爬网的新闻文章HTML数据。我想用newspaper3k模块提取文章文本,我以前做过很多次 现在唯一的区别是,我没有提取URL并用报纸解析结果,而是从MySQL数据库中提取原始HTML字符串 不知何故,报纸(或Goose)不喜欢DB中的字符串作为返回的文章。文本总是' 但是,当我将URL与requests.get一起使用并将原始HTML提供给报纸时,它就可以工作了。所以我猜MySQL中的数据的格式/编码不同,所以报纸不会将其理解为HTML 当我从数据库打印数据时,它

我有一个MySQL表,其中满是爬网的新闻文章HTML数据。我想用newspaper3k模块提取文章文本,我以前做过很多次

现在唯一的区别是,我没有提取URL并用报纸解析结果,而是从MySQL数据库中提取原始HTML字符串

不知何故,报纸(或Goose)不喜欢DB中的字符串作为返回的文章。文本总是
'

但是,当我将URL与requests.get一起使用并将原始HTML提供给报纸时,它就可以工作了。所以我猜MySQL中的数据的格式/编码不同,所以报纸不会将其理解为HTML

当我从数据库打印数据时,它看起来像:

<!DOCTYPE html>\n<html lang="de">\n<head>\n\n<...
<!DOCTYPE html>
<html lang="de">
<head>

<meta charset="utf-8">
<!-- 
    This website is powered by TYPO3 - inspiring people to share!
    TYPO3 is a free open source Content Management Framework initially created by Kasper Skaarhoj and licensed under GNU/GPL.
    TYPO3 is copyright 1998-2016 of Kasper Skaarhoj. Extensions are copyright of their respective owners.
    Information and contribution at http://typo3.org/
--> ...

\n\n\n\n您将获得一个TYPO3页面的标题。可能是默认的404页面。(获取完整的HTML)

如果您的请求应该由TYPO3以外的任何其他文件提供,那么您将错过(htaccess-)配置(默认情况下,TYPO3会回答每个请求,只要没有包含URL请求路径的静态文件)

或者,您希望TYPO3服务器用一个完整页面以外的内容回答您(AJAX:HTML代码片段或JSON?)
那么您可能在TYPO3中没有正确的配置来省略标题


由于涉及到TYPO3,您可能还会在问题上加上
TYPO3

我自己解决了这个问题。谢谢大家

结果我只需要在数据库中的HTML上使用BeautifulSoup
把它分成汤。现在它可以工作了。

您想要Python解决方案还是MySQL(SQL)解决方案?显然,这篇文章应该用Python来处理。但是,在MySQL中可能会重新格式化字符串。我真的不在乎。我认为你应该在上提交一个问题,或许可以检查你的问题是否与此相关:谢谢你的回答,但这一点都没有帮助。TYPO3不会将页面的完整HTML标记存储在数据库中,因此,任何DB查询的结果都不会像第一个示例那样得到简单的HTML。否则,您将不会提供更多信息来识别任何内容并给出进一步的提示,特别是TYPO3与您的输出有什么关系。不要期待更多的提示来解决你的问题。