C#从HTML文档中提取内容
我想知道,当一个链接被发布时,我如何做类似于Facebook的事情,或者像缩短链接服务那样,可以获得页面标题和内容 例如: 我的想法是只从网页中获取纯文本,例如,如果url是一篇报纸文章,我如何才能仅获取新闻文本,如图所示。目前,我一直在尝试使用HtmlAgilityPack,但我永远无法将文本清理干净C#从HTML文档中提取内容,c#,html,windows-phone-7,C#,Html,Windows Phone 7,我想知道,当一个链接被发布时,我如何做类似于Facebook的事情,或者像缩短链接服务那样,可以获得页面标题和内容 例如: 我的想法是只从网页中获取纯文本,例如,如果url是一篇报纸文章,我如何才能仅获取新闻文本,如图所示。目前,我一直在尝试使用HtmlAgilityPack,但我永远无法将文本清理干净 请注意,此应用程序适用于Windows Phone 7。您使用HtmlAgilityPack的方法是正确的 如果需要网站的所有文本,请选择innerText属性。但我建议您使用元描述标记(如果
请注意,此应用程序适用于Windows Phone 7。您使用
HtmlAgilityPack
的方法是正确的
如果需要网站的所有文本,请选择innerText
属性。但我建议您使用元描述
标记(如果可用)
编辑-转到元描述
。我相信Facebook就是这么做的:
Facebook链接示例
站点源
是的,我尝试了innerText,但结果是这样的:,我想要的结果在第505行和第518行之间。在这种情况下,我强烈建议您使用
meta description
标记。感谢您提供的示例,我想现在我了解了他们是如何做到这一点的。我现在将尝试使用描述来获取全文。