C#从HTML文档中提取内容

C#从HTML文档中提取内容,c#,html,windows-phone-7,C#,Html,Windows Phone 7,我想知道,当一个链接被发布时,我如何做类似于Facebook的事情,或者像缩短链接服务那样,可以获得页面标题和内容 例如: 我的想法是只从网页中获取纯文本,例如,如果url是一篇报纸文章,我如何才能仅获取新闻文本,如图所示。目前,我一直在尝试使用HtmlAgilityPack,但我永远无法将文本清理干净 请注意,此应用程序适用于Windows Phone 7。您使用HtmlAgilityPack的方法是正确的 如果需要网站的所有文本,请选择innerText属性。但我建议您使用元描述标记(如果

我想知道,当一个链接被发布时,我如何做类似于Facebook的事情,或者像缩短链接服务那样,可以获得页面标题和内容

例如:

我的想法是只从网页中获取纯文本,例如,如果url是一篇报纸文章,我如何才能仅获取新闻文本,如图所示。目前,我一直在尝试使用HtmlAgilityPack,但我永远无法将文本清理干净


请注意,此应用程序适用于Windows Phone 7。

您使用
HtmlAgilityPack
的方法是正确的

如果需要网站的所有文本,请选择
innerText
属性。但我建议您使用
元描述
标记(如果可用)

编辑-转到
元描述
。我相信Facebook就是这么做的:

Facebook链接示例

站点源


是的,我尝试了innerText,但结果是这样的:,我想要的结果在第505行和第518行之间。在这种情况下,我强烈建议您使用
meta description
标记。感谢您提供的示例,我想现在我了解了他们是如何做到这一点的。我现在将尝试使用描述来获取全文。