Javascript Chrome扩展-获取网页的主文本

Javascript Chrome扩展-获取网页的主文本,javascript,google-chrome,google-chrome-extension,Javascript,Google Chrome,Google Chrome Extension,我正在开发一个Chrome扩展,我对获取网站的主要内容感兴趣。例如,我想获取一篇文章的文本,但对从菜单中获取文本不感兴趣。我想要这个,这样我就可以用这个文本说话了 我真的不知道如何开始。我宁愿不使用ID和标记进行过滤,因为它们不够一致。做我想做的事最好的方法是什么?(只能是chrome)您唯一的选择是使用id、类或标记进行筛选。大多数这样做的应用程序都有一个常见id、类、标记等的白名单。在engadget.com、reddit等网站上使用。如果该网站在HTML5中使用语义标记,你的任务会更简单,

我正在开发一个
Chrome扩展
,我对获取网站的主要内容感兴趣。例如,我想获取一篇文章的文本,但对从菜单中获取文本不感兴趣。我想要这个,这样我就可以用这个文本说话了


我真的不知道如何开始。我宁愿不使用ID和标记进行过滤,因为它们不够一致。做我想做的事最好的方法是什么?(只能是chrome)

您唯一的选择是使用id、类或标记进行筛选。大多数这样做的应用程序都有一个常见id、类、标记等的白名单。在engadget.com、reddit等网站上使用。如果该网站在HTML5中使用语义标记,你的任务会更简单,但你不能指望所有人都使用它

你不可能从任何地方的任何网站上获取“文章”。你唯一的选择是选择你想要处理的特定站点,手动分析它们的标记,并相应地为你的应用程序编写代码


另一种想法是,您可以从站点获取RSS或atom提要,这将使事情变得更简单。

感谢您诚实的回答。我希望谷歌有一些API或其他东西(因为他们知道如何索引网页)。有没有我可以在脚本中实现的使用这些白名单的库?没有我知道的公开的白名单,对不起。这是HTML5中的语义标记应该帮助解决的问题之一,但它还没有被普遍使用。