Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/375.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
有没有什么工具可以用Java从英文文本或文章中提取关键字?_Java_Parsing_Text_Semantics - Fatal编程技术网

有没有什么工具可以用Java从英文文本或文章中提取关键字?

有没有什么工具可以用Java从英文文本或文章中提取关键字?,java,parsing,text,semantics,Java,Parsing,Text,Semantics,我试图通过机器识别网站的类型(英文)。我尝试下载网站的主页,下载html页面,解析并获取网页的内容。比如这里有一些来自CNN.com的上下文。我尝试获取网页的关键字,并与我的数据库进行映射。如果关键词包括likenews、breaknews。该网站将转到新闻网站。如果有像健康、医疗这样的词,那就是医疗网站 有一些工具可以做文本切分,但不容易找到一个工具做语义,比如网上购物,它是一个关键词,不应该拼成两个词。这些组合将是有用的信息。但“网上购物”将不再那么有用,因为它可能存在于在线旅游中 •肯尼迪

我试图通过机器识别网站的类型(英文)。我尝试下载网站的主页,下载html页面,解析并获取网页的内容。比如这里有一些来自CNN.com的上下文。我尝试获取网页的关键字,并与我的数据库进行映射。如果关键词包括likenews、breaknews。该网站将转到新闻网站。如果有像健康、医疗这样的词,那就是医疗网站

有一些工具可以做文本切分,但不容易找到一个工具做语义,比如网上购物,它是一个关键词,不应该拼成两个词。这些组合将是有用的信息。但“网上购物”将不再那么有用,因为它可能存在于在线旅游中

•肯尼迪纽瓦克机场重新开放 •拉瓜迪亚机场1条跑道重新开放 •周一取消了4155个航班 •完整故事

* LaGuardia Airport snowplows busy Video
* Are you stranded? | Airport delays
* Safety tips for winter weather
* Frosty fun Video | Small dog, deep snow
最新消息

* Easter eggs used to smuggle cocaine
* Salmonella forces cilantro, parsley recall
* Obama's surprising verdict on Vick
* Blue Note baritone Bernie Wilson dead
* Busch aide to 911: She's not waking up
* Girl, 15, last seen working at store in '90
* Teena Marie's death shocks fans
* Terror network 'dismantled' in Morocco
* Saudis: 'Militant' had al Qaeda ties
* Ticker: Gov. blasts Obama 'birthers'
* Game show goof is 800K mistakeVideo
* Chopper saves calf on frozen pondVideo
* Pickpocketing becomes hands-freeVideo
* Chilean miners going to Disney World
* Who's the most intriguing of 2010?
* Natalie Portman is pregnant, engaged
* 'Convert all gifts from aunt'  CNNMoney
* Who controls the thermostat at home?
* This Just In: CNN's news blog

我尝试获取网站的关键字。之后,我用这些词来做映射,我可以确定网站的类型。 在数据库中,存在一些单词,例如: 新闻网站:新闻,突发新闻,
购物网站:易趣、亚马逊……

我知道,一般来说,你需要一个工具来对文本信息进行语义分类。在这种情况下,将文本从数据库映射到关键字并不是最好的方法,因为它没有考虑单词的多义和同义。为了克服这些限制,人们发明了许多技术。最著名的是,它的后代喜欢

但它们都不能单独解决几个词的术语的问题。处理此类术语最严格的方法是将单词连接到术语中。也就是说,将所有出现的“网上购物”替换为单个串联术语“网上购物”。是的,这需要O(N*M),其中N是文本中的单词数,M是要处理的多单词项数,但我自己的经验表明,这是最健壮和计算效率最高的方法(如果你知道更好的方法,请通知我)

如果您已经有了词干标记流,您还可以使用某种模式匹配来查找单词序列,构成术语


仅供参考:在自然语言处理领域,有一些方法可以帮助从文本本身获取关键词和概念。例如,见

因此,您尝试从文本中获取关键字,或者您已经有了包含关键字的DB,并且希望在文本中找到它们以确定文本的主题?我尝试获取网站的关键字。之后,我用这些词来做映射,我可以确定网站的类型。在数据库中,有一些词,如:新闻网站:新闻,突发新闻,购物网站:易趣,亚马逊。。。。