尝试用nltk标记python中的特例句子
我有一个Python脚本,它使用NLTK将文本分割成句子。我遇到的问题是两种特殊情况,我不确定是否可以使用此工具解决它。首先,句子之间偶尔会有字符。例如:尝试用nltk标记python中的特例句子,python,nlp,nltk,Python,Nlp,Nltk,我有一个Python脚本,它使用NLTK将文本分割成句子。我遇到的问题是两种特殊情况,我不确定是否可以使用此工具解决它。首先,句子之间偶尔会有字符。例如: This is the first sentence. // This is the second sentence. 如果我用sent\u tokenize(text)标记,我得到这是第一句。和//这是第二句。第二句应该是这是第二句。我可以去掉斜杠,但我正在寻找工具包已经提供的更干净的方法。也许指定句子必须以大写字母或任何字母开头
This is the first sentence. // This is the second sentence.
如果我用sent\u tokenize(text)
标记,我得到这是第一句。
和//这是第二句。
第二句应该是这是第二句。
我可以去掉斜杠,但我正在寻找工具包已经提供的更干净的方法。也许指定句子必须以大写字母或任何字母开头。我不知道标记化时是否可以指定任何参数
工具包可能不是我下一期的最佳工具,但有时一个句子会有一个类似的主标题。例如,标题中的
单词:这是我的故事。
当标记化时,应该是这是我的故事。
我可能需要用其他方法来解决这个问题,如果有冒号,去掉冒号上的所有内容,或者类似的东西。你的数据集是什么?也许了解数据的外观会有所帮助。它不是一个真正的数据集。这是一个单一的描述一个电视插曲从一个网络网站。该信息尚未在VDB上。对于儿童节目,一集通常是两集,因此描述只有两句话,每句话描述不同的一集。有时网络会在句子之间插入/
,有时会包含标题,如我给出的示例所示。正是这些罕见的案例引发了这一问题。我可以很容易地修复这些问题,但我希望工具包提供了一种更健壮、更可靠的方法。你的数据集是什么?也许了解数据的外观会有所帮助。它不是一个真正的数据集。这是一个单一的描述一个电视插曲从一个网络网站。该信息尚未在VDB上。对于儿童节目,一集通常是两集,因此描述只有两句话,每句话描述不同的一集。有时网络会在句子之间插入/
,有时会包含标题,如我给出的示例所示。正是这些罕见的案例引发了这一问题。我可以很容易地修复这些问题,但我希望工具包提供了一种更健壮、更可靠的方法。