尝试用nltk标记python中的特例句子_Python_Nlp_Nltk

尝试用nltk标记python中的特例句子

python nlp

尝试用nltk标记python中的特例句子,python,nlp,nltk,Python,Nlp,Nltk,我有一个Python脚本，它使用NLTK将文本分割成句子。我遇到的问题是两种特殊情况，我不确定是否可以使用此工具解决它。首先，句子之间偶尔会有字符。例如： This is the first sentence. // This is the second sentence. 如果我用sent\u tokenize（text）标记，我得到这是第一句。和//这是第二句。第二句应该是这是第二句。我可以去掉斜杠，但我正在寻找工具包已经提供的更干净的方法。也许指定句子必须以大写字母或任何字母开头

我有一个Python脚本，它使用NLTK将文本分割成句子。我遇到的问题是两种特殊情况，我不确定是否可以使用此工具解决它。首先，句子之间偶尔会有字符。例如：

    This is the first sentence. // This is the second sentence.

如果我用

sent\u tokenize（text）

标记，我得到

这是第一句。

和

//这是第二句。

第二句应该是

这是第二句。

我可以去掉斜杠，但我正在寻找工具包已经提供的更干净的方法。也许指定句子必须以大写字母或任何字母开头。我不知道标记化时是否可以指定任何参数

工具包可能不是我下一期的最佳工具，但有时一个句子会有一个类似的主标题。例如，标题中的

单词：这是我的故事。

当标记化时，应该是

这是我的故事。

我可能需要用其他方法来解决这个问题，如果有冒号，去掉冒号上的所有内容，或者类似的东西。

你的数据集是什么？也许了解数据的外观会有所帮助。它不是一个真正的数据集。这是一个单一的描述一个电视插曲从一个网络网站。该信息尚未在VDB上。对于儿童节目，一集通常是两集，因此描述只有两句话，每句话描述不同的一集。有时网络会在句子之间插入

，有时会包含标题，如我给出的示例所示。正是这些罕见的案例引发了这一问题。我可以很容易地修复这些问题，但我希望工具包提供了一种更健壮、更可靠的方法。你的数据集是什么？也许了解数据的外观会有所帮助。它不是一个真正的数据集。这是一个单一的描述一个电视插曲从一个网络网站。该信息尚未在VDB上。对于儿童节目，一集通常是两集，因此描述只有两句话，每句话描述不同的一集。有时网络会在句子之间插入

，有时会包含标题，如我给出的示例所示。正是这些罕见的案例引发了这一问题。我可以很容易地修复这些问题，但我希望工具包提供了一种更健壮、更可靠的方法。