Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/277.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
尝试用nltk标记python中的特例句子_Python_Nlp_Nltk - Fatal编程技术网

尝试用nltk标记python中的特例句子

尝试用nltk标记python中的特例句子,python,nlp,nltk,Python,Nlp,Nltk,我有一个Python脚本,它使用NLTK将文本分割成句子。我遇到的问题是两种特殊情况,我不确定是否可以使用此工具解决它。首先,句子之间偶尔会有字符。例如: This is the first sentence. // This is the second sentence. 如果我用sent\u tokenize(text)标记,我得到这是第一句。和//这是第二句。第二句应该是这是第二句。我可以去掉斜杠,但我正在寻找工具包已经提供的更干净的方法。也许指定句子必须以大写字母或任何字母开头

我有一个Python脚本,它使用NLTK将文本分割成句子。我遇到的问题是两种特殊情况,我不确定是否可以使用此工具解决它。首先,句子之间偶尔会有字符。例如:

    This is the first sentence. // This is the second sentence.
如果我用
sent\u tokenize(text)
标记,我得到
这是第一句。
//这是第二句。
第二句应该是
这是第二句。
我可以去掉斜杠,但我正在寻找工具包已经提供的更干净的方法。也许指定句子必须以大写字母或任何字母开头。我不知道标记化时是否可以指定任何参数


工具包可能不是我下一期的最佳工具,但有时一个句子会有一个类似的主标题。例如,标题中的
单词:这是我的故事。
当标记化时,应该是
这是我的故事。
我可能需要用其他方法来解决这个问题,如果有冒号,去掉冒号上的所有内容,或者类似的东西。

你的数据集是什么?也许了解数据的外观会有所帮助。它不是一个真正的数据集。这是一个单一的描述一个电视插曲从一个网络网站。该信息尚未在VDB上。对于儿童节目,一集通常是两集,因此描述只有两句话,每句话描述不同的一集。有时网络会在句子之间插入
/
,有时会包含标题,如我给出的示例所示。正是这些罕见的案例引发了这一问题。我可以很容易地修复这些问题,但我希望工具包提供了一种更健壮、更可靠的方法。你的数据集是什么?也许了解数据的外观会有所帮助。它不是一个真正的数据集。这是一个单一的描述一个电视插曲从一个网络网站。该信息尚未在VDB上。对于儿童节目,一集通常是两集,因此描述只有两句话,每句话描述不同的一集。有时网络会在句子之间插入
/
,有时会包含标题,如我给出的示例所示。正是这些罕见的案例引发了这一问题。我可以很容易地修复这些问题,但我希望工具包提供了一种更健壮、更可靠的方法。