Python 文本-如何将段落拆分成更小的句子(不表示句子结尾)
我正在使用Python 文本-如何将段落拆分成更小的句子(不表示句子结尾),python,text,analytics,text-analysis,Python,Text,Analytics,Text Analysis,我正在使用R和Python,并试图在某种程度上学习基于文本的分析和NLP 问题:如果一个句子是由以下句子组合而成,我该如何拆分 句子=我喜欢应用程序我喜欢系统我不喜欢遵循的流程 我想把这个句子分成几个部分 我喜欢这个应用程序 我喜欢这个系统 我不喜欢这个过程 注意:我可以像下面这样拆分一个句子,因为它有一个来表示句子的结尾 我喜欢这个申请。我喜欢这个系统。我不喜欢这个过程 Vj我可以提出一种方法来帮助您,因为您没有句子定界符,所以可以按照以下步骤进行: 应用句法分析提取段落的句法性质 示例:我
R
和Python
,并试图在某种程度上学习基于文本的分析和NLP
问题:如果一个句子是由以下句子组合而成,我该如何拆分
句子=我喜欢应用程序我喜欢系统我不喜欢遵循的流程
我想把这个句子分成几个部分
来表示句子的结尾
我喜欢这个申请。我喜欢这个系统。我不喜欢这个过程
Vj我可以提出一种方法来帮助您,因为您没有句子定界符,所以可以按照以下步骤进行:
- 应用句法分析提取段落的句法性质 示例:我喜欢应用程序我喜欢系统我不喜欢遵循的流程 将产生:PP-VB-DT-NN 要提取我建议使用的语法分析 人称代词 动词 限定词 名词 你可以看到一个句子有一个句法模式,可以用来把一个段落分成几个句子
- 建立一个句子可能的句法树模型。我所说的模型是指包含句子语法构建的文件/数据库 示例:模型可以包含以下行: PP VB DT NN-->(我吃了一个苹果) VB ADJ NN-->(创建新方法) 为了构建模型,你可以分析许多句子(你的句子集越大,你的系统就越准确)。你可以使用一个自己建造的
- 一旦建立了模型,就可以开始编写程序了。您的算法的主线是: 1-接收输入段落(作为输入或文件) 2-应用Stanford解析器生成段落的语法树 3-根据段落部分与先前构建的句法树(句子模型-->模式)的比较,开始拆分段落 你需要用一个句子模型来衡量段落的一部分
您可能需要使用(自然语言工具包)。谢谢ZimYth。我正在尝试这种方法。我会发布代码和更新,一旦我到达某处。在这一点上,我正在学习NLTK使用基于句法树模型的解析。@MangalPandey这是一本研究自然语言处理的好书(Daniel Jurafsky和James H.Martin的《语音和语言处理》)。我就是喜欢这本书!!,如果这是一个有帮助的答案,也许你可以同意;)