Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/294.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 以正确的格式获取文本以便与spacy一起使用_Python_Spacy - Fatal编程技术网

Python 以正确的格式获取文本以便与spacy一起使用

Python 以正确的格式获取文本以便与spacy一起使用,python,spacy,Python,Spacy,我正在努力为spacy准备最适合的文本数据格式。 我创建了一个显示原始文本数据结构的。 如果您在excel中打开它,您会看到每个单元格都是一个文档,但是第三个文档包含换行符,但我不希望文档中的新行被解析为新文档,只希望一个新单元格代表新文档 如果我将CSV导入pandasDF,生成的DF将保留我想要的结构,但spacy不会直接从此DF工作 df = pd.read_csv('test_line_breaks.csv') 我需要将这些数据转换成spacy可以使用的格式,以便它正确识别新文档,并且

我正在努力为spacy准备最适合的文本数据格式。 我创建了一个显示原始文本数据结构的。 如果您在excel中打开它,您会看到每个单元格都是一个文档,但是第三个文档包含换行符,但我不希望文档中的新行被解析为新文档,只希望一个新单元格代表新文档

如果我将CSV导入pandasDF,生成的DF将保留我想要的结构,但spacy不会直接从此DF工作

df = pd.read_csv('test_line_breaks.csv')
我需要将这些数据转换成spacy可以使用的格式,以便它正确识别新文档,并且不会将文档中的新行解释为新文档


我希望这是有道理的。

您遇到了哪些错误?Pandas应该能够处理如此简单的CSV…@zwer我在使用Pandas时不会出错,只是spacy不是设计用来处理数据帧的。这个问题更多的是关于如何将生成的pandas数据帧中的数据转换成与spacy一起工作的格式。@Tom如果这是关于从pandas转换到spacy,请尝试提供一个再现问题的最小示例。目前还不清楚这个问题是CSV中的数据造成的,还是数据来自熊猫。我已经找到了解决办法。通过将原始CSV中的换行符替换为空格,然后读取CSV代码“text=open('test_line_breaks.CSV')。read()将数据以spacy接受的形式输入python。