Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/362.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 表格中的文本?_Python_Sql_Database_Datatable - Fatal编程技术网

Python 表格中的文本?

Python 表格中的文本?,python,sql,database,datatable,Python,Sql,Database,Datatable,我喜欢将文献综述中的大量信息组织在“表格”中(信息与产品比较不同,但用于科学研究),但通常我输入的信息可能包含行或段落,并且在电子表格中变得难以处理。我听说SQL关系表经常用于此目的;对于数据分析,我使用Python或R解析平面文本文件中的数据,并将其输入SQLite。我是否应该创建一个“标记”文本文件并执行相同的操作?我想知道人们使用什么界面来输入和查看这样的文本密集型表格?或者,我想知道是否有其他软件可以用于此目的 存储和检索数据的方式将取决于您计划如何处理数据 文本文件在可管理性方面存在问

我喜欢将文献综述中的大量信息组织在“表格”中(信息与产品比较不同,但用于科学研究),但通常我输入的信息可能包含行或段落,并且在电子表格中变得难以处理。我听说SQL关系表经常用于此目的;对于数据分析,我使用Python或R解析平面文本文件中的数据,并将其输入SQLite。我是否应该创建一个“标记”文本文件并执行相同的操作?我想知道人们使用什么界面来输入和查看这样的文本密集型表格?或者,我想知道是否有其他软件可以用于此目的

存储和检索数据的方式将取决于您计划如何处理数据

文本文件在可管理性方面存在问题。你无法真正管理一个有成千上万个文件的目录树。搜索它们将是一场噩梦。如果同时进行更新,则必须处理锁和一系列其他问题。它们并不是用来存储你要挖掘的大量数据的

关系数据库很好,但您必须将信息解析为有意义的位,将其分解为关系,并将结果数据放入表中,以使其具有任何意义。将所有文本(经过一些预处理后)转储到单个列中不是很有用。我所说的结果是SQL数据库存储“结构化”数据,可以使用该结构查询这些数据


另一种认为你可以考虑使用的是文档数据库。有很多,虽然我没有个人经验,但我听过一个以JSON文档形式存储信息的演示。您可以使用脚本挖掘数据,这些脚本可以根据某些条件进行排序,然后返回已排序的文档。如果您正在处理大量文本数据,那么至少值得一试。流行的说法是,这些引擎比它们的关系引擎更具可伸缩性。

存储和检索数据的方式将取决于您计划如何使用它

文本文件在可管理性方面存在问题。你无法真正管理一个有成千上万个文件的目录树。搜索它们将是一场噩梦。如果同时进行更新,则必须处理锁和一系列其他问题。它们并不是用来存储你要挖掘的大量数据的

关系数据库很好,但您必须将信息解析为有意义的位,将其分解为关系,并将结果数据放入表中,以使其具有任何意义。将所有文本(经过一些预处理后)转储到单个列中不是很有用。我所说的结果是SQL数据库存储“结构化”数据,可以使用该结构查询这些数据


另一种认为你可以考虑使用的是文档数据库。有很多,虽然我没有个人经验,但我听过一个以JSON文档形式存储信息的演示。您可以使用脚本挖掘数据,这些脚本可以根据某些条件进行排序,然后返回已排序的文档。如果您正在处理大量文本数据,那么至少值得一试。人们普遍认为,这些引擎比它们的关系型引擎更具可伸缩性。

+1回答得不错。很多人认为SQL只是一个垃圾场(对OP来说没有冒犯),我很高兴你把“结构化”的评论放进去了。谢谢!我的目标是实际存储结构化数据——“数据”是我从文献中获取的文本块,结构是我根据提取的信息类型指定的结构;唯一的问题是,每个字段中的条目有时可能很大……听起来像是大量的文本数据。您计划如何处理它们?模式搜索?语言分析?不幸的是,不是模式搜索(尽管我精通模式搜索),因为我提取的信息是特定于内容的。对语言分析算法的投资也不值得,因为我每隔几周就制作许多这样的表,每次都需要不同的内容。我发现目前还没有一种灵活的算法能够与人类思维的熟练程度相匹配。所以复制粘贴,或者手动输入我的评估。啊好的。因此,您基本上希望将其用作数据转储。如果你只是想在“分析”中保留大量的文本数据,而不打算以后再挖掘它(例如,
All content with analysis==“good”
),你可以继续使用带有一些注释的纯文本文件。+1回答不错。很多人认为SQL只是一个垃圾场(对OP来说没有冒犯),我很高兴你把“结构化”的评论放进去了。谢谢!我的目标是实际存储结构化数据——“数据”是我从文献中获取的文本块,结构是我根据提取的信息类型指定的结构;唯一的问题是,每个字段中的条目有时可能很大……听起来像是大量的文本数据。您计划如何处理它们?模式搜索?语言分析?不幸的是,不是模式搜索(尽管我精通模式搜索),因为我提取的信息是特定于内容的。对语言分析算法的投资也不值得,因为我每隔几周就制作许多这样的表,每次都需要不同的内容。我发现目前还没有一种灵活的算法能够与人类思维的熟练程度相匹配。所以复制粘贴,或者手动输入我的评估。啊好的。因此,您基本上希望将其用作数据转储。如果你只是想在“分析”中保留大量这样的文本数据,而不打算以后挖掘它(例如
Al