Data structures 非结构化数据方法和解决方案

Data structures 非结构化数据方法和解决方案,data-structures,nlp,data-science,data-warehouse,Data Structures,Nlp,Data Science,Data Warehouse,我有很多非结构化/半结构化的数据,比如说,电子邮件中有基本的to/from/subjects,但有很多正文包含各种其他类型的数据。我希望挖掘这些信息,以便在包含地理数据的情况下为某些自动化、洞察甚至热图提供信息 不过,我正试图以正确的方式处理这个问题。从系统体系结构来看,是否有人有“操作顺序”来设计系统和流程 我能做的最好的客人: 第一步是定义存储数据的“存储桶” 例如,第2步是在to/from/subject数据周围应用图形或一般结构。 第3步可以是应用NLP或Watson来挖掘非结构化数据中

我有很多非结构化/半结构化的数据,比如说,电子邮件中有基本的to/from/subjects,但有很多正文包含各种其他类型的数据。我希望挖掘这些信息,以便在包含地理数据的情况下为某些自动化、洞察甚至热图提供信息

不过,我正试图以正确的方式处理这个问题。从系统体系结构来看,是否有人有“操作顺序”来设计系统和流程

我能做的最好的客人: 第一步是定义存储数据的“存储桶” 例如,第2步是在to/from/subject数据周围应用图形或一般结构。 第3步可以是应用NLP或Watson来挖掘非结构化数据中的某些关键字或情感。围绕重要发现的用例将推动所有这些。 第4步可能是应用“找到的”结构,并从中构建功能、自动化和流程


这有什么意义吗?希望我的思路正确,但我很想听听想法。

这取决于分析的目的。一般来说,过程可以是打开文件,从中提取所有文本,应用NLP方法提取您想要的信息,如果需要,处理信息以从中获取更多知识并存储。你把它放在哪里又取决于它的用途。对于非结构化相关数据的仪表板,我喜欢使用Elastic/Kibana stack。您可以添加一个层,创建具有类似正文的邮件组。这将帮助您计算出每种邮件的频率,您可以说是
类型
,这取决于此分析的目的。一般来说,过程可以是打开文件,从中提取所有文本,应用NLP方法提取您想要的信息,如果需要,处理信息以从中获取更多知识并存储。你把它放在哪里又取决于它的用途。对于非结构化相关数据的仪表板,我喜欢使用Elastic/Kibana stack。您可以添加一个层,创建具有类似正文的邮件组。这将帮助您计算出每种邮件的频率,您可以说是
类型