Data structures 非结构化数据方法和解决方案_Data Structures_Nlp_Data Science_Data Warehouse

Data structures 非结构化数据方法和解决方案

data-structures nlp

Data structures 非结构化数据方法和解决方案,data-structures,nlp,data-science,data-warehouse,Data Structures,Nlp,Data Science,Data Warehouse,我有很多非结构化/半结构化的数据，比如说，电子邮件中有基本的to/from/subjects，但有很多正文包含各种其他类型的数据。我希望挖掘这些信息，以便在包含地理数据的情况下为某些自动化、洞察甚至热图提供信息不过，我正试图以正确的方式处理这个问题。从系统体系结构来看，是否有人有“操作顺序”来设计系统和流程我能做的最好的客人：第一步是定义存储数据的“存储桶” 例如，第2步是在to/from/subject数据周围应用图形或一般结构。第3步可以是应用NLP或Watson来挖掘非结构化数据中

我有很多非结构化/半结构化的数据，比如说，电子邮件中有基本的to/from/subjects，但有很多正文包含各种其他类型的数据。我希望挖掘这些信息，以便在包含地理数据的情况下为某些自动化、洞察甚至热图提供信息

不过，我正试图以正确的方式处理这个问题。从系统体系结构来看，是否有人有“操作顺序”来设计系统和流程

我能做的最好的客人：第一步是定义存储数据的“存储桶” 例如，第2步是在to/from/subject数据周围应用图形或一般结构。第3步可以是应用NLP或Watson来挖掘非结构化数据中的某些关键字或情感。围绕重要发现的用例将推动所有这些。第4步可能是应用“找到的”结构，并从中构建功能、自动化和流程

这有什么意义吗？希望我的思路正确，但我很想听听想法。

这取决于分析的目的。一般来说，过程可以是打开文件，从中提取所有文本，应用NLP方法提取您想要的信息，如果需要，处理信息以从中获取更多知识并存储。你把它放在哪里又取决于它的用途。对于非结构化相关数据的仪表板，我喜欢使用Elastic/Kibana stack。您可以添加一个层，创建具有类似正文的邮件组。这将帮助您计算出每种邮件的频率，您可以说是

类型，这取决于此分析的目的。一般来说，过程可以是打开文件，从中提取所有文本，应用NLP方法提取您想要的信息，如果需要，处理信息以从中获取更多知识并存储。你把它放在哪里又取决于它的用途。对于非结构化相关数据的仪表板，我喜欢使用Elastic/Kibana stack。您可以添加一个层，创建具有类似正文的邮件组。这将帮助您计算出每种邮件的频率，您可以说是类型。