从邮政地址数据中提取相关属性,以便对这些数据进行PCA(使用R)

从邮政地址数据中提取相关属性,以便对这些数据进行PCA(使用R),r,data-mining,text-mining,pca,text-extraction,R,Data Mining,Text Mining,Pca,Text Extraction,我有一个包含字符串信息的大文件:邮政地址。 地址示例:“hendrik de mol wemmel街1780号59/7” 我需要对这些数据进行PCA分析,以便在个人图表上识别代表物理交付岗位(建筑、公司等)的集群。为此,我需要从字符串中提取数字(或非数字)相关信息,并将其作为我的属性,然后我可以使用PCA对其进行分析 我从创建36个属性(A-Z和0-9)开始,这些属性表示每个字母字符和数字的出现。但是PCA还没有给出一个好的结果,我需要提取更多的属性来描述数据 我需要你的想法,关于我可以从数据中

我有一个包含字符串信息的大文件:邮政地址。 地址示例:“hendrik de mol wemmel街1780号59/7”

我需要对这些数据进行PCA分析,以便在个人图表上识别代表物理交付岗位(建筑、公司等)的集群。为此,我需要从字符串中提取数字(或非数字)相关信息,并将其作为我的属性,然后我可以使用PCA对其进行分析

我从创建36个属性(A-Z和0-9)开始,这些属性表示每个字母字符和数字的出现。但是PCA还没有给出一个好的结果,我需要提取更多的属性来描述数据

我需要你的想法,关于我可以从数据中提取什么,以便在单独的图形上有一个良好的集群表示。我用的是R


谢谢。

我认为这项任务不适合PCA。我会首先尝试在两个地址之间引入某种距离度量。您可以或者将整个地址作为一个单一功能使用,然后有很多通用的字符串相似性度量,例如Levenshtein距离。在
utils
包中有一个引入更多功能,如建筑物数量、邮政编码等,并使用欧几里得距离和文本相似距离的组合。你的36个变量似乎太多了。无论如何,您的距离度量应该为域中的“关闭”地址提供较小的值,而为不相关的地址提供较大的值

在决定距离度量和选择特征后,使用自定义距离函数应用于数据。你可以用这个软件包。可以找到确定集群数量的好建议


有了它,你可能会找到你的集群。祝你好运。

我不清楚你想通过PCA实现什么。你能更详细地描述一下你的任务吗?实际上我的资料是通过信件收集的。我想使用PCA来探索单个图形,从而确定一些最终的集群,这些集群可能代表建筑物的物理交付岗位。每个集群将包含与该建筑相关的不同地址。我选择PCA是因为我不知道其他的方法。如果你想其他事情,请告诉我。这可能会引起兴趣:谢谢你的回答。实际上,变量中没有(街道、大道等)这样的类别。我有一个地址字符串。尽管有许多地址是同一个人的地址,但它们不是相同的字符串,因为它们是以字母形式收集的。我相信解决方案是按照您所说的计算距离。感谢您的链接和帮助。