从邮政地址数据中提取相关属性，以便对这些数据进行PCA（使用R）_R_Data Mining_Text Mining_Pca_Text Extraction

从邮政地址数据中提取相关属性，以便对这些数据进行PCA（使用R）

从邮政地址数据中提取相关属性，以便对这些数据进行PCA（使用R）,r,data-mining,text-mining,pca,text-extraction,R,Data Mining,Text Mining,Pca,Text Extraction,我有一个包含字符串信息的大文件：邮政地址。地址示例：“hendrik de mol wemmel街1780号59/7” 我需要对这些数据进行PCA分析，以便在个人图表上识别代表物理交付岗位（建筑、公司等）的集群。为此，我需要从字符串中提取数字（或非数字）相关信息，并将其作为我的属性，然后我可以使用PCA对其进行分析我从创建36个属性（A-Z和0-9）开始，这些属性表示每个字母字符和数字的出现。但是PCA还没有给出一个好的结果，我需要提取更多的属性来描述数据我需要你的想法，关于我可以从数据中

我有一个包含字符串信息的大文件：邮政地址。地址示例：“hendrik de mol wemmel街1780号59/7”

我需要对这些数据进行PCA分析，以便在个人图表上识别代表物理交付岗位（建筑、公司等）的集群。为此，我需要从字符串中提取数字（或非数字）相关信息，并将其作为我的属性，然后我可以使用PCA对其进行分析

我从创建36个属性（A-Z和0-9）开始，这些属性表示每个字母字符和数字的出现。但是PCA还没有给出一个好的结果，我需要提取更多的属性来描述数据

我需要你的想法，关于我可以从数据中提取什么，以便在单独的图形上有一个良好的集群表示。我用的是R

谢谢。

我认为这项任务不适合PCA。我会首先尝试在两个地址之间引入某种距离度量。您可以或者将整个地址作为一个单一功能使用，然后有很多通用的字符串相似性度量，例如Levenshtein距离。在
utils
包中有一个或引入更多功能，如建筑物数量、邮政编码等，并使用欧几里得距离和文本相似距离的组合。你的36个变量似乎太多了。无论如何，您的距离度量应该为域中的“关闭”地址提供较小的值，而为不相关的地址提供较大的值
在决定距离度量和选择特征后，使用自定义距离函数应用于数据。你可以用这个软件包。可以找到确定集群数量的好建议

有了它，你可能会找到你的集群。祝你好运。
我不清楚你想通过PCA实现什么。你能更详细地描述一下你的任务吗？实际上我的资料是通过信件收集的。我想使用PCA来探索单个图形，从而确定一些最终的集群，这些集群可能代表建筑物的物理交付岗位。每个集群将包含与该建筑相关的不同地址。我选择PCA是因为我不知道其他的方法。如果你想其他事情，请告诉我。这可能会引起兴趣：谢谢你的回答。实际上，变量中没有（街道、大道等）这样的类别。我有一个地址字符串。尽管有许多地址是同一个人的地址，但它们不是相同的字符串，因为它们是以字母形式收集的。我相信解决方案是按照您所说的计算距离。感谢您的链接和帮助。