Matlab 基于tweet的稀疏编码地理坐标估计

Matlab 基于tweet的稀疏编码地理坐标估计,matlab,sparse-matrix,Matlab,Sparse Matrix,我试图仅根据推特内容的特征来估计推特上推特的地理坐标。我使用了一个论文中的算法。 基本上,用户的推文被收集并预处理以创建序列/字数向量。提取子向量(面片)并使用无监督学习方法学习字典()。使用学习的字典,可以找到稀疏代码。在此基础上,提出了一种最大池方案。最后,使用键(稀疏代码)/值(地理坐标)条目创建查找表。为了估计tweet(同一用户)的地理坐标,我们计算相应的稀疏码,然后使用kNN找到邻居。可以通过这些相邻向量的平均值来估计地理坐标 以下是我如何实现该算法: 我从数据集中提取数据,按用户


我试图仅根据推特内容的特征来估计推特上推特的地理坐标。我使用了一个论文中的算法。
基本上,用户的推文被收集并预处理以创建序列/字数向量。提取子向量(面片)并使用无监督学习方法学习字典()。使用学习的字典,可以找到稀疏代码。在此基础上,提出了一种最大池方案。最后,使用键(稀疏代码)/值(地理坐标)条目创建查找表。为了估计tweet(同一用户)的地理坐标,我们计算相应的稀疏码,然后使用kNN找到邻居。可以通过这些相邻向量的平均值来估计地理坐标

以下是我如何实现该算法:

  • 我从数据集中提取数据,按用户分离数据(例如,80%的用户用于训练集,20%的用户用于验证集)
  • 将面片/子向量放在一起,以创建训练集和验证集的大型矩阵
  • 为了学习字典,我使用了KSVD-BOX:
  • 对于稀疏编码,我使用了上述同一网站上的OMP-BOX
  • 一些必要参数:
    • N=64(面片或子向量的维数)
    • K=600(原子数)
    • T=10(稀疏性)
    • kNN=30(最近邻的数量)
    • ε=0.1(白化常数)
可以看出,该算法运行速度非常快,训练时间为10分钟,测试时间为5分钟。然而,我从未获得过高精度。事实上,平均值距离误差始终在1000 km左右,这不如本文中的(500 km)。我遵循了论文中的每一点,包括增强选项。这是我的名片

嗯,我知道描述很长,但我试着用一种简单的方式解释我所理解的。我希望你能帮助我提高准确性。 谢谢你的病人