Matlab 基于tweet的稀疏编码地理坐标估计_Matlab_Sparse Matrix

Matlab 基于tweet的稀疏编码地理坐标估计

matlab

Matlab 基于tweet的稀疏编码地理坐标估计,matlab,sparse-matrix,Matlab,Sparse Matrix,我试图仅根据推特内容的特征来估计推特上推特的地理坐标。我使用了一个论文中的算法。基本上，用户的推文被收集并预处理以创建序列/字数向量。提取子向量（面片）并使用无监督学习方法学习字典（）。使用学习的字典，可以找到稀疏代码。在此基础上，提出了一种最大池方案。最后，使用键（稀疏代码）/值（地理坐标）条目创建查找表。为了估计tweet（同一用户）的地理坐标，我们计算相应的稀疏码，然后使用kNN找到邻居。可以通过这些相邻向量的平均值来估计地理坐标以下是我如何实现该算法：我从数据集中提取数据，按用户

我试图仅根据推特内容的特征来估计推特上推特的地理坐标。我使用了一个论文中的算法。
基本上，用户的推文被收集并预处理以创建序列/字数向量。提取子向量（面片）并使用无监督学习方法学习字典（）。使用学习的字典，可以找到稀疏代码。在此基础上，提出了一种最大池方案。最后，使用键（稀疏代码）/值（地理坐标）条目创建查找表。为了估计tweet（同一用户）的地理坐标，我们计算相应的稀疏码，然后使用kNN找到邻居。可以通过这些相邻向量的平均值来估计地理坐标

以下是我如何实现该算法：

我从数据集中提取数据，按用户分离数据（例如，80%的用户用于训练集，20%的用户用于验证集）
将面片/子向量放在一起，以创建训练集和验证集的大型矩阵
为了学习字典，我使用了KSVD-BOX：
对于稀疏编码，我使用了上述同一网站上的OMP-BOX
一些必要参数：
- N=64（面片或子向量的维数）
- K=600（原子数）
- T=10（稀疏性）
- kNN=30（最近邻的数量）
- ε=0.1（白化常数）

可以看出，该算法运行速度非常快，训练时间为10分钟，测试时间为5分钟。然而，我从未获得过高精度。事实上，平均值距离误差始终在1000 km左右，这不如本文中的（500 km）。我遵循了论文中的每一点，包括增强选项。这是我的名片

嗯，我知道描述很长，但我试着用一种简单的方式解释我所理解的。我希望你能帮助我提高准确性。谢谢你的病人