使用Python nltk和SQL跟踪疾病的演变_Python_Sql_Algorithm_Postgresql_Twitter

使用Python nltk和SQL跟踪疾病的演变

python sql algorithm postgresql twitter

使用Python nltk和SQL跟踪疾病的演变,python,sql,algorithm,postgresql,twitter,Python,Sql,Algorithm,Postgresql,Twitter,我有很多千兆字节的Facebook/Twitter/RSS数据我用它来跟踪一个普通人群中甲状旁腺功能亢进的演变，从一个人通过服用药物、治疗和最终结果被诊断患有某种疾病的类型开始我是NLTK新手，我确实有很好的Python/SQL经验我所有的数据都有甲状旁腺；然而，正如你在下面看到的（twitter数据样本），这在语言上是可怕的： omg i think my parathyroid is screwed up!!! Have been stuck at parathyroid hormon

我有很多千兆字节的Facebook/Twitter/RSS数据

我用它来跟踪一个普通人群中甲状旁腺功能亢进的演变，从一个人通过服用药物、治疗和最终结果被诊断患有某种疾病的类型开始

我是NLTK新手，我确实有很好的Python/SQL经验

我所有的数据都有

甲状旁腺

；然而，正如你在下面看到的（twitter数据样本），这在语言上是可怕的：

omg i think my parathyroid is screwed up!!!
Have been stuck at parathyroid hormone. STOP GETTING ON TWITTER JASMINE.
Cryopreservation of Parathyroid Tissue after Parathyroid Surgery for Renal Hyperparathyroidism
The Parathyroid as a Target for Radiation Damage
it's for the parathyroid hormone la

所有这些数据都存储在数据库中。我们也有诸如海报、帖子ID、帖子文本等字段

我想知道是否有人能为我指出以下方面的正确方向：

是否已经有有效的算法来帮助我做我需要的事情

从语言学角度来说，我们如何在数据中找到相关性？我们正在努力追踪模式

是否有某种“网格”形式，我应该将数据放入其中，以帮助进行分析

“你如何处理取样偏差？”乔尔科内特谢谢你的提问。这就是挑战。我还不知道