Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/ant/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用Python nltk和SQL跟踪疾病的演变_Python_Sql_Algorithm_Postgresql_Twitter - Fatal编程技术网

使用Python nltk和SQL跟踪疾病的演变

使用Python nltk和SQL跟踪疾病的演变,python,sql,algorithm,postgresql,twitter,Python,Sql,Algorithm,Postgresql,Twitter,我有很多千兆字节的Facebook/Twitter/RSS数据 我用它来跟踪一个普通人群中甲状旁腺功能亢进的演变,从一个人通过服用药物、治疗和最终结果被诊断患有某种疾病的类型开始 我是NLTK新手,我确实有很好的Python/SQL经验 我所有的数据都有甲状旁腺;然而,正如你在下面看到的(twitter数据样本),这在语言上是可怕的: omg i think my parathyroid is screwed up!!! Have been stuck at parathyroid hormon

我有很多千兆字节的Facebook/Twitter/RSS数据

我用它来跟踪一个普通人群中甲状旁腺功能亢进的演变,从一个人通过服用药物、治疗和最终结果被诊断患有某种疾病的类型开始

我是NLTK新手,我确实有很好的Python/SQL经验

我所有的数据都有
甲状旁腺
;然而,正如你在下面看到的(twitter数据样本),这在语言上是可怕的:

omg i think my parathyroid is screwed up!!!
Have been stuck at parathyroid hormone. STOP GETTING ON TWITTER JASMINE.
Cryopreservation of Parathyroid Tissue after Parathyroid Surgery for Renal Hyperparathyroidism
The Parathyroid as a Target for Radiation Damage
it's for the parathyroid hormone la
所有这些数据都存储在数据库中。我们也有诸如海报、帖子ID、帖子文本等字段

我想知道是否有人能为我指出以下方面的正确方向:

  • 是否已经有有效的算法来帮助我做我需要的事情
  • 从语言学角度来说,我们如何在数据中找到相关性?我们正在努力追踪模式
  • 是否有某种“网格”形式,我应该将数据放入其中,以帮助进行分析

  • “你如何处理取样偏差?”乔尔科内特谢谢你的提问。这就是挑战。我还不知道