Machine learning 此任务应使用哪种ML算法？_Machine Learning_Neural Network_Data Science

Machine learning 此任务应使用哪种ML算法？

machine-learning neural-network

Machine learning 此任务应使用哪种ML算法？,machine-learning,neural-network,data-science,Machine Learning,Neural Network,Data Science,我有一个关于症状和疾病的数据集。每种疾病的症状都有重量（根据重要性）。问题是在这种情况下不可能使用有监督的方法，因为我没有测试集（我只是列出了症状和疾病之间的联系）。我已经使用了一种按重要性计算匹配症状的方法，但如果症状与数据集中的症状不同，则该方法将失败我想知道是否有可能训练出一个模型，如果我们选择的症状不相同但非常相似，它将能够理解不同症状之间隐藏的联系，并给出至少近似的结果。流感有咳嗽，但病人选择干咳。该模型应考虑基于不同疾病的两种症状之间的相似性。如果您对文献或算法名称有任何建议，我

我有一个关于症状和疾病的数据集。每种疾病的症状都有重量（根据重要性）。问题是在这种情况下不可能使用有监督的方法，因为我没有测试集（我只是列出了症状和疾病之间的联系）。我已经使用了一种按重要性计算匹配症状的方法，但如果症状与数据集中的症状不同，则该方法将失败

我想知道是否有可能训练出一个模型，如果我们选择的症状不相同但非常相似，它将能够理解不同症状之间隐藏的联系，并给出至少近似的结果。流感有咳嗽，但病人选择干咳。该模型应考虑基于不同疾病的两种症状之间的相似性。如果您对文献或算法名称有任何建议，我将不胜感激

UPD 1：示例：

支气管炎数据示例

其主要思想是根据确定的症状得出可能的疾病。现在，我正在匹配症状和匹配权重之和，即如果我们选择咳嗽+呼吸音，它将是0.441887+0.144301。然而，这种方法并不灵活，也不十分严格。目的是训练一个能够应对类似症状的模型。如果我们选择“干咳”，它不应该给出0.44，也不应该给出0.0

我有一个拥有1949种独特疾病和151种症状的数据集。每种疾病至少包含4种症状。

为了解决这个问题，我建议您继续使用与数据集中症状匹配的总和，但对您没有的症状使用一个简单的技巧。您应该使用相似性比率（对于字符串，您应该首先使用Levenshtein），该比率将给出新症状与数据集中所有症状的相似程度，然后找到最相似的，通常是具有最高相似性比率的，并且由于该比率介于0和1之间，您可以使用以下公式：

新权重=相似性比例*旧权重

获取新的重量，即您将用于新症状的重量（它肯定会比旧重量小，但症状名称越不相同，它就会越小）

示例：

干咳+呼吸音+发烧：

（根据您提供的数据，干咳与咳嗽最为相似，假设干咳与咳嗽的相似性为：.6）

您支气管炎的体重变为：

（.6*0.441887）+0.144301+0.013444

这只是一个起点，依靠它来开发一种更强大的方法

这类问题更适合，因此我建议在这里打开这个问题，因为它不是一个编程问题，但这只是一个理论上的问题。你能提供更多的细节，比如提供你拥有的数据样本，描述你总共拥有多少行数据，并给出更精确的问题定义，比如你输入了什么变量，你想预测什么？@ESDARII刚刚更新了这个问题。你认为Levenshtein距离对于相似度计算来说是个好主意吗？我在想，有没有办法通过在不同疾病中同时出现来给出相似性。例如，头痛和呕吐应该很接近。你可以使用Levenshtein或一些更强大的方法，如单词嵌入，可以发现单词之间的语义相似性（因为如果单词没有相似的字符，Levenshtein就不能）但是你也许应该找到一个专门用于医学的单词，或者建立你自己的单词，就像我说的，我认为这是一个很好的起点，但是你可以改变所有的事情。