Python 分配权重以标识页面_Python_Algorithm_Dictionary_Machine Learning_Web Scraping

Python 分配权重以标识页面

python algorithm dictionary machine-learning web-scraping

Python 分配权重以标识页面,python,algorithm,dictionary,machine-learning,web-scraping,Python,Algorithm,Dictionary,Machine Learning,Web Scraping,我试图从一堆大学Url中找出包含教员名单的页面我已经分析了教员页面列表，每个页面都有出现在其中的关键字列表，这些关键字将他们与其他URL（如名称、电话号码等）区分开来。我已经从所有教员名单页面中列出了所有这些关键词为了给教员列表页面分配权重，我使用以下逻辑：我用python创建了一个关键字生成器程序，它获取页面的URL，计算页面中每个单词的出现次数，并将其存储在python字典中，格式为name_of_Keyword:number_of_occurrences（key:value）我在我

我试图从一堆大学Url中找出包含教员名单的页面

我已经分析了教员页面列表，每个页面都有出现在其中的关键字列表，这些关键字将他们与其他URL（如名称、电话号码等）区分开来。我已经从所有教员名单页面中列出了所有这些关键词

为了给教员列表页面分配权重，我使用以下逻辑：

我用python创建了一个关键字生成器程序，它获取页面的URL，计算页面中每个单词的出现次数，并将其存储在python字典中，格式为name_of_Keyword:number_of_occurrences（key:value）

我在我的程序中输入了n个教员列表URL的列表

然后，每个URL被发送到关键字生成器程序，该程序返回该URL中每个单词的出现次数

主程序中有一个python字典，其中每个关键字（从关键字生成器返回）的出现次数被添加到主字典中相应的关键字中。（主词典中的关键词是我从分析教员列表页面中找到的）

检查完所有URL后（完成循环后），我将主词典中每个关键字的值除以N（教员列表URL的数量）

主词典中每个关键字的值是每个关键字的最终权重

为了从其他页面识别教员列表页面，我使用以下逻辑：

将URL发送到关键字生成器程序，以获取该URL中每个关键字的出现次数（我们称之为URL字典）

将URL字典中的每个关键字与上一个方法中找到的主字典中的相应关键字相乘（其中包含每个关键字的权重。如果URL字典中有任何关键字不在主字典中，请将其乘以0）

将相乘后获得的所有关键字的值相加（步骤2）

如果总和超过某个阈值（通过实验和点击试验手动确定），则为教员页面

即使使用此方法获得输出，它也有以下限制：

我用蛮力来确定重量。它更多的是手工操作，而不是自学
在寻找最小阈值方面有很多尝试和尝试
该解决方案不是最优的，并且权重不能仅通过输入新的教师页面来改变。整个程序必须重新运行

我有以下问题：

我可以在当前方法中包含哪些更改
是否有更优化的权重分配方法
是否有任何学习算法可用于使权重分配更加自动化