Python 3.x 文章的Python可读性得分(使用Spacy)

Python 3.x 文章的Python可读性得分(使用Spacy),python-3.x,spacy,Python 3.x,Spacy,我已经循环浏览了100篇文章的文本,使用以下方法对它们进行评分:我使用的评分方法是: Dale-Chall可读性指数 科尔曼-廖指数 自动可读性索引 然而,我不知道如何解释结果 例如,根据年级水平,指数应该在14或15左右 然而,我得到了1245分和1633分 另一个例子,可读性公式应该类似于4.5或5.6 然而,我得到了245分和340分 我需要对这些分数做些什么吗 这是我的密码 import pandas as pd import spacy from spacy_readability

我已经循环浏览了100篇文章的文本,使用以下方法对它们进行评分:我使用的评分方法是:

  • Dale-Chall可读性指数
  • 科尔曼-廖指数
  • 自动可读性索引
然而,我不知道如何解释结果

例如,根据年级水平,指数应该在14或15左右
然而,我得到了1245分和1633分

另一个例子,可读性公式应该类似于4.5或5.6
然而,我得到了245分和340分

我需要对这些分数做些什么吗

这是我的密码

import pandas as pd
import spacy
from spacy_readability import Readability

articles = pd.read_csv('articles.csv')

# get the title and body of text from the articles
text = articles[['title','body']]
df = pd.DataFrame(text)

for i in range(1, 100):
    # select the body of text to score on the readability index
    text = df.iloc[i, 1]
    doc = nlp(text)
    # Print the cell containing the article title
    print(df.iloc[i,0])
    # score the text
    print("dale chall", doc._.dale_chall)
    print("coleman", doc._.coleman_liau_index)
    print("readability", doc._.automated_readability_index)
示例输出:
“机器学习帮助人们创新的10种方式。”
戴尔·查尔:255.843042857
Coleman Liau:1245.025714285

自动可读性索引:998.556428571

代码相对简单:。仔细查看您的数据(不仅仅是标题)以了解发生了什么。这不是一个真正的编程问题。谢谢,这非常有用。很高兴阅读计算这些数字的代码。我通过直接粘贴在文本正文中进行了尝试,得到了相同的结果。我还尝试了各种文本和句子。然而,有人能把这些数字放在上下文中吗?一个句子的得分约为4.5,而Dale-Chall索引中的整个文本得分为255。这仅仅是因为分数越高,阅读它所需的努力就越多吗?谢谢,我试过的文本没有得到像这样不寻常的结果,所以我真的不知道。也许你的文章文本没有被正确清理?您可以尝试测试中的文本,看看您的安装是否有问题:即使使用示例文本,我仍然会得到任意结果。我只是试着按照这个简单的自述。我的分数总是7.57分(无论我用什么文本),科尔曼指数和自动可读性指数都有数千分。我在这上面花了好几个小时,却一无所获。