Python 3.x 文章的Python可读性得分(使用Spacy)
我已经循环浏览了100篇文章的文本,使用以下方法对它们进行评分:我使用的评分方法是:Python 3.x 文章的Python可读性得分(使用Spacy),python-3.x,spacy,Python 3.x,Spacy,我已经循环浏览了100篇文章的文本,使用以下方法对它们进行评分:我使用的评分方法是: Dale-Chall可读性指数 科尔曼-廖指数 自动可读性索引 然而,我不知道如何解释结果 例如,根据年级水平,指数应该在14或15左右 然而,我得到了1245分和1633分 另一个例子,可读性公式应该类似于4.5或5.6 然而,我得到了245分和340分 我需要对这些分数做些什么吗 这是我的密码 import pandas as pd import spacy from spacy_readability
- Dale-Chall可读性指数
- 科尔曼-廖指数
- 自动可读性索引
然而,我得到了1245分和1633分 另一个例子,可读性公式应该类似于4.5或5.6
然而,我得到了245分和340分 我需要对这些分数做些什么吗 这是我的密码
import pandas as pd
import spacy
from spacy_readability import Readability
articles = pd.read_csv('articles.csv')
# get the title and body of text from the articles
text = articles[['title','body']]
df = pd.DataFrame(text)
for i in range(1, 100):
# select the body of text to score on the readability index
text = df.iloc[i, 1]
doc = nlp(text)
# Print the cell containing the article title
print(df.iloc[i,0])
# score the text
print("dale chall", doc._.dale_chall)
print("coleman", doc._.coleman_liau_index)
print("readability", doc._.automated_readability_index)
示例输出:“机器学习帮助人们创新的10种方式。”
戴尔·查尔:255.843042857
Coleman Liau:1245.025714285
自动可读性索引:998.556428571
代码相对简单:。仔细查看您的数据(不仅仅是标题)以了解发生了什么。这不是一个真正的编程问题。谢谢,这非常有用。很高兴阅读计算这些数字的代码。我通过直接粘贴在文本正文中进行了尝试,得到了相同的结果。我还尝试了各种文本和句子。然而,有人能把这些数字放在上下文中吗?一个句子的得分约为4.5,而Dale-Chall索引中的整个文本得分为255。这仅仅是因为分数越高,阅读它所需的努力就越多吗?谢谢,我试过的文本没有得到像这样不寻常的结果,所以我真的不知道。也许你的文章文本没有被正确清理?您可以尝试测试中的文本,看看您的安装是否有问题:即使使用示例文本,我仍然会得到任意结果。我只是试着按照这个简单的自述。我的分数总是7.57分(无论我用什么文本),科尔曼指数和自动可读性指数都有数千分。我在这上面花了好几个小时,却一无所获。