Python NLTK,读取字数以浮点数

Python NLTK,读取字数以浮点数,python,nltk,Python,Nltk,我看过NLTK的语料库部分,但似乎没有数字语料库。我想把字号改成文字。例如: 输入:壹仟贰佰肆拾叁输出:1243 输入:second输出:2 输入:5%输出:0.05没有。你需要做的是建立在这个或其他你觉得有用/更容易合作的人的基础上 首先,您需要正则表达式来提取那些感兴趣的字符串(即one,two…),然后使用上面的代码进行替换 您给出的第一个示例是三个示例中最简单的一个,最后一个示例是将该数字除以100,因为输出实际上是一个整数。第二个会有点棘手,因为您必须修改代码或可能创建一个全新的函数

我看过NLTK的语料库部分,但似乎没有数字语料库。我想把字号改成文字。例如:

输入:
壹仟贰佰肆拾叁
输出:
1243

输入:
second
输出:
2


输入:
5%
输出:
0.05
没有。你需要做的是建立在这个或其他你觉得有用/更容易合作的人的基础上

首先,您需要正则表达式来提取那些感兴趣的字符串(即
one
two
…),然后使用上面的代码进行替换

您给出的第一个示例是三个示例中最简单的一个,最后一个示例是将该数字除以100,因为输出实际上是一个整数。第二个会有点棘手,因为您必须修改代码或可能创建一个全新的函数

好了,没有一个模块可以解析整个文本


另一种可能性,正如我进一步研究的那样,是使用
CD
tagging from来帮助识别数字。但是您仍然需要一个类似于上面提到的函数。

也许您会发现这很有用: