Python 来自NLTK、Gensim、Scikit的API调用

Python 来自NLTK、Gensim、Scikit的API调用,python,api,nlp,nltk,gensim,Python,Api,Nlp,Nltk,Gensim,我计划使用NLTK、Gensim和Scikit学习进行一些NLP/文本挖掘。但我将使用这些库来处理我的组织数据。问题是,在使用这些库时,“它们是否进行API调用来处理数据”,还是从python外壳中取出的数据将被处理。这是一个安全问题,所以我想知道是否有人有任何文档可供参考 感谢您在这方面的帮助。通常使用NLTK、gensim和scikit learn,算法在其源代码中实现,并在您的数据上本地运行,而无需向其他人发送数据进行处理 我从未注意到这些软件包的任何文档/功能提到对远程/云服务的依赖,也

我计划使用NLTK、Gensim和Scikit学习进行一些NLP/文本挖掘。但我将使用这些库来处理我的组织数据。问题是,在使用这些库时,“它们是否进行API调用来处理数据”,还是从python外壳中取出的数据将被处理。这是一个安全问题,所以我想知道是否有人有任何文档可供参考


感谢您在这方面的帮助。

通常使用NLTK、gensim和scikit learn,算法在其源代码中实现,并在您的数据上本地运行,而无需向其他人发送数据进行处理

我从未注意到这些软件包的任何文档/功能提到对远程/云服务的依赖,也没有看到用户讨论过同样的问题

然而,它们都是大型库,有许多我从未回顾过的函数,还有许多贡献者添加了新选项。我不知道项目负责人是否明确承诺绝不依赖外部服务

因此,一个明确、永久的答案可能是不可能的。在某种程度上,这种安全性是您的项目所关注的问题,您应该仔细检查您正在使用的那些函数/类/方法的文档,甚至源代码。(这些项目都不会有意隐瞒对外部服务的依赖。)

您还可以在防火墙限制与外部服务联系的系统上开发、测试和部署代码,以便能够检测和阻止与外部机器的任何未公开或无意的通信

还要注意的是,这些图书馆中的每一个都依赖于其他公共图书馆。如果您还担心可能会出现粗心或故意恶意插入的私有数据过滤方法,那么您需要对这些库及其引入的所有其他库进行更深入的分析。(仅仅相信顶级文档可能是不够的。)

此外,这些库中的每一个都有实用功能,可以根据明确的用户需求下载示例数据集或共享的非代码资源(如stopwords或词典列表)。使用这些功能不会将您的任何数据上传到其他地方,但可能会泄露您正在使用的特定功能。上述基于防火墙的方法可能会干扰此类下载步骤。在高度警惕/偏执的情况下,您可能需要特别注意这些额外下载方法的使用和行为,以确保它们在更改本地环境或执行/替换其他库代码方面所做的工作不会超出应有的范围


最后,通过坚持使用广泛使用的软件包/函数,以及持续可用的较旧版本,您可能会从“社区保证”中获益,即软件包的行为已被充分理解,没有令人惊讶的依赖性或漏洞。也就是说,许多其他用户已经对这些代码路径给予了一些关注、分析和实际使用——因此,任何问题都可能已经被发现、披露和修复。

通常使用NLTK、gensim和scikit learn,算法在其源代码中实现,并在本地数据上运行,无需发送数据,其他人即可进行处理

我从未注意到这些软件包的任何文档/功能提到对远程/云服务的依赖,也没有看到用户讨论过同样的问题

然而,它们都是大型库,有许多我从未回顾过的函数,还有许多贡献者添加了新选项。我不知道项目负责人是否明确承诺绝不依赖外部服务

因此,一个明确、永久的答案可能是不可能的。在某种程度上,这种安全性是您的项目所关注的问题,您应该仔细检查您正在使用的那些函数/类/方法的文档,甚至源代码。(这些项目都不会有意隐瞒对外部服务的依赖。)

您还可以在防火墙限制与外部服务联系的系统上开发、测试和部署代码,以便能够检测和阻止与外部机器的任何未公开或无意的通信

还要注意的是,这些图书馆中的每一个都依赖于其他公共图书馆。如果您还担心可能会出现粗心或故意恶意插入的私有数据过滤方法,那么您需要对这些库及其引入的所有其他库进行更深入的分析。(仅仅相信顶级文档可能是不够的。)

此外,这些库中的每一个都有实用功能,可以根据明确的用户需求下载示例数据集或共享的非代码资源(如stopwords或词典列表)。使用这些功能不会将您的任何数据上传到其他地方,但可能会泄露您正在使用的特定功能。上述基于防火墙的方法可能会干扰此类下载步骤。在高度警惕/偏执的情况下,您可能需要特别注意这些额外下载方法的使用和行为,以确保它们在更改本地环境或执行/替换其他库代码方面所做的工作不会超出应有的范围

最后,通过坚持使用广泛使用的软件包/函数,以及持续可用的较旧版本,您可能会从“社区保证”中获益,即软件包的行为已被充分理解,没有令人惊讶的依赖性或漏洞。也就是说,许多其他用户已经对这些代码路径给予了一些关注、分析和实际使用——因此,任何问题都可能已经被发现、披露和修复