类别业务与Python中的文本分析_Python_Machine Learning_Artificial Intelligence_Text Mining_Text Analysis

类别业务与Python中的文本分析

python machine-learning artificial-intelligence

类别业务与Python中的文本分析,python,machine-learning,artificial-intelligence,text-mining,text-analysis,Python,Machine Learning,Artificial Intelligence,Text Mining,Text Analysis,我是人工智能的新手，想做以下练习。您能否建议使用python实现此目标的方法：情景- 我有一些公司的业务列表如下： 1. AI 2. Artificial Intelligence 3. VR 4. Virtual reality 5. Mobile application 6. Desktop softwares 并将其分类如下： Technology ---> Category 1. AI -

我是人工智能的新手，想做以下练习。您能否建议使用python实现此目标的方法：

情景- 我有一些公司的业务列表如下：

 1. AI
 2. Artificial Intelligence
 3. VR
 4. Virtual reality
 5. Mobile application
 6. Desktop softwares

并将其分类如下：

 Technology                 ---> Category
 1. AI                      ---> Category Artificial Intelligence
 2. Artificial Intelligence ---> Category Artificial Intelligence
 3. VR                      ---> Category Virtual Reality
 4. Virtual reality         ---> Category Virtual Reality
 5. Mobile application      ---> Category Application
 6. Desktop softwares       ---> Category Application

i、 e当我收到像AI或人工智能这样的文本时，它必须将AI和人工智能识别为一个相同的词，并将这两个关键词都放在人工智能类别下

我目前采用的方法是使用查找表，但是，我想使用python对上述输入的技术/业务应用文本分类，在这里我可以分离技术，而不是使用查找表

请向我推荐任何相关的方法。

这里有一种使用sklearn的方法。在过去的情况下，我会使用，但它不会在管道中工作，因为它不再接受X，y作为输入

如果您是新手，管道可能会有点混乱，但本质上，它们只是在传递到分类器之前分步处理数据。这里，我将

转换为单词和字符标记的ngram“矩阵”（表），然后将其传递给分类器

import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.pipeline import Pipeline, FeatureUnion

X = np.array([['AI'],
       ['Artificial Intelligence'],
       ['VR'],
       ['Virtual Reality'],
       ['Mobile application'],
       ['Desktop softwares']])
y = np.array(['Artificial Intelligence', 'Artificial Intelligence',
       'Virtual Reality', 'Virtual Reality', 'Application', 'Application'])

pipeline = Pipeline(steps=[
    ('union', FeatureUnion([
        ('word_vec', CountVectorizer(binary=True, analyzer='word', ngram_range=(1,2))),
        ('char_vec', CountVectorizer(analyzer='char', ngram_range=(2,5)))
        ])),
    ('lreg', LogisticRegression())
    ])

pipeline.fit(X.ravel(), y)
print(pipeline.predict(['web application', 'web app', 'dog', 'super intelligence']))

预测：

['Application' 'Application' 'Virtual Reality' 'Artificial Intelligence']

你能训练多少数据？换句话说，你有很多数据吗？大约1000条记录Hanks Jarad。你能帮我了解一下你做了什么吗。。