Machine learning 基于Chatbot的文本分类

Machine learning 基于Chatbot的文本分类,machine-learning,deep-learning,classification,nltk,text-classification,Machine Learning,Deep Learning,Classification,Nltk,Text Classification,我刚刚开始做一名初级数据分析师。我申请了一家初创公司,他们给了我一个测试。我想知道是否有人能给我一个如何解决这个问题的提示。任务包括: 给出以下随机单词(摘自chatbot): 制定一个分类计划,展示口语句子的主题 进行预处理数据设计,以便分类顺利进行 为选定的要素绘制草图,以便分类运行良好 以下为非结构化印尼语: Makasii ???? Sekarang jam berapa ya? Hp gua udah 4g gausah diaktifin lagi Semlekom Sejag ka

我刚刚开始做一名初级数据分析师。我申请了一家初创公司,他们给了我一个测试。我想知道是否有人能给我一个如何解决这个问题的提示。任务包括:

给出以下随机单词(摘自chatbot):

  • 制定一个分类计划,展示口语句子的主题
  • 进行预处理数据设计,以便分类顺利进行
  • 为选定的要素绘制草图,以便分类运行良好
  • 以下为非结构化印尼语:

    Makasii ????
    Sekarang jam berapa ya?
    Hp gua udah 4g gausah diaktifin lagi
    Semlekom
    Sejag kapan nama saiia blue (Har Har)
    Mana gw tau anying
    Nggak bisa di klik
    ngga udah
    no
    Saya Mau Complient ...
    Terimakasih istriku
    Gk sya udh plih
    terimakasih :)
    halo mau tanya
    Assalamualaikumin
    Salam
    halon
    Yaudah lah
    mmm
    Suka apa
    Makasih ya
    Gk jdi
    sampai jumpa lagi
    gak peka
    Ga usah
    Bodo amat 
    Senang sekali
    Ok maya
    Sibuk?
    nggak inget
    Mending taka kemana mana
    Mana nih
    Samlekom min
    Berhentiin
    it hole the Herat break losing I am cry
    mau komplain
    Hii
    can you speak english please?
    Nggak muncul -mucul
    Ga tau mi
    mn Ka gak ada soal nya
    hmmm
    bosen nih
    ok..
    kamu suka apa
    di mana?
    kok namanya
    Ga dengar
    Saya nanya min
    Saya mau tanyq
    Sudah selesai
    Mau nnya nih
    Halo
    Males dehh
    dah mam?
    Gak mau jawab
    Termakasih
    Alaah
    Jam berapa ini?
    Anjirrr &gt
    Ok terima kasih infonya????
    Kwkwkwkw
    Namamu siapa?
    y
    Ribet ah
    ya terimakasih
    Saya milih dimana
    ribet anjay
    Ah
    Waah menarik niih min
    Ah gk jls bicara ama lu
    Ga guna
    tidak, terimakasih
    Gak jelas!!!
    Terimakasih 
    Aduh aku bingung
    Mengapa diam saja
    Mau nanya dong mi
    I love u full
    May ku sayang bngt ama kamu
    Auw ahh ga bisa saya mahh
    Ga ada menu nya mas
    Kamu sotta deh
    menu mana
    Salah klik maya ,harusnya lainnya
    sudah makan?
    Masntap
    Malah milih produk
    kenapa namanya
    Saya mau tanya ?
    Gue udah tau
    Bikin kesel ja
    Makasih kak
    Assalamualaiku wr wb...
    Tetap gak bisa
    Mbak
    kok diam
    apa ya
    menunya mana
    Makasiih
    testing
    capek deh
    bosen banget
    kok gitu?
    tks
    Tak Nyaman
    asslamualaikum
    terima kasih :)
    Mas/mba saya mau tanya
    Pgi
    Kok ga muncul apa2?
    lahir tahun berapa
    Okay terimakasih
    Sudah kak
    Kurang mengerti
    Tidaak
    Ok dude
    ok bye
    Permisi mau tanya
    gimana ya
    Sampun cot
    Makan Bang
    Yeay di bls :v
    alhamdullilah 
    mau tanya bisa ?
    Assalamualaikumin
    permisi mau tanya
    Terima kasih
    pertanyaan yg membingungkan
    Rumahnya di mana?
    Dasar boot
    Mana menu?
    wokee
    eh... udah dibilang enggak
    Baru sibuk?
    Sementara belum. Tq
    thanks ya
    Pilih yg mna
    bosan saya
    uhhh
    Gak nanya lu maya
    mana jawabanya
    Hobimu apa
    Thanks (love)
    Apa kabar?
    Meong
    nanya berulang ulang
    LEMOT EUY
    Sumpah ngeseli
    Ribet dahh
    Hy jg
    Barusan Sdh bsa min.. mksh
    Ga nyambung jawaban nya
    test
    Ga jelas bnykn tnya
    Saya mau nanya boleh??
    Ok thank you
    Lanjut Book
    Tinggal di mana?
    ihhh
    Belum ada...
    Ngomonge bae cepet
    Hei
    LoL
    thx u
    Banyak tanya
    Hahahahhahahahaha
    Ouy
    Sudah, terima kasih
    Belom saya cek
    Mau tidur ama ayam
    Ok mksh
    Apaansih&gt
    Jaringannya cepet banget dah
    yng mana
    okei
    Okeyv
    Tidak penting
    Maksudnya gimana ini?
    Gausah jwb berbelit2 dah
    yaudahlah gpp ttp cantik ko (love)
    ok makasih
    Mau nanya donk
    Lagi sibuk?
    selesai.
    Kagak nannya namalu
    Saya mau menyampaikan keluhan
    min di sini sinyalnya cepet banget
    Coyyy
    Hmmm -,-
    jjkakak
    Bisa bahasa apa saja?
    Gai
    Lagi ngapain?
    Ga sekolah lu ua
    Umur kamu berapa?
    Tydak
    Ga pernah bgus
    sangat baik sesuai program komputer...
    link itu gak bisa di klik
    Saya ada masalah...
    Ra iso nuw kok..apus2
    Mana menunya yh kak
    Hadeeeeuh
    sekarang jaringan nya bagus loh
    Auk ahh..
    Aku gk tau
    Syaa mau tanya
    serius?
    MAU KOMPLAIN!!
    Ga bisa mbak
    Ga ah nanti kamu genit
    Kalau gini terus merugikan orang
    Unchhhh
    Gatau diuntung!!!
    Wkwkwkwkwkwk 
    Saya juga kurang mengerti.
    Aku nanya s mba nya jomblo ngga ??
    Mana yg dipilih?
    Mana? :v
    besok ya
    Arigato
    Hobby nya apa
    mana? gaada?
    GO
    Makasih sayang
    Jelek
    Cape lah kuya
    Siapa kamu?
    Saya ingin menyamoaikan keluhan
    mana menunya woy?
    Gk tau anjeng
    Msh aman
    Gk tau
    Maaf kepencet
    saya ingin bertanya
    Ribet cukk gue lgi sibuk &gt
    Love you may
    Menu mna?
    uyyy
    mlm
    Tetimakasih
    Kwlwkwkwkkwkwkw
    Biasanya g Kay gini
    eh
    wah menarik ini
    met bobo
    Left bentar ya
    Ngga mau
    english?
    sedang apa
    sekarang sinyalnya udah lumayan bagus
    Yaiyalah
    Mksdnya apa si
    Samlikum min
    Masih gak bisa
    Boleh nanya ?
    mana ya
    Saya punya pernasalahan
    Kecewa ini saya
    umurnya berapa?
    Mau tanya bisa
    Wah gk jlas
    Sudah ada.
    Mana ada menu
    Bapak kau
    Mana menu nya njit
    Thanks
    Jaringan bagus sekali ya
    Apasih ini ga jelas
    Ndak tau
    Mungkin lain kali
    ach ribet amat
    Hu
    Makasiiihh
    Ok!
    Min -_- lu sehat?
    Gausah ngalem jawab aja kenapa 
    Clear
    menu yang mana ya
    Ribet!
    nnti ae
    bagus ini
    Cepet amat respon nya
    oke anjir
    Maaf ga bisa d klik
    kamu di mana
    Kenapa kok maya belum paham sij
    Saya kurang maksud atas pertanyaan anda
    Zzz
    Lagi banyak kerjaan?
    Misi min mau tanya
    test 1 2 3
    Bodoamayttt
    Tidak ada pilihan
    if lu okay illu
    Salah chat kwkwkkw
    maksudnya apa ya
    Tidak.
    Rugi gw belinya
    Okee siaap
    Min maksudnya
    MENU MANA SAJA?
    Hi
    Thanks sangat ya min
    sangat tidak membantu !!!
    OK selesai
    nggak bisa min
    Kgk mau gua
    Kami selalu mendukung anda
    hadeuhh ribet
    fa cai :)
    Terimakasi
    bingung
    Tanks kakak
    Mau tanya.bisa?
    kalian luar biasa
    Detaya :(
    Ah sudahlah
    Baru apa nih
    yaiyalah
    Sudah benar
    Di mana nih?
    menu tidak ada?
    SAYA KOMPLAIN
    Lagi apa?
    Gak
    Kok sy ga bisa pilih apa2?
    Gak ada. Terima Kasih!
    masa sih?
    Ah ga ad gunanya sistem bgni
    Saya sedang bertanya
    waduh
     Hi
    gak doyan
    Sementara 7 dulu
    Jangan muter muter terus mba
    Mau nanya ??
    Kgk bisa
    pacarnya siapa?
    Hi hi hi
    Mana menunya? Ga muncul, ampun deh
    Kagak bisa di pake hhhhhh percuma
    Gak berguna
    Permisi saya mau nanya
    Can u speak english pls
    Sudah makan belum?
    Aduuhh ribet
    Menu nya yang mana
    super
    gila lu
    Gimana kabarnya?
    Uda ku isi pak
    tes
    Ya sudah lah ...
    Saya cinta kami
    Udah punya pacar?
    Sudah tadi.. makasih
    Gitu Aja Terus
    Oh begitu ya. Terimakasih
    Okay terima kasih..
    Assalamu allaikum
    sialan,,pgn nanya aja dipersulit gini
    yang bener?
    met tidur
    Sedang apa?
    dibilang mau logout
    Entahlah
    Umurmu berapa?
    Rumah kamu dimana
    sinyal nya bagus
    yah -,-
    Singkirin bot ini ah
    Baru di mana?
    Mksudnya gimana sih
    Kog menu nya tdk bisa di klik?
    hm
    Layanan internet selalu cepat
    Terima kasih min :)
    Kamu siapa?
    Saya udah gak ngerti.
    Gua mau tdurrr, mlm
    Gg tau
    Gk butuh informasi produk!
    parah ini robot
    Makasih ka
    Punya anjir. Bacod mulu dari tadi
    Terima kasih atas infonya bak
    Can you speak English ?
    Namanya siapa?
    Mana gua tau selesai
    
    我需要什么算法来完成这3项任务?

    所以我所做的是:

  • 将这些单词作为csv并加载到列表中
  • 以open('/content/test.csv')作为f的
    :
    content=f.readlines()
    #您可能还希望删除每行末尾的空白字符,如“\n”
    content=[x.strip()表示内容中的x]
    
  • 把它扔给KMeans集群
  • 测试一下
  • 预测 五,

    它满足了这个任务吗

  • 在这里,您需要使用数据(如果提供了测试)来描述您的问题。确定数据中的不同主题,我不会说印度尼西亚语,因此我无法帮助您。但分类问题可能是情绪分析、情绪分类等。在你的特殊情况下,我认为问题会有所不同。如果你能把这些句子的翻译添加到你的问题中,这将是很有帮助的
  • 您需要对数据进行预处理,以便分类器能够执行更好的分类。对于英语,预处理通常包括删除停止词、柠檬化、删除任何嘈杂或不相关的数据等
  • 选择您认为对分类有用的要素。这些特征可能是问号等。通常,单词嵌入用于文本数据的分类,但测试要求您选择特征,因此您需要根据分类问题考虑一些特征。
    编辑: 一旦你制定了你的分类问题,你可以很容易地确定预处理步骤和特征,你可以应用任何分类算法,如决策树,随机森林,神经网络的分类任务

  • 谢谢你的回答。我想澄清一点:1。这不是一种情绪或情感分类。它基本上是一个随机的对话词。你认为我需要手动对它们进行分类,还是只使用KMeans或LDA之类的无监督算法?2.我在印尼找不到任何停止语,我需要建立它吗?
    from sklearn.feature_extraction.text import TfidfVectorizer
    from sklearn.cluster import KMeans
    import numpy as np
    import pandas as pd
    
    vectorizer = TfidfVectorizer()
    X = vectorizer.fit_transform(content)
    
    true_k = 10
    model = KMeans(n_clusters=true_k, init='k-means++', max_iter=100, n_init=1)
    model.fit(X)
    
    order_centroids = model.cluster_centers_.argsort()[:, ::-1]
    terms = vectorizer.get_feature_names()
    
    for i in range(true_k):
      print('Cluster %d:' % i),
      for ind in order_centroids[i, :10]:
        print(' %s' % terms[ind])
    
    print("Prediction")
    X = vectorizer.transform(['makasih istriku'])
    predicted = model.predict(X)[0]
    print(format(predicted))