使用Gensim在Pandas中创建列的Bigrams短语并将其附加到同一数据帧

使用Gensim在Pandas中创建列的Bigrams短语并将其附加到同一数据帧,pandas,nlp,word2vec,gensim,word-embedding,Pandas,Nlp,Word2vec,Gensim,Word Embedding,我试图用地址数据建立一个预测模型。我已经使用Gensim短语将地址数据转换成了一个双RAM模型,但在将地址数据转换成相应的双RAM并作为一个单独的列附加时,我遇到了一些问题,可以进一步用于计数向量化 我的代码 Gensim双字短语模型 from gensim.models import Phrases adj_addr=data['Clean_addr'].values.tolist() sentence_stream = [doc.split(" ") for doc in adj_addr]

我试图用地址数据建立一个预测模型。我已经使用Gensim短语将地址数据转换成了一个双RAM模型,但在将地址数据转换成相应的双RAM并作为一个单独的列附加时,我遇到了一些问题,可以进一步用于计数向量化

我的代码

Gensim双字短语模型

from gensim.models import Phrases
adj_addr=data['Clean_addr'].values.tolist()
sentence_stream = [doc.split(" ") for doc in adj_addr]
bigram = Phrases(sentence_stream, min_count=100, threshold=2)
SUITE 7001 70/F INTERNATIONAL_FINANCE CENTRE TWO 8_FINANCE ST CENTRAL_HONG HONG_KONG
QUALCOMM INTERNATIONAL INC. 9 QUEENS_RD CENTRAL 27TH FLOOR HONG_KONG
SAMUEL CHEN COMPANY_LIMITED 25 CHIU LUNG_ST CHIU LUNG BUILDING 4TH_FLOOR CENTRAL_HONG KONG

数据帧列的样本输入

SUITE 7001 70/F INTERNATIONAL FINANCE CENTRE TWO  8 FINANCE ST CENTRAL HONG HONG KONG
QUALCOMM INTERNATIONAL INC. 9 QUEENS RD CENTRAL 27TH FLOOR HONG KONG
SAMUEL CHEN COMPANY LIMITED 25 CHIU LUNG ST CHIU LUNG BUILDING 4TH FLOOR CENTRAL HONG KONG
预期输出(通过gensim短语模型后的新数据)

我无法用gensim的相应bigram替换相应的地址 短语迭代建模。我的预期输出是用新生成的双RAM短语替换所有旧地址。这样我就可以将它传递给countvectorizer


非常感谢您的帮助。

@cᴏʟᴅsᴘᴇᴇᴅ,国际金融(下划线)。短语基本上会创建带有下划线的双字符号。国际和金融将合并成国际形式_FINANCE@cᴏʟᴅsᴘᴇᴇᴅ,这些下划线二元图是根据gensim短语提供的训练数据创建的。