Python 查找两个不同长度的数据帧之间的相似性_Python_Numpy_Pandas_Dataframe_Scikit Learn - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/328.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 查找两个不同长度的数据帧之间的相似性_Python_Numpy_Pandas_Dataframe_Scikit Learn - Fatal编程技术网

Python 查找两个不同长度的数据帧之间的相似性

python numpy pandas dataframe scikit-learn

Python 查找两个不同长度的数据帧之间的相似性,python,numpy,pandas,dataframe,scikit-learn,Python,Numpy,Pandas,Dataframe,Scikit Learn,我有两个熊猫数据帧，都是不同长度的。 DF1大约有120万行（只有一列），DF2大约有300000行（和一列），我正试图从两个列表中找到类似的项目 DF1大约有75%的公司名和25%的人，DF2的情况正好相反，但它们都是字母数字。我想写一个函数，突出显示两个列表中最相似的项目，按分数（或百分比）排序。比如说, Apple -> Apple Inc. (0.95) Apple -> Applebees (0.68) Banana Boat -> Banana Bread (0

我有两个熊猫数据帧，都是不同长度的。 DF1大约有120万行（只有一列），DF2大约有300000行（和一列），我正试图从两个列表中找到类似的项目

DF1大约有75%的公司名和25%的人，DF2的情况正好相反，但它们都是字母数字。我想写一个函数，突出显示两个列表中最相似的项目，按分数（或百分比）排序。比如说,

Apple -> Apple Inc. (0.95) 
Apple -> Applebees (0.68)
Banana Boat -> Banana Bread (0.25)

到目前为止，我尝试了两种方法，但都失败了

方法1：查找两个列表的Jaccard系数

import numpy as np
from sklearn.metrics import jaccard_similarity_score
jaccard_similarity_score(df_1, df_2)

这不起作用，可能是由于两个数据帧的长度不同，我得到以下错误：

ValueError:找到样本数不一致的数组

方法2:：使用序列匹配器

from difflib import SequenceMatcher
def similar(a, b):
    return SequenceMatcher(None, a, b).ratio()

然后调用数据帧：

similar(df_1, df_2)

这将导致一个错误：

pandas.index.IndexEngine.get_loc中的pandas/index.pyx （熊猫/索引c:3979）（）

pandas.index.IndexEngine.get_loc中的pandas/index.pyx （熊猫/索引c:3843）（）

pandas.hashtable.PyObjectHashTable.get_项中的pandas/hashtable.pyx （熊猫/哈希表c:12265）（）

pandas.hashtable.PyObjectHashTable.get_项中的pandas/hashtable.pyx （熊猫/哈希表c:12216）（）

关键错误：0

如何解决这个问题？

解决方案我必须安装

distance

模块，因为在这种情况下，它比弄清楚如何使用

jaccard\u similarity\u score

更快。我无法从该函数中重新创建您的数字

安装距离

distance

使用

距离

head（）

用于保护您。我很确定移除它们会炸毁你的电脑，因为它会产生一个1.2Mx0.3M的矩阵

试试这个。我不太确定你到底想要什么。我们可以根据您的清晰度进行调整。

解决方案我必须安装

distance

模块，因为在这种情况下，它比弄清楚如何使用

jaccard\u similarity\u score

更快。我无法从该函数中重新创建您的数字

安装距离

distance

使用

距离

head（）

用于保护您。我很确定移除它们会炸毁你的电脑，因为它会产生一个1.2Mx0.3M的矩阵

试试这个。我不太确定你到底想要什么。我们可以根据您的清晰度进行调整。

或仅限于相同元素位置的项目进行比较

import distance

jd = lambda x, y: 1 - distance.jaccard(x, y)

test_df = pd.concat([df.iloc[:, 0] for df in [df_1, df_2]], axis=1, keys=['one', 'two'])
test_df.apply(lambda x: jd(x[0], x[1]), axis=1)

或仅限于相同元素位置的项目进行比较

import distance

jd = lambda x, y: 1 - distance.jaccard(x, y)

test_df = pd.concat([df.iloc[:, 0] for df in [df_1, df_2]], axis=1, keys=['one', 'two'])
test_df.apply(lambda x: jd(x[0], x[1]), axis=1)

SequenceMatcher

可以匹配字符串，而不是数据帧。您想将df1中的120万与df2中的30万进行比较问题是，您希望最终输出是什么样的？您想为df1的每个元素确定df2中最相似的元素吗？这是一个类似的答案，但与

数据帧中的相比，如果您能提供一些示例数据，并描述所需的输出应该是什么，这将非常有帮助。如果您真的想计算两个数据帧中每对行的相似性分数，那么您需要生成一个（300000120000）
数组。假设它包含64位浮点，这个数组将占用大约2.9TB的RAM！我猜你实际上对寻找最近的邻居很感兴趣，在这种情况下，你应该研究一下sklearn.neights
，尤其是，.来自DF1的样本数据：苹果德克萨斯家庭有限责任公司微软爱尔兰研究有限责任公司谷歌汽车有限责任公司John Smith Jane Doe DF2:John Smith Jack Smith Jane Smith苹果公司Applebees Inc John Johnson&Johnson我的期望输出如原始问题所述-相似性分数，以及具有最高匹配的实体，按降序排列。SequenceMatcher
可以匹配字符串，而不是数据帧。要将df1中的120万个实体与df2中的30万个实体进行比较，问题是，您希望最终输出是什么样的？您想为df1的每个元素确定df2中最相似的元素吗？这是一个类似的答案，但与数据帧中的相比，如果您能提供一些示例数据，并描述所需的输出应该是什么，这将非常有帮助。如果您真的想计算两个数据帧中每对行的相似性分数，那么您需要生成一个（300000120000）
数组。假设它包含64位浮点，这个数组将占用大约2.9TB的RAM！我猜你实际上对寻找最近的邻居很感兴趣，在这种情况下，你应该研究一下sklearn.neights，尤其是，.来自DF1的样本数据：苹果德克萨斯家庭有限责任公司微软爱尔兰研究有限责任公司谷歌汽车有限责任公司John Smith Jane Doe DF2:John Smith Jack Smith Jane Smith苹果公司Applebees Inc John Johnson&Johnson我的期望输出如原始问题所述-相似性分数，以及具有最高匹配的实体，按降序排列。谢谢，我尝试了您的解决方案，这是我得到的输出。考虑到我的数据集只是两个一维列，我不知道如何解释这个结果——有什么想法吗？每个单元格是第一个数据集中第I个元素和第二个数据集中第j个元素之间的距离。如果您只希望为位于相同位置的那些元素计算距离，即距离（数据集1[0]，数据集2[0]），那么这就更容易了。我将添加一个答案。谢谢，我尝试了您的解决方案，这是我得到的输出。考虑到我的数据集只是两个一维列，我不知道如何解释这个结果——有什么想法吗？每个单元格是第一个数据集中第I个元素和第二个数据集中第j个元素之间的距离
import distance

jd = lambda x, y: 1 - distance.jaccard(x, y)

test_df = pd.concat([df.iloc[:, 0] for df in [df_1, df_2]], axis=1, keys=['one', 'two'])
test_df.apply(lambda x: jd(x[0], x[1]), axis=1)




[numpy]相关文章推荐



                                                        
从numpy数组创建字典“；ValueError：太多的值无法解包；
numpy 
如何使用启用的OpenMP指令重新编译Numpy
numpy 
'；numpy.float64'；对象不可调用
numpy 
将numpy整数数组传递给c代码
numpy 
Numpy 格式化列以与文本文件中的数据对齐
numpy 
Numpy 如何保留包含所有元素的补丁1
numpyscikit-learn 
Numpy theano：两个矩阵之间的行外积
numpy 
皮查姆。安装适用于Windows的numpy mlk时出现问题
numpyinstallationpycharm 
Numpy 使用Torch进行基于LSTM的时间序列预测
numpyneural-network 
Tensorflow：我如何将numpy预先训练的权重分配给图的子部分？
numpytensorflow 
Numpy 在Tensorflow中执行此基于切片的乘法的最有效方法
numpytensorflow 
如何根据总结（观察、回答数量）数据计算numpy的中位数和百分位数？
numpy 
Numpy 发行附加ndarray和#x27；不同形状的玩具
numpy 
将scipy稀疏矩阵转换为基于索引的numpy数组
numpy 
如何将vtkImageData（对应于RGB图像）转换为numpy？
numpy 
Numpy 使用arctan2的渐变方向会导致角度翻转
numpyopencvmatplotlibcomputer-vision 
用值替换数组的numpy数组
numpyreplace 
维上的numpy连接
numpy 
Numpy PyTorch：具有二维张量的索引高维张量
numpyindexingpytorch 
Cython如何使用memcpy从numpy缓冲区复制到C结构？
numpy 
                                       





随机文章推荐



                                                        
Sbt 如何将人工repo迁移到共享文件系统repo？
sbtartifactory 
Sbt “如何修复”；SLF4J:类路径包含多个SLF4J绑定；在Play 2.3.x启动时？
sbt 
为什么sbt要转移到AutoPlugin？
sbt 
“为什么？”；sbt阶段“；没有有效的命令而失败？
sbt 
使用Sbt构建Spark1.3.0时未解析的依赖项
sbtapache-spark 
Sbt，分析依赖性和插件问题，需要提示
sbt 
如何动态加载SBT插件
sbt 
注释处理器输出路径sbt？
sbt 
从命令行显示sbt设置
sbt 
Sbt scalapb如何从测试目录中的protobuf文件生成代码？
sbtprotocol-buffers 
仅sbt子项目测试（scalatest）不工作
sbt 
什么'；在SBT中：，：：和/之间的区别是什么？
sbt


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
                                                        
                                                

                                                
                                                        Tags
                                                        
Windows Phone 7
Sql
Visual Studio 2013
Visual Studio 2010
Sorting
Karate
Air
Gmail
Ember.js
Error Handling
Google Maps Api 3
Loopbackjs
Azure Ad B2c
Combobox
Cmake
Windows 7
Apache Pig
Testing
Redirect
Processing
Apache2
Sugarcrm
Anaconda
Responsive Design
Collections
Ms Office
Resharper
Reporting Services
Excel
Blockchain
Coding Style
Liferay
Typo3
Matlab
C
Lotus Notes
C# 3.0
Azure Data Factory
Jhipster
.net Core
Kubernetes
Xpages
Vb.net
Google Apps Script
Asp.net Mvc 3
Xmpp
Grep
Swift2
Database
Openstack
Pyspark
Wicket
Puppet
Nsis
Amazon S3
Identityserver4
Datatables
Tensorflow
Cryptography
Alfresco
Azure
Encryption
Zurb Foundation
Stata
Flask
Breeze
Ssas
Boost
Jquery Mobile
Installation
Terminal
Graphql
R
Ruby On Rails
Xquery
Blazor
Eclipse
Discord
Activerecord
Notifications
Replace
Macros
Gstreamer
Sql Server 2012
Video
Character Encoding
Project Management
Sprite Kit
Stripe Payments
Smalltalk
Bootstrap 4
Virtualbox
Activemq
Python
Open Source
Razor
Kendo Ui
Dependencies
Deployment
Session
Leaflet
Vba
Camera
Ssh
Actions On Google
Entity Framework 4
Iis
Jersey
Ios5
Snowflake Cloud Data Platform
Pdf
Struts2
Google Calendar Api
Omnet++
Model
Arduino
Ipython
Websocket
Mdx
Autocomplete
Compiler Construction
Jmeter
Msbuild
Variables
Scala
Octave
Web Crawler
Shiny
Zend Framework2
Cygwin
Programming Languages
Scrapy
Prometheus
Grid
Vue.js
Jestjs
Ibm Mobilefirst
Filesystems
Mfc
Odata
Mvvm
Sonarqube
Apache
Crystal Reports
Pagination
Xampp
Magento
Dataframe
Xpath
Linker
Gis
Arangodb
Lambda
Xcode
Jaxb
Debugging
Wcf
Autohotkey
Google Analytics
Charts
Build
Json
Highcharts
User Interface
.net
Graphics
Random
Doctrine Orm
Function
Swing
Next.js
Mongodb
Asp.net Core Mvc
Jsp
Plone
Datetime
Mapping
Openlayers 3
Bison
Spring Boot
Wolfram Mathematica
Cobol
Google Colaboratory
Hive
Twitter Bootstrap 3
Jasmine
Sql Server
Rx Java
Gcc
Version Control
Extjs4
Sdk
Cmd
Magento2
Css
Svn
Cassandra
Dynamic
Rally
Windows Installer
Java Me


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网