Python 我怎样才能找到第k个最近的邻居？_Python_Scikit Learn_Dbscan - Fatal编程技术网

Python 我怎样才能找到第k个最近的邻居？

python scikit-learn

Python 我怎样才能找到第k个最近的邻居？,python,scikit-learn,dbscan,Python,Scikit Learn,Dbscan,我有一个数据框，有将近4000000个条目。基于3个特征，我想找出每个点与其第1000个最近邻居之间的距离。到目前为止，我已经这样尝试过： from sklearn.neighbors import NearestNeighbors neigh = NearestNeighbors(n_neighbors=1000) nbrs = neigh.fit(df[features]) distances, indices = nbrs.kneighbors(df[features]) 战后，

我有一个数据框，有将近4000000个条目。基于3个特征，我想找出每个点与其第1000个最近邻居之间的距离。到目前为止，我已经这样尝试过：

from sklearn.neighbors import NearestNeighbors    
neigh = NearestNeighbors(n_neighbors=1000)
nbrs = neigh.fit(df[features])
distances, indices = nbrs.kneighbors(df[features])

战后，我会对

距离数组进行切片，得到一个数组，每个条目到第1000个最近邻居的距离，因为这是我唯一关心的。但是我没有做到这一点，因为我没有足够的内存来存储形状为（40000001000）的数组。

有没有一种方法可以让我省下与第1000位邻居的距离，而放弃所有其他999位邻居
背景是，我正试图找到一个适合epsilon运行DBSCAN算法的方法，但显然我的数据点彼此太接近了。我已经为5个和100个邻居尝试了上面的代码。然而，除了一些异常值外，距离几乎为0。
您可能希望尝试：
from sklearn.neighbors import KDTree
x = np.random.randn(4000000,3)
kdt = KDTree(x)

closest_1000th =[]
for i in range(x.shape[0]):
    dist, _ = kdt.query(x[i,:].reshape(1,-1),1000)
    closest_1000th.append(dist[0, -1])

在我的4Gb内存笔记本电脑上，完成这项任务大约需要1小时
hattip@bogovicj.
尝试使用KDTree：很高兴你写下了细节+1@bogovicj你可以写你的，我会投票的！（我的真实尝试都没有成功，这就是为什么）嗨，我认为切片有语法错误，但我明白了。非常感谢。




[scikit learn]相关文章推荐



                                                        
Scikit learn scikit学习中的HMM模块可靠吗？
scikit-learn 
Scikit learn sklearn：文本分类交叉验证中的矢量化
scikit-learn 
Scikit learn DPGMM将所有值群集到单个群集中
scikit-learn 
Scikit learn 在scikit中加载文件时出错
scikit-learn 
Scikit learn 如何将一个随机森林折叠成一个等价的决策树？
scikit-learn 
Scikit learn 如何在scikit learn中扩展大规模数据？
scikit-learn 
Scikit learn 利用支持向量机对多维时间序列数据集进行分类
scikit-learn 
Scikit learn 如何调试高置信度选择错误类的scikit分类器
scikit-learn 
Scikit learn 当n_jobs=-1时，WordSpuntTokenizer和sklearn GridSearchCV PicklingError
scikit-learn 
Scikit learn 执行交叉验证，无交叉验证分数
scikit-learn 
Scikit learn 将最佳GridSearch分类器写入表
scikit-learn 
Scikit learn 如何正确缩放新数据点
scikit-learn 
Scikit learn 如何利用查全率-查全率-查全率曲线从查全率值计算查全率
scikit-learn 
Scikit learn 隐藏随机搜索CV输出
scikit-learnterminal 
Scikit learn Scikit学习增量PCA-值错误：数组不能包含INF或NAN
scikit-learn 
Scikit learn 连接sklearn管道中不同步骤的功能
scikit-learn 
Scikit learn yellowbrick实现错误-AttributeError:&x27；逻辑回归'；对象没有属性'；图'；
scikit-learn 
                                       





随机文章推荐



                                                        
在编译时，如何包含外部文件中定义的doxygen别名列表
doxygen 
Doxygen 记录一个库——所有的还是仅仅是公共头中的函数？
doxygen 
如何更改Doxygen中的函数签名？
doxygen 
Doxygen忽略单词和函数
doxygenpascal 
如何订购Doxygen定制页面
doxygen 
Doxygen 有没有办法定义函数在模块html页面中列出的顺序？
doxygen 
Doxygen：如何在一行中描述多个参数？
doxygen 
如何在doxygen文档中包含常量的内容
doxygen 
Doxygen：如何组合来自不同文件夹的多个html输出
doxygen


                                        

                                        
                                        


                                                
                                                        [python]相关推荐
                                                        
python中While循环的语法错误
									Python
							 									Syntax
							 
Python-通过列标题从给定行中提取文本
									Python
							 									Text
							 
Python 使用面向对象的方法传递函数作为参数的等效方法是什么
									Python
							 									Oop
							 
Python OpenERP开发人员模式修改
									Python
							 									Xml
							 									Openerp
							 
如果表结果为空，则使用Python进行测试
									Python
							 									Mysql
							 
Python Django问题中用户模型的扩展
									Python
							 									Django
							 
Python 在Jinja中打印字典值
									Python
							 									Dictionary
							 									Flask
							 
Python Pandas groupby和qcut不'；t在0.14.1中工作
									Python
							 									Pandas
							 
Python 在sqlalchemy筛选器语句中使用三元运算符
									Python
							 									Sqlalchemy
							 
Python 在for循环中使用sys.exit
									Python
							 									For Loop
							 									Dictionary
							 
Python 在数组上迭代时追加到该数组
									Python
							 									Python 2.7
							 									Python 3.x
							 
Python多处理线程池
									Python
							 
Python 附加到第X个维度而不指定维度
									Python
							 
Python 从数据帧中提取部分值。
									Python
							 									Pandas
							 									Dataframe
							 
使用python编辑csv列
									Python
							 									Regex
							 									Python 2.7
							 									Csv
							 
Python：计算浮点精度作为浮点值的函数
									Python
							 									Numpy
							 
Python 使用文本文件保存和读取数组
									Python
							 									Arrays
							 									Python 3.x
							 
Python：如何仅在值是元组/列表而不是字符串时进行迭代
									Python
							 
如何在GPU支持下运行python代码
									Python
							 									Flask
							 									Artificial Intelligence
							 
Python 如何让对象在pygame中以随机模式移动？
									Python
							 									Python 3.x
							 									Vector
							 									Random
							 
Python 如何使曲线更好地拟合，同时专注于更高的精度
									Python
							 
Python 如何按我需要的方式重塑此阵列？
									Python
							 									Arrays
							 									Numpy
							 
Python 如何在OpenGL中将矩阵渲染为立方体？
									Python
							 									Opengl
							 									Graphics
							 									3d
							 
Python pytest：有没有一种方法可以报告测试的内存使用情况？
									Python
							 
Python PyQt5选项卡Widget选项卡栏空白区域背景色
									Python
							 
Python 为什么我只向这个文件写入28672位？
									Python
							 									Python 3.x
							 
Python 如何将额外的数据和图像一起提供给CNN？
									Python
							 									Image
							 									Tensorflow
							 
Python 在numpy中重复，但大小不一
									Python
							 									Numpy
							 
Python 如何将FOPDT模型中的死区时间应用于MPC gekko中的操纵变量
									Python
							 
在C+中嵌入带有OpenCV的python的内存损坏+；已经在使用OpenCV，但版本不同
我试图在一个C++应用程序中嵌入Python代码。问题是，如果我在C++代码中使用OpenCV函数，并且在Python函数中嵌入内存，就会出现内存损坏。只需对下面代码中的所有opencv函数进行注释即可解决问题。
有一件事是我的C++ OpenCV是4.5.0（Dima-链接），从源编译，而Python中使用的版本是3.1.0（使用Python轮安装）。
									Python
							 									C++
							 									Opencv
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Sails.js
Programming Languages
Migration
View
Xamarin.forms
Maven
Uitableview
Sms
Jaxb
Docker Compose
Apache Zookeeper
Typescript
Here Api
Magento2
Oauth
Cookies
Checkbox
Asp.net Core Mvc
Woocommerce
Pycharm
Notifications
Sapui5
Protractor
Talend
Ip
Opencart
Browser
Dotnetnuke
Xslt
Rust
Authentication
Dependency Injection
Clearcase
Cypress
Cron
Vaadin
Generics
Salesforce
Jdbc
Login
Mqtt
Zurb Foundation
Signalr
Redirect
Ios6
Canvas
Electron
Plugins
Isabelle
Uwp
Wso2
Sass
Time
Playframework
Python
Cryptography
Yii2
Groovy
Openlayers
Nosql
Proxy
Azure Sql Database
Google Plus
Coffeescript
Date
Java
Xaml
Cakephp
Paypal
File
Ios4
Text
Markdown
Sugarcrm
Stata
Neo4j
Image Processing
Stm32
Erlang
Error Handling
Jakarta Ee
Exchange Server
Xmpp
Visual C++
Jquery Mobile
Cocoa Touch
Ubuntu
Curl
Bash
Air
Aws Lambda
Modelica
Sharepoint
Windows Phone 7
Xcode4
Pagination
Teradata
Netbeans
Linux Kernel
Windows Phone 8
Google Cloud Dataflow
Maven 2
Optimization
Apache Spark
Server
Drop Down Menu
Ada
Sql Server 2008 R2
Opengl
Silverlight 4.0
Hash
Map
Hadoop
Javascript
Sdk
Antlr
Couchbase
Cucumber
Directx
Youtube
Omnet++
Apache
Cuda
Sap
Forms
Bots
Iframe
Routing
Version Control
Hyperledger Fabric
File Io
Chef Infra
Validation
Automated Tests
Acumatica
Bison
Timer
Android Layout
Perforce
Testng
Next.js
Ms Office
Eclipse Rcp
Asterisk
Raspberry Pi
Excel
Nest
Ipad
Vb.net
Jasmine
Zsh
Concurrency
Jwt
Google Compute Engine
Mongoose
Spring Security
Servlets
Adobe
Odata
Xamarin.ios
Hibernate
Recursion
Layout
Dom
Javafx
Windows Services
Keras
Html
Libgdx
Clojure
Algorithm
Tkinter
Parsing
Go
Synchronization
Compiler Errors
Shiny
Silverstripe
Heroku
Google Cloud Firestore
Flash
Laravel
Identityserver4
Llvm
Leaflet
Bootstrap 4
Bluetooth
Iis 7
Combobox
Encoding
Uiview
Sed
Docusignapi
Apache Pig
Button
.htaccess
Ios
Scikit Learn
Routes
Batch File
Plsql


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网