如何在保留少数类的所有样本的同时，为多数类的欠采样行编写bigquery SQL？_Sql_Google Bigquery - Fatal编程技术网

如何在保留少数类的所有样本的同时，为多数类的欠采样行编写bigquery SQL？

sql google-bigquery

如何在保留少数类的所有样本的同时，为多数类的欠采样行编写bigquery SQL？,sql,google-bigquery,Sql,Google Bigquery,我正在尝试获取二进制分类问题的数据。数据集严重失衡。我可以下载数据并对大多数类进行欠采样，但我想知道如何使用BigQuerySQL直接进行欠采样换句话说，我想选择目标列为1的所有样本，如果目标列为0，则忽略大量数据样本数据集 id feat_1 feat_2 target 1 x_1 y_1 0 2 x_2 y_4 1 3 x_3 y_1 0 4 x_1

我正在尝试获取二进制分类问题的数据。数据集严重失衡。我可以下载数据并对大多数类进行欠采样，但我想知道如何使用BigQuerySQL直接进行欠采样

换句话说，我想选择目标列为

的所有样本，如果目标列为

，则忽略大量数据

样本数据集

id   feat_1    feat_2    target
1     x_1        y_1       0
2     x_2        y_4       1
3     x_3        y_1       0
4     x_1        y_1       1
5     x_2        y_4       0
6     x_2        y_1       0
.
.
.

我是否可以选择目标

的随机样本，以便在随机抽样中不会完全丢失feat_2值？

您可以尝试执行以下命令从表中获取一些随机值

SELECT * FROM table where rand() < Sample_no/Total_no and  target=0

从表中选择*，其中rand（）


其中，Sample\u no
是您需要作为输出的样本记录的数量，Total\u no
是表上记录的数量。
您可以在每个feat\u 2
中提取一行0
：
select t.*
from (select t.*,
             row_number() over (partition by feat_2, target order by rand()) as seqnum
      from t
     ) t
where target = 1 or seqnum = 1;

上面返回所有1
s，然后每个feat\u 2
返回一行0

如果希望每个feat_2
有一行偏向1
s，则可以使用：
select t.*
from (select t.*,
             row_number() over (partition by feat_2 order by target desc, rand()) as seqnum
      from t
     ) t
where seqnum = 1;




[google bigquery]相关文章推荐



                                                        
Google bigquery 如何返回我的大型Google BigQuery v2响应？
google-bigquery 
Google bigquery 在BigQuery中使用url编码的值
google-bigquery 
Google bigquery “理解”；查询执行期间超出了资源“；使用BigQuery中的每个分组依据
google-bigquery 
Google bigquery 向现有Webapp添加Google云存储支持时发生版本冲突
google-bigquerygoogle-cloud-storage 
Google bigquery 到BigQuery配额的数据流
google-bigquerygoogle-cloud-dataflow 
Google bigquery 从Google应用程序引擎应用程序运行Google数据流管道？
google-bigquerygoogle-cloud-platformgoogle-cloud-dataflow 
Google bigquery 中的实时BigQuery使用统计信息https://console.developers.google.com/home/dashboard
google-bigquery 
Google bigquery 在大查询中使用'Lead'窗口函数时出现时间戳问题
google-bigquery 
Google bigquery 带有templateSuffix的TableData.insertAll-经常出现503错误
google-bigquery 
Google bigquery 将一列拆分为多列
google-bigquery 
Google bigquery 在Dataflow Bigquery中配置每个请求的最大行数
google-bigquery 
Google bigquery 来自KafkaIO的Apache波束流-需要窗口
google-bigquery 
Google bigquery 在Google BigQuery中成功创建QueryJob（）后，如何获取1个作业的QueryResults（）？
google-bigquery 
Google bigquery 有没有办法在bigquery中使用GROUP BY执行通配符？
google-bigquery 
Google bigquery 如何在BigQuery中重命名具有路径的列？
google-bigquery 
Google bigquery 如何修复'；未找到：Files/bigstore/project/testing/filename.json'；加载到Bigquery时出错
google-bigquery 
Google bigquery Microstrategy中的Bigquery用户统计信息
google-bigquery 
Google bigquery 为什么'；如果查询使用变量，是否允许设置目标表？
google-bigquery 
Google bigquery Google BigQuery在小数据集上的速度非常慢
google-bigquery 
Google bigquery 查询详细信息时添加标题信息
google-bigquery 
                                       





随机文章推荐



                                                        
DateTime.ToString（“s”）是否总是返回相同的格式？
datetime 
Datetime SQL中的正确日期范围
datetimeplsql 
如何更改datetime对象的日期格式？
datetime 
Datetime 获取本月的第一个星期六和本月最后一周的最后一个星期五
datetimereporting-services 
Datetime TimeZone.ConvertTimeBySystemTimeZoneId是否需要本地化？
datetimelocalization 
Datetime 我为什么要使用UTC？
datetimelanguage-agnostic 
Datetime 角度带日期选择器最小日期一天差
datetime 
Datetime 使用Elastic/Kibana搜索日志条目的频率模式？
datetimestatisticskibana 
Datetime 一个向量中的两个日期时间格式字符串
datetime 
当其中一个参数为DateTime时，FilterExpression不工作
datetimegridview 
Datetime groovy中不使用静态对象的严格日期时间解析
datetimegroovy 
Datetime SQL获取3周前的最后更新日期时间字段
datetimemariadb 
Datetime Java如何在日期时间API中实现线程安全
datetimejava-8 
Datetime 获取本地化日期的毫秒数，考虑夏令时
datetimegoogle-bigquery 
Datetime 最安全的时间写入方式（日期时间）
datetimegoogle-sheets 
Datetime 带细枝的总日期
datetimetwig 
Datetime 如何在fluentd中更改time_iso8601的格式并发送到clickhouse？
datetimenginx 
Datetime 不支持的操作数类型的NIFI Executescript UTC错误+&引用；在java.sql.Timestamp和timedelta中
datetimeapache-nifi 
Datetime 为什么在1个实体中出现日期格式错误？
datetimeerror-handling 
Datetime 用Robot框架减去两个日期
datetimetimerobotframework


                                        

                                        
                                        


                                                
                                                        [sql]相关推荐
                                                        
Sql 如何将mm/dd/yyyy更改为所需格式
									Sql
							 									Sql Server
							 									Sql Server 2005
							 									Tsql
							 									Datetime
							 
Sql Access/VBA表达式的返回值是什么意思？
									Sql
							 									Ms Access
							 									Vba
							 
Sql 用于返回输出参数的语法
									Sql
							 									Sql Server
							 									Tsql
							 									Stored Procedures
							 
sql server探查器-如何获取服务器响应？
									Sql
							 									Sql Server
							 
Sql 仅显示价格高于平均值的项目
									Sql
							 									Sql Server
							 									Sql Server 2008
							 
Sql 使用左外部联接时，即使记录不存在，也返回行
									Sql
							 
新表上的索引策略-SQL Server
									Sql
							 									Sql Server
							 									Sql Server 2008
							 									Tsql
							 									Sql Server 2005
							 
SQL条件选择：选择空值或选择非空值
									Sql
							 									Sql Server 2005
							 									Select
							 
在插入时将SQL标识返回到VB变量
									Sql
							 									Asp Classic
							 
SQL Server 2008 R2数据透视问题
									Sql
							 									Sql Server
							 									Tsql
							 									Sql Server 2008 R2
							 
Sql 对结果集进行筛选、排序、支持分页和执行一些额外功能的存储过程
									Sql
							 									Sql Server
							 									Sql Server 2008
							 									Sorting
							 									Stored Procedures
							 
Sql 隐式事务打开/关闭和开始/提交事务
									Sql
							 									Sql Server
							 									Sql Server 2012
							 
Sql 从包含多个数据的字段中获取特定数据
									Sql
							 									Database
							 									Oracle
							 
Sql 根据Access数据库中的列动态添加列表框列？
									Sql
							 									Vb.net
							 
Sql MS Access 2010-在多个字段上查找不匹配的向导
									Sql
							 									Ms Access
							 
SQL中的VLookup？-加入以仅挑出顶行
									Sql
							 									Sql Server
							 									Tsql
							 
Sql 按分组的非聚合
									Sql
							 									Oracle11g
							 
为SQL Server和Oracle重命名SQL select中的列
									Sql
							 									Oracle
							 									Select
							 
Sql 提高Oracle中的查询性能&；博士后
									Sql
							 									Oracle
							 									Postgresql
							 
Sql 在WHERE条件下一列两次
									Sql
							 									Oracle11g
							 
Sql ssis派生列格式
									Sql
							 									Sql Server
							 									Ssis
							 
Sql 如何使用data explorer从标记中回答所有问题？
									Sql
							 
oracle 12c sql开发人员可以'；t连接到它我要它回到本地主机
									Sql
							 									Oracle
							 
Sql onYassunaga-您可以将数字转换为字符串，然后再转换为日期，但这可能需要大量额外工作。将它们作为数字进行操作可能不那么直观，但应该更有效。（当然，如果使用正确的数据类型以*8-开头，就不需要进行41调整或转换）
CAR     TIME
A    
									Sql
							 									Oracle11g
							 
Sql Oracle-将行转换为列
									Sql
							 									Oracle
							 
Sql 将一个表中生成的键插入到第二个表中，并在一个请求中批处理
									Sql
							 									Mariadb
							 
Like函数在sql中未正确解析
									Sql
							 									Snowflake Cloud Data Platform
							 
Sql 对祖父母的CTE递归查询
									Sql
							 									Sql Server
							 									Select
							 
Sql 选择值以创建具有可选外键的唯一行
									Sql
							 									Sql Server
							 									Tsql
							 
SQL IF或搜索语句
									Sql
							 									Sql Server
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Ios6
Apache2
Web Applications
Sas
Wcf
Kibana
Jenkins
View
Linq
Apache Storm
Visual Studio
Rdf
File
Chef Infra
Calendar
Ms Access
3d
Openlayers
Cron
Uml
Gulp
Knockout.js
Merge
Nest
Netbeans
Character Encoding
Spring Boot
Phpunit
Stream
Bazel
Rust
For Loop
Smtp
Xcode4
Dictionary
.net Core
Sonarqube
Reporting Services
Grafana
Adobe
Processing
Stata
Firebase
Pagination
Asp.net Mvc 5
Xamarin.forms
Cmake
Jboss
Google Api
Pyspark
Jdbc
Uiview
Python 2.7
Liferay
Air
.net 4.0
Apache Kafka
Dynamic
Powershell
Filesystems
Mariadb
List
Plot
Jar
Google Cloud Dataflow
Sed
Iis
Time
Jasper Reports
Titanium
Cobol
Apache Zookeeper
Windows
Lotus Notes
Redirect
Windows 8
Checkbox
Makefile
Jasmine
Cypress
Jsf
Big O
Interface
Git
Com
Usb
Localization
Python Sphinx
Hive
C++
Opengl Es
Generics
Python
Antlr
Architecture
Laravel 4
Vector
Google Visualization
Outlook
Canvas
Graphql
Latex
Gnuplot
Cors
Editor
Sprite Kit
Network Programming
Vb6
Woocommerce
Activemq
Process
E Commerce
Swing
Swift2
Performance
Jqgrid
Sencha Touch 2
Typescript
Numpy
Https
Jsp
Bash
Random
Image Processing
Web Scraping
Pine Script
Django Models
Ruby On Rails 4
Gremlin
Responsive Design
Stanford Nlp
Properties
Pandas
Datetime
Keycloak
Apache Pig
Django Rest Framework
Encryption
Pycharm
Asterisk
Google Maps
Javafx
Rally
Magento2
Microsoft Graph Api
Workflow
Functional Programming
Url
Aws Lambda
Error Handling
Artificial Intelligence
Mysql
Version Control
Data Structures
Assembly
Ios7
Login
Subsonic
Azure Sql Database
Twilio
Osgi
Xamarin.ios
Statistics
C# 3.0
Ibm Mobilefirst
Tinymce
Binding
Ip
Julia
Robotframework
Keyboard
Arduino
Internet Explorer 8
Macos
Google Apps Script
Pascal
Cloud
Smalltalk
Ide
Firefox
Typo3
Frameworks
Nestjs
Websphere
Alfresco
Neural Network
Pytorch
Video Streaming
Permissions
String
Ffmpeg
Bots
Imagemagick
Dns
Inheritance
Oracle Apex
Sql Server 2005
Sequelize.js
Swiftui
Webstorm
Highcharts


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网