如何将大查询中的数据高效地提取到tensorflow中，使其能够扩展_Tensorflow

如何将大查询中的数据高效地提取到tensorflow中，使其能够扩展

tensorflow

如何将大查询中的数据高效地提取到tensorflow中，使其能够扩展,tensorflow,Tensorflow,我想在bigquery中存在的数据上训练tensorflow模型（我试图使用tensor flow 1.15对数据执行kmeans聚类）我想我还需要在训练前将数据转换为tensorflow向量，使用： tf.convert_to_tensor 我正在使用以下方法查询数据： from google.cloud import bigquery from google.cloud.bigquery.job import QueryJobConfig from google.oauth2.serv

我想在bigquery中存在的数据上训练tensorflow模型

（我试图使用tensor flow 1.15对数据执行kmeans聚类）

我想我还需要在训练前将数据转换为tensorflow向量，使用：

tf.convert_to_tensor

我正在使用以下方法查询数据：

from google.cloud import bigquery
from google.cloud.bigquery.job import QueryJobConfig
from google.oauth2.service_account import Credentials
my_example_query = """ SELECT * FROM `foo.goo` 
WHERE event_date between "2019-12-01" and "2020-01-01"   
"""
bq = bigquery.Client()
config =QueryJobConfig(use_query_cache=False, use_legacy_sql=False)

#TODO fetch the data into vector (input_data)
#input_data = ???

fit = k_means_estimator.fit(input_fn=lambda: tf.convert_to_tensor(input_data, dtype = tf.float32), steps=1000)

现在，理论上我可以将数据提取到数据帧中，如下所示：

df = bq.query(my_example_query, job_config=config).to_dataframe()

但是有数百万条记录（我必须扩展解决方案）

您能否帮助将数据放入tensorflow中，以便它能够高效地读取数据并进行缩放

能