如何将大查询中的数据高效地提取到tensorflow中,使其能够扩展

如何将大查询中的数据高效地提取到tensorflow中,使其能够扩展,tensorflow,Tensorflow,我想在bigquery中存在的数据上训练tensorflow模型 (我试图使用tensor flow 1.15对数据执行kmeans聚类) 我想我还需要在训练前将数据转换为tensorflow向量,使用: tf.convert_to_tensor 我正在使用以下方法查询数据: from google.cloud import bigquery from google.cloud.bigquery.job import QueryJobConfig from google.oauth2.serv

我想在bigquery中存在的数据上训练tensorflow模型

(我试图使用tensor flow 1.15对数据执行kmeans聚类)

我想我还需要在训练前将数据转换为tensorflow向量,使用:

tf.convert_to_tensor
我正在使用以下方法查询数据:

from google.cloud import bigquery
from google.cloud.bigquery.job import QueryJobConfig
from google.oauth2.service_account import Credentials
my_example_query = """ SELECT * FROM `foo.goo` 
WHERE event_date between "2019-12-01" and "2020-01-01"   
"""
bq = bigquery.Client()
config =QueryJobConfig(use_query_cache=False, use_legacy_sql=False)

#TODO fetch the data into vector (input_data)
#input_data = ???

fit = k_means_estimator.fit(input_fn=lambda: tf.convert_to_tensor(input_data, dtype = tf.float32), steps=1000)
现在,理论上我可以将数据提取到数据帧中,如下所示:

df = bq.query(my_example_query, job_config=config).to_dataframe()
但是有数百万条记录(我必须扩展解决方案)

您能否帮助将数据放入tensorflow中,以便它能够高效地读取数据并进行缩放