如何将大查询中的数据高效地提取到tensorflow中,使其能够扩展
我想在bigquery中存在的数据上训练tensorflow模型 (我试图使用tensor flow 1.15对数据执行kmeans聚类) 我想我还需要在训练前将数据转换为tensorflow向量,使用:如何将大查询中的数据高效地提取到tensorflow中,使其能够扩展,tensorflow,Tensorflow,我想在bigquery中存在的数据上训练tensorflow模型 (我试图使用tensor flow 1.15对数据执行kmeans聚类) 我想我还需要在训练前将数据转换为tensorflow向量,使用: tf.convert_to_tensor 我正在使用以下方法查询数据: from google.cloud import bigquery from google.cloud.bigquery.job import QueryJobConfig from google.oauth2.serv
tf.convert_to_tensor
我正在使用以下方法查询数据:
from google.cloud import bigquery
from google.cloud.bigquery.job import QueryJobConfig
from google.oauth2.service_account import Credentials
my_example_query = """ SELECT * FROM `foo.goo`
WHERE event_date between "2019-12-01" and "2020-01-01"
"""
bq = bigquery.Client()
config =QueryJobConfig(use_query_cache=False, use_legacy_sql=False)
#TODO fetch the data into vector (input_data)
#input_data = ???
fit = k_means_estimator.fit(input_fn=lambda: tf.convert_to_tensor(input_data, dtype = tf.float32), steps=1000)
现在,理论上我可以将数据提取到数据帧中,如下所示:
df = bq.query(my_example_query, job_config=config).to_dataframe()
但是有数百万条记录(我必须扩展解决方案)
您能否帮助将数据放入tensorflow中,以便它能够高效地读取数据并进行缩放
能