Google bigquery BigQueryML如何为预测编码字符串特征?

Google bigquery BigQueryML如何为预测编码字符串特征?,google-bigquery,Google Bigquery,我正在评估基于BigQueryML构建的二元逻辑回归模型的性能 我使用了四个字符串字段。每一个都是一个句子。应用的唯一预处理是将它们转换为小写。这些字符串都不是列表或嵌入向量 这个二进制分类器在验证集上表现得非常好,我想知道为什么 我想知道模型是如何编码/表示这些文本特征的,但我在BigQueryML文档中没有找到它 Bigquery ML是将字符串字段编码为单词包还是word2vec/doc2vec向量 我创建了一个模型,为您提供查看模型详细信息的确切方式 这是一个简单的线性回归模型: CRE

我正在评估基于BigQueryML构建的二元逻辑回归模型的性能

我使用了四个字符串字段。每一个都是一个句子。应用的唯一预处理是将它们转换为小写。这些字符串都不是列表或嵌入向量

这个二进制分类器在验证集上表现得非常好,我想知道为什么

我想知道模型是如何编码/表示这些文本特征的,但我在BigQueryML文档中没有找到它


Bigquery ML是将字符串字段编码为单词包还是word2vec/doc2vec向量

我创建了一个模型,为您提供查看模型详细信息的确切方式

这是一个简单的线性回归模型:

CREATE MODEL `deleting.stringtest`
OPTIONS ( model_type='linear_reg')
AS 
SELECT 'hello' text, 1 label
UNION ALL
SELECT 'goodbye' text, 2 label
UNION ALL
SELECT 'hello goodbye my friend' text, 2 label
创建此模型后,可以查看模型权重:

SELECT *
FROM ML.WEIGHTS(MODEL `deleting.stringtest`)

这里您可以看到一个简单的热编码,其中输入中的每个不同的整个字符串都有自己的维度。没有进行拆分