Google bigquery BigQueryML如何为预测编码字符串特征？_Google Bigquery

Google bigquery BigQueryML如何为预测编码字符串特征？

google-bigquery

Google bigquery BigQueryML如何为预测编码字符串特征？,google-bigquery,Google Bigquery,我正在评估基于BigQueryML构建的二元逻辑回归模型的性能我使用了四个字符串字段。每一个都是一个句子。应用的唯一预处理是将它们转换为小写。这些字符串都不是列表或嵌入向量这个二进制分类器在验证集上表现得非常好，我想知道为什么我想知道模型是如何编码/表示这些文本特征的，但我在BigQueryML文档中没有找到它 Bigquery ML是将字符串字段编码为单词包还是word2vec/doc2vec向量我创建了一个模型，为您提供查看模型详细信息的确切方式这是一个简单的线性回归模型： CRE

我正在评估基于BigQueryML构建的二元逻辑回归模型的性能

我使用了四个字符串字段。每一个都是一个句子。应用的唯一预处理是将它们转换为小写。这些字符串都不是列表或嵌入向量

这个二进制分类器在验证集上表现得非常好，我想知道为什么

我想知道模型是如何编码/表示这些文本特征的，但我在BigQueryML文档中没有找到它

Bigquery ML是将字符串字段编码为单词包还是word2vec/doc2vec向量

我创建了一个模型，为您提供查看模型详细信息的确切方式

这是一个简单的线性回归模型：

CREATE MODEL `deleting.stringtest`
OPTIONS ( model_type='linear_reg')
AS 
SELECT 'hello' text, 1 label
UNION ALL
SELECT 'goodbye' text, 2 label
UNION ALL
SELECT 'hello goodbye my friend' text, 2 label

创建此模型后，可以查看模型权重：

SELECT *
FROM ML.WEIGHTS(MODEL `deleting.stringtest`)

这里您可以看到一个简单的热编码，其中输入中的每个不同的整个字符串都有自己的维度。没有进行拆分