
Google云计算数据仓库服务BigQuery加入文本嵌入(Text Embedding)生成功能,开发者将可以通过熟悉的SQL指令截取文本嵌入,并将其应用到下游应用程序中。目前BigQuery所支持的文本嵌入,可由textembedding-gecko、BERT、NNLM以及SWIVEL模型所生成。
这项新功能的使用流程,由注册需要的模型成为远程模型开始,接着用户就可以使用生成文本嵌入函数来生成嵌入,而这些操作都仅使用BigQuery SQL就可以完成。文本嵌入是一个由文本转化而来的矢量,可用来寻找相似的项目,像是语义搜索、分类、分群、异常侦测和或是对话式接口等应用。
BigQuery新支持的4种模型嵌入,其中textembedding-gecko是运用Google语言模型PaLM生成嵌入,其他三个模型BERT、NNLM以及SWIVEL,则都可以从TensorFlow Hub选用。BERT是Transformer架构的深度预训练网络,可针对自然语言生成密集的矢量表示,NNLM与SWIVEL则是以英文Google新闻语料库训练而成。
同时,官方也宣布开始支持array。



2023-08-30
