Sign in

Member Benefits

Get Demands

View Business Cards

Exclusive Service

Noble Identity

AS LOW AS 1.5U /DAY

Google集成BigQuery与Document AI简化文件数据截取工作

Share

2024-01-09

Google现在让开发者可以更方便从文件数据截取资讯,并用于构建新的大型语言模型应用程序,这项新功能依赖BigQuery与Document AI集成。


Google现在让开发者可以更方便从文件数据截取资讯,并用于构建新的大型语言模型应用程序,这项新功能依赖BigQuery与Document AI集成。此功能允许BigQuery用户创建Document AI自定义截取器,运用基础模型对文件和元数据进行自订,用户能够直接从BigQuery调用这些自订模型,实现从文件中截取并存储结构化数据的目标。


过去用户要创建独立的Document AI工作管线,需要手动管理截取逻辑和模式,因为缺乏原生的集成功能,需要自己开发定制化基础设施,同步和维护数据的一致性,这使得用户需要投入大量的资源在文件分析上。而现在Google推出BigQuery与Document AI的集成,用户可以在BigQuery中,创建用于Document AI自定义截取器的远程模型,进行大规模文件分析和生成式人工智能应用。


首先用户需要先在Document AI中创建自定义截取器,借由选择样本文件,并基于Document AI基础模型训练截取器模型。而Document AI也提供现成的截取器,可用于处理各种常见文件类型,像是发票或是身份证件等。


接着,Document AI自定义截取器便可于BigQuery中使用,通过SQL在BigQuery中注册远程模型,调用并使用自定义截取器,来分析文件截取相关字段数据。从文件截取出来的资讯,可以进行文本分析、摘要生成和创建各种创新应用。


BigQuery ML支持训练和部署多种文本模型,可以用来识别客户服务通话中的情绪,或是Python开发者也可使用BigQuery DataFrames for pandas,和类似scikit-learn的API来分析数据。用户也能运用PaLM 2大型语言模型对文件进行摘要,甚至将文件元数据和存储在BigQuery表格中的其他结构化数据集成,开发创新应用。


Disclaimer:
Details

Please Play Responsibly:

Casino Games Disclosure: Select casinos are licensed by the Malta Gaming Authority. 18+