登录

会员权益

获取需求

查看名片

专属客服

尊贵标识

VIP低至1.5U/天

AI趋势周报第263期:又快又小又准确,史丹佛大学提出另类电脑视觉模型

分享

支付動態

2024-11-14

史丹佛大学集成卷积网络和逻辑门网络,打造比电脑视觉SOTA模型快上1,900倍的LogicTreeNet;DeepMind开源学术版AlphaFold 3模型;工研院建AI测试实验室;微软开源多代理AI系统;GitHub发布Java专用助理;Hugging Face发表轻量级小型语言模型

  AlphaFold 3     Google DeepMind     蛋白质结构  

DeepMind开源学术版AlphaFold 3模型

Google DeepMind最近开源AlphaFold 3模型代码,供学术界研究者下载、进行蛋白质结构预测的相关研究。AlphaFold 3是一款可预测蛋白质和重要分子(如DNA、RNA、小分子等)三维结构及其交互作用的模型。

而且,有别于只能预测单一蛋白质结构的AlphaFold 2,AlphaFold 3进一步提升对复杂分子交互作用的模拟能力,研究者更能理解分子如何在细胞内交互,进而推动药物开发和疾病治疗的研究。之前,DeepMind只通过服务器来提供AlphaFold3的预测服务,也限制预测的数量和种类。但在学界呼吁下,DeepMind重新评估该项政策,日前决定开放模型代码,供具学术资格的研究员下载使用。(详全文)

  多模态     GUI交互     微软  

微软也用多模态LLM打造GUI代理工具

上个月,微软开源一款GUI代理程序OmniParser,结合了多模态大语言模型(LLM)和其他模型,来辨识设备UI画面(如手机屏幕)、自动运行交互指令,是多模态LLM的另一新应用 。微软团队表示,GPT-4V和GPT-4o这类LLM,在处理一般任务时表现优异,但要作为通用代理、只靠视觉输入来处理跨系统任务,仍不够准确。

为解决难题,微软先创建2个专属数据集,包括网页中可交互的icon数据集、icon描述数据集(即说明UI组件与其功能),来分别训练2套模型。一套是侦测模型,以第一个数据集微调而成,用来辨识屏幕中可交互的icon图标,另一套是图说模型,以第二个数据集训练而成,用来解释侦测到的UI组件功能。这两套模型都采Transformer解码器架构,组合起来就是OmniParser。

微软表示,经测试,OmniParser可精准辨识UI中的组件,并生成正确的功能解释,可搭配GPT-4V运行精准的GUI代理任务、与系统交互。微软并非第一家在该领域有所突破的企业,苹果和Anthropic也发表过这类领域研究成果;随着GUI解析技术的成熟,AI在跨平台操作中的灵活性将大幅提升,让自动化应用越来越可行。(详全文)

 AI评测     工研院     语言模型  

工研院建AI测试实验室,推语言模型可信任评测服务

去年底,数位部启动AI产品与系统评测中心,要创建国家级AI模型评测机制,来衡量企业所使用的AI服务是否安全可靠。在数位部支持下,最近,工研院宣布建置台湾第一家AI测试实验室,参考了国际可信任AI框架和标准,也联手AI产品与系统评测中心(AIEC)专家和技术委员,开发出可信任语言模型评测工具,可用来自动化测试模型的准确性、公平性、可靠性、隐私和资安等能力。

工研院量测技术发展中心首席执行官蓝玉屏说明,这些测试工具,参考了国际和国内专家审议的测试题库,来让模型作答,并评估生成内容的可信任性。而随着AI应用发展,工研院也会加强对AI技术的测试、探索新技术应用的评测方法。另一方面,工研院也与法国国家计量院(LNE)签署合作协议,要来交流AI评测技术。(详全文)

  多代理     微软     Magentic-One  

微软开源多代理AI系统

最近,微软发布一款多代理AI系统Magentic-One,专门为跨领域、开放式网页与文件操作任务设计,并在GitHub开源。进一步来说,该系统以Microsoft AutoGen框架为基础,允许多个代理相互协作完成复杂任务,可用于程序开发、数据分析和研究等领域。

Magentic-One采多代理架构,由主导代理Orchestrator负责规画任务、追踪进度,也会分配具体子任务给其他4个代理。不同代理有不同专长,包括从本机文件中截取信息、操作网页浏览器,或编写和运行Python代码等。Magentic-One高度模块化、随插即用,可根据开发者需求,灵活添加或移除代理。在开源Magentic-One的同时,微软也发布相对应的评估工具AutoGenBench,供开发者在控制变量和隔离环境下进行系统测试,确保该系统的稳定表现。(详全文)

  GitHub    Java      Copilot助理  

GitHub发布Java专用助理

最近,GitHub推出一款Java开发新工具:Java Copilot升级助理(Copilot Upgrade Assistant for Java),并开放技术预览。该工具采用GAI来自动化升级Java应用程序的运行环境、框架和相依性,简化企业用户的操作。

在技术预览版中,Copilot升级助理能协助开发者设置JDK、Maven路径、特定功能分支名称等参数,也能辨别项目中的主要相依项目,像是Spring Boot和JUnit等测试框架。完成设置后,Copilot助理能生成一系列升级任务,开发者也能在仪表板即时查看每个步骤的进度。要是在升级过程中发生错误,Copilot助理也会自动修复,并创建动态建置与修复循环尝试多种解决问题的方法。(详全文)

  Hugging Face     小型语言模型     SmolLM2  

Hugging Face发表轻量级小型语言模型SmolLM2

最近,AI社群Hugging Face发布一系列可在手机上运行的小型语言模型SmolLM2。这是继7月首次问世后,SmolLM家族的最新版本,包括参数量135M、360M与1.7B三种版本。其中,135M参数模型又可分为基础版和Instruct版,360M与1.7B参数模型则各自分成基础、Instruct和GGUF(GPT-Generated Unified Format)版本,共11个模型,皆以Apache 2.0授权开源。

135M、360M与1.7B都是以公开数据集和Hugging Face编排的数据集训练,但1.7B版本还多了数学与代码数据集。这些数据集分别有2兆、4兆与11兆个字符(Token)。相较于第一代,SmolLM2在指令遵从、知识与理解能力表现更好,也拜Argilla数据集之赐,Instruct模型还支持改写、重要摘要与函数调用等任务。不过,SmolLM2模型只能理解和生成英文内容,也还存在事实准确性、逻辑一致性以及偏差等问题。(详全文)

  GitHub     引导式对话     开发  

主动反问厘清需求!GitHub Copilot新添引导式对话功能

日前,GitHub更新Copilot助理,新添引导式对话能力,并在Visual Studio 2022 17.12第3预览版上线。GitHub Copilot开发团队指出,这项更新可让Copilot在需求不清楚时,能主动提问开发者、厘清上下文,协助开发者更快完成任务。

他们表示,在之前的版本中,不少开发者要花时间思考,如何正确表达需求,可能还要筛选过多的生成内容。但新功能可减少开发者写提示词的困扰,能随开发者需求调整回应,提供精简的信息。同时,GitHub Copilot也集成数据处理工具Data Wrangler,开发者能以自然语言进行数据清理与转换,并通过数据的上下文生成代码,更精准地处理数据。(详全文)

/史丹佛大学、微软、Hugging Face

  AI近期新闻 

1. 数位部数位产业署回复民间对加强投资AI新创计划的民间意见

2. 苹果Intelligence第一波功能上线了

3. 微软替记事本及小画家添增AI能力,改写与自动填补迈入预览

4. 阿里云开源Qwen 2.5-Coder全系列模型

5. 国泰金控广征500名AI、IT和国际人才

:iThome整理,2024年11月

免责声明:
详情
HUIDU.io

GROWTH DRIVEN GLOBAL PTE. LTD. 202618650K

101 THOMSON ROAD, #28-03A, UNITED SQUARE, SINGAPORE 307591

Copyright 2026 HuiDu