灰度_找资源，谈合作，上灰度

史丹佛大学集成卷积网络和逻辑门网络，打造比电脑视觉SOTA模型快上1,900倍的LogicTreeNet；DeepMind开源学术版AlphaFold 3模型；工研院建AI测试实验室；微软开源多代理AI系统；GitHub发布Java专用助理；Hugging Face发表轻量级小型语言模型

AlphaFold 3 Google DeepMind 蛋白质结构

DeepMind开源学术版AlphaFold 3模型

Google DeepMind最近开源AlphaFold 3模型代码，供学术界研究者下载、进行蛋白质结构预测的相关研究。AlphaFold 3是一款可预测蛋白质和重要分子（如DNA、RNA、小分子等）三维结构及其交互作用的模型。

而且，有别于只能预测单一蛋白质结构的AlphaFold 2，AlphaFold 3进一步提升对复杂分子交互作用的模拟能力，研究者更能理解分子如何在细胞内交互，进而推动药物开发和疾病治疗的研究。之前，DeepMind只通过服务器来提供AlphaFold3的预测服务，也限制预测的数量和种类。但在学界呼吁下，DeepMind重新评估该项政策，日前决定开放模型代码，供具学术资格的研究员下载使用。（详全文）

多模态 GUI交互 微软

微软也用多模态LLM打造GUI代理工具

上个月，微软开源一款GUI代理程序OmniParser，结合了多模态大语言模型（LLM）和其他模型，来辨识设备UI画面（如手机屏幕）、自动运行交互指令，是多模态LLM的另一新应用。微软团队表示，GPT-4V和GPT-4o这类LLM，在处理一般任务时表现优异，但要作为通用代理、只靠视觉输入来处理跨系统任务，仍不够准确。

为解决难题，微软先创建2个专属数据集，包括网页中可交互的icon数据集、icon描述数据集（即说明UI组件与其功能），来分别训练2套模型。一套是侦测模型，以第一个数据集微调而成，用来辨识屏幕中可交互的icon图标，另一套是图说模型，以第二个数据集训练而成，用来解释侦测到的UI组件功能。这两套模型都采Transformer解码器架构，组合起来就是OmniParser。

微软表示，经测试，OmniParser可精准辨识UI中的组件，并生成正确的功能解释，可搭配GPT-4V运行精准的GUI代理任务、与系统交互。微软并非第一家在该领域有所突破的企业，苹果和Anthropic也发表过这类领域研究成果；随着GUI解析技术的成熟，AI在跨平台操作中的灵活性将大幅提升，让自动化应用越来越可行。（详全文）

AI评测 工研院 语言模型

工研院建AI测试实验室，推语言模型可信任评测服务

去年底，数位部启动AI产品与系统评测中心，要创建国家级AI模型评测机制，来衡量企业所使用的AI服务是否安全可靠。在数位部支持下，最近，工研院宣布建置台湾第一家AI测试实验室，参考了国际可信任AI框架和标准，也联手AI产品与系统评测中心（AIEC）专家和技术委员，开发出可信任语言模型评测工具，可用来自动化测试模型的准确性、公平性、可靠性、隐私和资安等能力。

工研院量测技术发展中心首席执行官蓝玉屏说明，这些测试工具，参考了国际和国内专家审议的测试题库，来让模型作答，并评估生成内容的可信任性。而随着AI应用发展，工研院也会加强对AI技术的测试、探索新技术应用的评测方法。另一方面，工研院也与法国国家计量院（LNE）签署合作协议，要来交流AI评测技术。（详全文）

多代理 微软 Magentic-One

微软开源多代理AI系统

最近，微软发布一款多代理AI系统Magentic-One，专门为跨领域、开放式网页与文件操作任务设计，并在GitHub开源。进一步来说，该系统以Microsoft AutoGen框架为基础，允许多个代理相互协作完成复杂任务，可用于程序开发、数据分析和研究等领域。

Magentic-One采多代理架构，由主导代理Orchestrator负责规画任务、追踪进度，也会分配具体子任务给其他4个代理。不同代理有不同专长，包括从本机文件中截取信息、操作网页浏览器，或编写和运行Python代码等。Magentic-One高度模块化、随插即用，可根据开发者需求，灵活添加或移除代理。在开源Magentic-One的同时，微软也发布相对应的评估工具AutoGenBench，供开发者在控制变量和隔离环境下进行系统测试，确保该系统的稳定表现。（详全文）

GitHub Java Copilot助理

GitHub发布Java专用助理

最近，GitHub推出一款Java开发新工具：Java Copilot升级助理（Copilot Upgrade Assistant for Java），并开放技术预览。该工具采用GAI来自动化升级Java应用程序的运行环境、框架和相依性，简化企业用户的操作。

在技术预览版中，Copilot升级助理能协助开发者设置JDK、Maven路径、特定功能分支名称等参数，也能辨别项目中的主要相依项目，像是Spring Boot和JUnit等测试框架。完成设置后，Copilot助理能生成一系列升级任务，开发者也能在仪表板即时查看每个步骤的进度。要是在升级过程中发生错误，Copilot助理也会自动修复，并创建动态建置与修复循环尝试多种解决问题的方法。（详全文）

Hugging Face 小型语言模型 SmolLM2

Hugging Face发表轻量级小型语言模型SmolLM2

最近，AI社群Hugging Face发布一系列可在手机上运行的小型语言模型SmolLM2。这是继7月首次问世后，SmolLM家族的最新版本，包括参数量135M、360M与1.7B三种版本。其中，135M参数模型又可分为基础版和Instruct版，360M与1.7B参数模型则各自分成基础、Instruct和GGUF（GPT-Generated Unified Format）版本，共11个模型，皆以Apache 2.0授权开源。

135M、360M与1.7B都是以公开数据集和Hugging Face编排的数据集训练，但1.7B版本还多了数学与代码数据集。这些数据集分别有2兆、4兆与11兆个字符（Token）。相较于第一代，SmolLM2在指令遵从、知识与理解能力表现更好，也拜Argilla数据集之赐，Instruct模型还支持改写、重要摘要与函数调用等任务。不过，SmolLM2模型只能理解和生成英文内容，也还存在事实准确性、逻辑一致性以及偏差等问题。（详全文）

GitHub 引导式对话 开发

主动反问厘清需求！GitHub Copilot新添引导式对话功能

日前，GitHub更新Copilot助理，新添引导式对话能力，并在Visual Studio 2022 17.12第3预览版上线。GitHub Copilot开发团队指出，这项更新可让Copilot在需求不清楚时，能主动提问开发者、厘清上下文，协助开发者更快完成任务。

他们表示，在之前的版本中，不少开发者要花时间思考，如何正确表达需求，可能还要筛选过多的生成内容。但新功能可减少开发者写提示词的困扰，能随开发者需求调整回应，提供精简的信息。同时，GitHub Copilot也集成数据处理工具Data Wrangler，开发者能以自然语言进行数据清理与转换，并通过数据的上下文生成代码，更精准地处理数据。（详全文）

／史丹佛大学、微软、Hugging Face

AI近期新闻

1. 数位部数位产业署回复民间对加强投资AI新创计划的民间意见

2. 苹果Intelligence第一波功能上线了

3. 微软替记事本及小画家添增AI能力，改写与自动填补迈入预览

4. 阿里云开源Qwen 2.5-Coder全系列模型

5. 国泰金控广征500名AI、IT和国际人才

：iThome整理，2024年11月