AI资讯
工业级多模态文档智能:PaddleOCR 推出超小型 Vision-Language 模型 PaddleOCR-VL
AI资讯2025 年 10 月 16 日,PaddleOCR 公布多模态文档解析模型 PaddleOCR-VL(核心模型 0.9B)。该方案采用 NaViT 风格动态分辨率视觉编码器,结合 ERNIE-4.5-0.3B 轻量语言模型,主打在低算力条件下实现文本、表格、公式、图表与手写体的统一识别与结构化输出。官方称在 OmniDocBench 等公开基准与自建集合上达到或刷新多项指标表现。 模型覆盖 1...
用 Agent Hooks 做安全“秒回”:代码一变更,AI 代理自动触发全链路测试
AI资讯Agent Hooks 把“代码变更→安全测试→修复建议”串成自动化闭环:每次提交或合并请求,AI 代理即刻拉起 SAST、依赖与镜像扫描、SBOM 体检与基线对比,10 分钟内定位高风险并生成修复草案,既省时也能持续贯彻最佳实践。 一、Agent Hooks 的核心价值 1、变更驱动的自动安全测试 Agent Hooks 将钩子绑定到分支、PR 与合并事件,AI 代理在 CI/CD 中自启 ...
GLM Coding Plan 升级:Vision+Web Search 到底能给代码生产带来什么
AI资讯GLM Coding Plan 宣布更新:新增对 Cline、Roo Code、Kilo Code、OpenCode、Crush 等主流 AI 编码工具的支持;Vision 与 Web Search 已面向 Pro 与 Max 用户开放(经 MCP 接入,内置方案即将上线);同时上线季度与年度订阅锁定早鸟价,并开放计划升级。Max 方案以两倍价格获得四倍 Pro 使用量。 一、这次 GLM Co...
Notion 3.0 上线:Agents 成为你的“知识工作代理”
AI资讯Notion 3.0 正式上线,核心是 Notion Agents——面向知识工作的 AI 代理。Agents 与 Notion 数据库深度联动,能执行多步任务、20 分钟级自主工作,并以页面与数据库作为“记忆系统”。对个人与团队,这意味着从写方案到维护项目都能半自动完成。 一、Notion 3.0 有哪些关键升级 1、Personal Agent:你的专属知识工作代理 Notion Agen...
Chrome 进入 AI 浏览时代:Gemini、AI Mode 与页面内问答全盘点
AI资讯Chrome 正式迈入 AI 浏览器时代:Gemini 深度集成、AI Mode 直达地址栏、页面内问答、网页与视频总结、跨标签研究助手与早期“代理式”自动化。对创作者、职场用户与开发者而言,这些 AI 能把信息检索、整理与执行从小时级压到分钟级。 一、这波 Chrome AI 升级到底上了什么新能力 1、Gemini 进浏览器,AI 一键召唤 Chrome 把 Gemini 放进侧边按钮与面...
百度搜索 PC 端大改版全量上线:超级智能双行框、AI 工作台与结果页升级
AI资讯**百度搜索 PC 端大改版全量上线:超级智能双行框、AI 工作台与结果页升级** 百度搜索宣布 PC 端完成大改版的全量上线。新版百度 PC 搜索首页与搜索结果页同步升级,上线超级智能双行框、深度搜索与 AI 工作台,并提供智能模式与经典模式切换。 **一、百度搜索 PC 端此次大改版的主要变化** 1. 超级智能双行框:百度搜索 PC 端支持更长文本与多模态输入,可一键触发深度搜索。 2....
腾讯正式开源混元3D 世界模型 1.0,可生成可探索交互式沉浸式 3D 世界
AI资讯腾讯今日在 WAIC 上宣布开源混元3D 世界模型 1.0,该模型可以通过一句话或一张图片快速生成可漫游、可交互的沉浸式 3D 世界场景。这是业界首个开放源代码的 3D 世界生成模型,兼容主流 CG 流程,支持完全编辑和模拟。 **一、文本与图像双输入生成** 混元3D 世界模型 1.0 支持从自然语言描述或单张图像生成完整 3D 世界,无需复杂建模流程。 **二、高速生成,效率显著** 模...
Coze 正式拥抱开源,提供 Coze Studio 与 Coze Loop 两款重磅开源平台
AI资讯Coze 已正式开源其 AI Agent 开发平台,包括视觉构建工具 **Coze Studio** 与 AI Agent 生命周期管理平台 **Coze Loop**,开放社区参与共建与扩展。 **一、Coze Studio:可视化 AI Agent 开发平台** Coze Studio 是一个低代码/无代码的可视化平台,开发者可通过拖拽节点快速构建、调试并部署 AI Agent。它支持 p...
阿里推出最强翻译模型 Qwen3-MT:支持92种语言
AI资讯阿里巴巴旗下大模型团队 **Qwen(通义千问)** 发布了最新多语言翻译模型 **Qwen3-MT**,支持 92 种语言,覆盖全球 95% 以上人口,是目前性能最强的通用翻译模型之一。 **一、支持范围广,语言能力强** Qwen3-MT 训练于万亿级多语种数据,涵盖主流语种及大量小语种,适用于全球化产品、跨境内容和本地化服务。 **二、模型优势突出** 1. **翻译质量高**:准确自...
Kiro:The Three Stages of Kiro
AI资讯The Three Stages of Kiro、From smooth use at the beginning to lag and limitations Kiro:The model you've selected is experiencing a high volume of traffic. Try changing the model and re-running your pr...
AI资讯
更多- 1 Boston Children’s 用 AI 推进罕见病诊断
- 2 Braintrust 用 Codex 加快客户需求验证
- 3 ComfyUI 接入 OpenRouter,创作工作流更灵活
- 4 PwC 扩大 Claude 部署,企业 AI 从试点走向业务单元
- 5 ChatGPT 接入个人财务预览,AI 开始进入真实账户场景
- 6 Gemini 进入 Android 版 Chrome,移动浏览器开始变成 AI 助手
- 7 MachinaCheck 展示制造业 Agent,用本地模型判断 CNC 可制造性
- 8 中国移动发布 AI-eSIM,手机号码可能变成智能体入口
- 9 纽约时报更正 AI 生成引文,新闻编辑流程再次拉响警报
- 10 Cerebras IPO 传超 20 倍认购,晶圆级芯片热度升温
AI百科
更多- 1 NotebookLM Audio Overview 是什么?资料变播客的原理
- 2 Claude Artifacts 是什么?把回答变成可预览作品
- 3 Gemini Deep Research 是什么?AI 如何做长报告
- 4 ChatGPT Canvas 是什么?为什么适合写作和代码
- 5 Perplexity Spaces 是什么?AI 搜索里的项目空间
- 6 Hermes Agent 消息网关是什么?远程助手靠它转发
- 7 Hermes Agent 是什么?和普通聊天机器人有何不同
- 8 Hermes Agent 记忆系统怎么理解?保存经验还是保存聊天
- 9 Hermes Agent MCP 是什么?为什么它能扩展工具
- 10 Hermes Agent Skills 是什么?它不是普通提示词