百度千帆发布端到端文档智能模型Qianfan-OCR:4B参数,登顶OmniDocBench

linux_open_lab2026-03-19 20:17:54TechWeb.com.cn

3月19日消息,百度千帆正式发布全新端到端文档智能模型 Qianfan-OCR。该模型基于统一的视觉语言架构,以4B参数规模实现了对文档解析、版面分析、文字识别与语义理解的全面融合,在多项权威评测中取得领先表现。

目前,Qianfan-OCR已在千帆平台上线,并同步在HuggingFace开源了模型权重,面向开发者与企业用户开放使用。

据介绍,在核心Benchmark中,Qianfan-OCR表现尤为突出。在 OmniDocBench v1.5上取得 93.12分的成绩,端到端模型中位列第一;OCRBench远高于同尺寸通用视觉语言模型和专用OCR模型;在关键信息提取(KIE)的多个公开榜单总分上,超过了Google Gemini 3-Pro等商用模型。

在图表理解等复杂任务中,端到端模型的优势更加明显,Qianfan-OCR在ChartQA、ChartBench等6项图表理解复杂任务中,拿下了5项最佳成绩,展现了强大的结构理解与多模态推理能力。

传统 OCR 系统普遍沿用“检测+识别+LLM”三段式Pipeline架构。这一模式虽已工程成熟,但多阶段串联处理会在各环节不断放大误差,且文本逐块提取过程中原有的空间结构与视觉上下文信息往往遭到破坏,使得图表、复杂表格等内容的理解能力受到明显制约。

Qianfan-OCR 从底层架构出发进行重构,通过统一的端到端视觉语言模型,直接从文档图像生成结构化结果,完整保留视觉信息,实现从“看见文档”到“理解文档”的一步直达,在结构理解与推理任务中具备更高的一致性与准确性。

Qianfan-OCR在文档解析与理解一体化能力上的领先表现,进一步验证了端到端技术路线的可行性与先进性,标志着文档智能能力正从“流程拼接”迈向“模型统一”的新阶段。(宜月)

从昆仑万维财报,看见真正的AI增长内核

从某种程度来看,AI商业化飞轮在昆仑万维的业务体系内被打响也属必然。不论是大模型市场人们讨论的从算力(芯片)到算法到数据的全技术栈布局,还是从模型到产品到场景的AI商业布局,这两个大模型持久战或者价值验证...

华为大涨64%、iPhone暴跌24%,​苹果急需AI“救命”

最近的苹果公司,可谓是“阴雨连绵”,先是备受关注的AppleVisionPro逐渐降温,后劲略显不足。后又宣布放弃十年造车计划,紧接着又被欧盟开出18亿欧元的罚单。截至美股3月5日收盘,苹果股价在当天的交易中又下跌2.84...

谷歌最强Gemini 3 Pro AI模型被曝11月发布:100万tokens 上下文

11月6日消息,科技媒体ufukozen昨日(11月5日)发布博文,报道称在谷歌企业级平台VertexAI上,发现了其下一代旗舰AI模型Gemini3Pro预览版的踪迹,模型标签为“gemini-3-pro-preview-11-2025”,预估将于2025年11月发...

业内人士:台积电获得主要云服务厂商AI芯片订单 包括微软5nm芯片订单

11月17日消息,据外媒报道,OpenAI训练的人工智能聊天机器人ChatGPT大火后,多家公司加入了生成式人工智能及大型语言模型的赛道,纷纷加大投入,对人工智能芯片的需求也大幅增加,英伟达H100等供不应求,也出现了人...

支付宝小程序云上线“云AI” 支持文字、图片、情绪的智能识别

11月1日消息,近日,支付宝小程序云服务又升级了,全新推出了文字识别、智能视觉和自然语言处理等3项智能应用功能。文字识别,小程序内拍照或上传图片后,包括证照、菜单、发票等,其中的关键文字信息不再需要手动输...

上一篇:BOSS直聘2025年财报:用户与利润双增长,AI赋能成效显著