在线中文AV精品人人草视频|日韩特黄AA片av超碰|国模免费在线视频|国产高清无码三级片|小毛片小电影人人上人人操|春色av无码黄片无码区|很爽很爽的香蕉视频|日本伊人小视频|亚洲AV网站免费|四月婷婷精品视频在线

DeepSeek-OCR 2 發(fā)布:識(shí)別性能提升 3.73%

DoNews1月27日消息,DeepSeek 今日公布了其最新一代文檔識(shí)別模型 DeepSeek-OCR 2。很顯然,該模型是在 DeepSeek-OCR 的基礎(chǔ)上升級(jí)而來(lái),核心變化集中在視覺(jué)編碼器設(shè)計(jì)上。

研究團(tuán)隊(duì)提出了一種名為 DeepEncoder V2 的新型編碼器結(jié)構(gòu),它能夠根據(jù)圖像語(yǔ)義動(dòng)態(tài)調(diào)整視覺(jué)信息的處理順序,使模型在進(jìn)行文字識(shí)別前先對(duì)視覺(jué)內(nèi)容進(jìn)行智能排序。這項(xiàng)技術(shù)突破源于對(duì)傳統(tǒng)視覺(jué)語(yǔ)言模型處理方式的重新思考,旨在讓機(jī)器更貼近人類(lèi)的視覺(jué)閱讀邏輯。

在傳統(tǒng)的視覺(jué)語(yǔ)言模型中,圖像通常會(huì)被切分為若干視覺(jué) token,并按照從左上到右下的固定柵格順序送入模型處理。這種方式雖然實(shí)現(xiàn)簡(jiǎn)單,但與人類(lèi)在閱讀文檔、表格或公式時(shí)基于語(yǔ)義和邏輯關(guān)系進(jìn)行跳躍式瀏覽的方式并不一致。

DeepSeek 論文指出,尤其在版式復(fù)雜的文檔場(chǎng)景中,視覺(jué)元素之間往往存在明確的邏輯先后關(guān)系,僅依賴(lài)空間順序可能限制模型對(duì)內(nèi)容結(jié)構(gòu)的理解能力。

DeepSeek-OCR 2 的改進(jìn)重點(diǎn)在于引入“視覺(jué)因果流”的概念。在 DeepEncoder V2 中,研究團(tuán)隊(duì)用一種類(lèi)語(yǔ)言模型結(jié)構(gòu)替代了原先基于 CLIP 的視覺(jué)編碼模塊,并在編碼器內(nèi)部引入可學(xué)習(xí)的“因果流查詢(xún) token”。

其編碼器同時(shí)包含雙向注意力與因果注意力兩種處理模式,原始視覺(jué)信息通過(guò)雙向注意力進(jìn)行全局感知,而新增的查詢(xún)標(biāo)記則通過(guò)因果注意力逐步建立語(yǔ)義順序,從而在編碼階段對(duì)視覺(jué) token 的順序進(jìn)行動(dòng)態(tài)重排。最終,只有經(jīng)過(guò)因果重排后的查詢(xún) token 會(huì)被送入后續(xù)的解碼器,用于生成識(shí)別結(jié)果。

在整體架構(gòu)上,DeepSeek-OCR 2 仍沿用了前代模型的編解碼框架。編碼器將圖像轉(zhuǎn)換為視覺(jué)標(biāo)記并進(jìn)行壓縮,被壓縮為較少數(shù)量的視覺(jué) token,再由 DeepEncoder V2 進(jìn)行語(yǔ)義建模和順序重組,最后交由一個(gè)基于混合專(zhuān)家架構(gòu)(MoE)的語(yǔ)言模型解碼。

DeepSeek 論文指出,該設(shè)計(jì)在不顯著增加解碼負(fù)擔(dān)的前提下,將單頁(yè)文檔所使用的視覺(jué) token 數(shù)量控制在 256 到 1120 之間,與前代模型及同類(lèi)系統(tǒng)的資源開(kāi)銷(xiāo)保持在相近水平。

為驗(yàn)證模型性能,研究團(tuán)隊(duì)在 OmniDocBench v1.5 基準(zhǔn)上進(jìn)行了全面評(píng)估。該基準(zhǔn)涵蓋多種類(lèi)型的中英文文檔,包括學(xué)術(shù)論文、雜志、報(bào)告等,重點(diǎn)考察文本識(shí)別、公式解析、表格結(jié)構(gòu)還原以及閱讀順序等指標(biāo)。

測(cè)試結(jié)果顯示,在視覺(jué) token 上限更低的情況下,DeepSeek-OCR 2 的整體得分達(dá)到 91.09%,相較 DeepSeek-OCR 提升了 3.73%。特別是在閱讀順序準(zhǔn)確度方面,編輯距離從 0.085 降至 0.057,表明新模型能夠更合理地理解文檔內(nèi)容結(jié)構(gòu)。

DeepSeek-OCR 2 在生產(chǎn)環(huán)境中也表現(xiàn)出更好的穩(wěn)定性。在線(xiàn)用戶(hù)日志圖像的重復(fù)率從 6.25% 降至 4.17%,批處理 PDF 數(shù)據(jù)的重復(fù)率從 3.69% 降至 2.88%。這些改進(jìn)使得模型在保持高壓縮率的同時(shí),提升了實(shí)際應(yīng)用場(chǎng)景中的可靠性。

DeepSeek-OCR 2 發(fā)布:識(shí)別性能提升 3.73%
掃描二維碼查看原文
分享自DoNews
Copyright ? DoNews 2000-2026 All Rights Reserved
蜀ICP備2024059877號(hào)-1