在线中文AV精品人人草视频|日韩特黄AA片av超碰|国模免费在线视频|国产高清无码三级片|小毛片小电影人人上人人操|春色av无码黄片无码区|很爽很爽的香蕉视频|日本伊人小视频|亚洲AV网站免费|四月婷婷精品视频在线

性能持平價格大降80%,Anthropic新模型殺瘋了

距離ClaudeOpus 4.6的發(fā)布僅過去12天,Anthropic就發(fā)布了新的中檔模型Claude Sonnet 4.6。

這次發(fā)布的核心不在于技術(shù)突破本身,而在于它以低得多的價格,達(dá)到了與競品齊平的性能。。

Sonnet 4.6的定價保持在每百萬token輸入3美元、輸出15美元,與前代 Sonnet 4.5相同。

然而在多項基準(zhǔn)測試中,Sonnet 4.6接近甚至超越了價格高出五倍的Opus 4.6。

Anthropic表示,便宜不一定就沒有好貨。

當(dāng)然了,在一些關(guān)鍵的測試?yán)铮匀贿€是Opus 4.6領(lǐng)先。

具體表現(xiàn)如何呢?

01

Sonnet 4.6究竟有多驚艷?

在SWE-bench Verified這個衡量真實軟件編碼能力的基準(zhǔn)測試中,Sonnet 4.6得分79.6%,幾乎追平Opus 4.6的 80.8%,同時略微領(lǐng)先于OpenAI的GPT-5.2。

在代理式金融分析任務(wù)中,Sonnet 4.6以63.3%的成績領(lǐng)先所有競爭對手,包括Opus 4.6的60.1%和GPT-5.2的59.0%。

在辦公任務(wù)的GDPval-AA Elo評分中,Sonnet 4.6達(dá)到 1633 分,超過Opus 4.6的1606分和GPT-5.2的1462分。

過去需要旗艦?zāi)P筒拍芡瓿傻娜蝿?wù),現(xiàn)在用Sonnet 4.6這種中檔模型就能做到。

對于每天需要處理數(shù)百萬token的企業(yè)來說,這意味著可以大幅節(jié)省成本。

Opus 4.6仍然在某些高復(fù)雜度領(lǐng)域保持優(yōu)勢。

在終端編碼任務(wù)Terminal-Bench 2.0中,Opus 4.6得分65.4%,Sonnet 4.6為59.1%。

在代理式搜索BrowseComp中,Opus 4.6達(dá)到84.0%, Sonnet 4.6為74.7%。

在新穎問題解決測試ARC-AGI-2中,Opus 4.6得分68.8%,Sonnet 4.6為58.3%。

這些差距表明,對于前沿研究和需要頂級準(zhǔn)確度的場景,Opus 4.6仍是最好的模型。但對于大多數(shù)生產(chǎn)環(huán)境,這個差距已經(jīng)縮小到可以接受的程度。

Sonnet 4.6最引人注目的進(jìn)步出現(xiàn)在計算機(jī)使用能力上。在OSWorld-Verified基準(zhǔn)測試中,它得分72.5%,高于Sonnet 4.5的61.4%,遠(yuǎn)超GPT-5.2的38.2%。

計算機(jī)使用能力指的是AI像人類一樣操作計算機(jī)的能力,通過鼠標(biāo)點擊、鍵盤輸入來與軟件交互,而不依賴API接口。

前一陣引發(fā)熱議的豆包手機(jī)助手,其底層的UI-TARS模型,就是在OSWorld基準(zhǔn)上完成了權(quán)威測試,取得了47.5%的成績。

豆包手機(jī)助手的表現(xiàn)是非常出色的,已經(jīng)能夠完成除了支付以外所有的操作。

那么以此作為判斷依據(jù),進(jìn)而不難推測,Sonnet 4.6的實際表現(xiàn)將會非常驚艷。

這項能力之所以重要,是因為它打開了最廣泛的企業(yè)應(yīng)用場景。

一個能夠直接看屏幕并與之交互的模型,可以在不構(gòu)建定制連接器的情況下,自動操作將所有可交互的系統(tǒng)。

Anthropic在發(fā)布時提到,早期用戶已經(jīng)看到接近人類水平的表現(xiàn),能夠完成復(fù)雜的電子表格任務(wù)和多步驟網(wǎng)頁表單。

保險科技公司Pace的CEO賈米·考夫(Jamie Cuffe)表示,Sonnet 4.6在他們復(fù)雜的保險計算機(jī)使用基準(zhǔn)測試中達(dá)到94%的成績,是所有測試過的Claude模型中最高的。

他說:“它以我們之前未見過的方式推理失敗原因并自我糾正。”

惡意行為者可能在網(wǎng)頁中隱藏指令來劫持模型,這被稱為提示注入攻擊。

Anthropic在公告中表示,Sonnet 4.6在抵御此類攻擊方面比Sonnet 4.5有重大改進(jìn)。

對于部署需要瀏覽網(wǎng)頁和與外部系統(tǒng)交互的代理的企業(yè)來說,這種安全防護(hù)是必須的。

02

價格只要五分之一

那么Sonnet 4.6到底有多便宜呢?

外媒報道,一些早期的Sonnet 4.6用戶表示,原本企業(yè)需要花五倍的錢才能買到的能力,現(xiàn)在用Sonnet 4.6就能獲得差不多的效果。

這意味著運(yùn)營成本可能直接降到原來的五分之一,而工作質(zhì)量幾乎不受影響。

數(shù)據(jù)分析平臺Hex Technologies的CTO,同時也是Anthropic聯(lián)合創(chuàng)始人、首席產(chǎn)品官的凱特琳-科爾格羅夫 (Caitlin Colgrove)說,公司正在將大部分流量遷移到Sonnet 4.6。

她指出通過自適應(yīng)思考和高努力模式(high effort mode),“除了最困難的分析任務(wù)外,我們在所有任務(wù)上都看到了Opus級別的性能,且配置更高效靈活。以Sonnet的價格,這將降低工作成本。”

云存儲公司Box的CTO本·喀什(Ben Kus)表示,Sonnet 4.6在真實企業(yè)文檔的重度推理問答中,比Sonnet 4.5的表現(xiàn)提高了15個百分點。

Sonnet 4.6配備了100萬token的超長上下文窗口,以容納整個代碼庫、法律文件或數(shù)十篇研究論文。

Anthropic聲稱模型能夠在整個上下文中有效推理,并通過Vending-Bench Arena這個基準(zhǔn)測試來表現(xiàn)出Sonnet 4.6的有效推理。

Vending-Bench Arena測試的是模型運(yùn)營模擬企業(yè)的能力,不同AI模型相互競爭以獲得最大利潤。

在沒有人類提示的情況下,Sonnet 4.6發(fā)展出一種新穎策略:在前十個模擬月份中大量投資產(chǎn)能,支出遠(yuǎn)超競爭對手,然后在最后階段急轉(zhuǎn)彎專注于盈利能力。

模型在365天模擬結(jié)束時的余額約為5700美元,而Sonnet 4.5約為2100美元。

03

Anthropic開啟印度市場

Anthropic正處于上市前最關(guān)鍵的階段,因此他們不止要發(fā)布模型,還要借著模型去擴(kuò)張業(yè)務(wù)。

在Sonnet 4.6發(fā)布當(dāng)天,印度IT巨頭Infosys宣布與Anthropic合作,構(gòu)建企業(yè)級agent,將Claude模型集成到Infosys的Topaz AI平臺中,服務(wù)于銀行、電信和制造業(yè)。

與此同時,Anthropic也在印度的班加羅爾開設(shè)了首個印度辦事處,印度現(xiàn)在占全球Claude使用量的約6%,僅次于美國。

Anthropic的進(jìn)步也導(dǎo)致了最近幾天軟件股的大規(guī)模拋售,就連業(yè)績大漲的微軟,也經(jīng)歷了股價暴跌。

投資者越來越擔(dān)心AI對這些業(yè)務(wù)的潛在顛覆,Sonnet 4.6可能會加劇這種不安的氛圍。

也不知道是不是Anthropic飄了,他們還將其免費(fèi)層級默認(rèn)升級到了Sonnet 4.6,開發(fā)者可以通過Claude API直接調(diào)用。

特別聲明:本文為合作媒體授權(quán)DoNews專欄轉(zhuǎn)載,文章版權(quán)歸原作者及原出處所有。文章系作者個人觀點,不代表DoNews專欄的立場,轉(zhuǎn)載請聯(lián)系原作者及原出處獲取授權(quán)。(有任何疑問都請聯(lián)系idonews@donews.com)

性能持平價格大降80%,Anthropic新模型殺瘋了
掃描二維碼查看原文
分享自DoNews
Copyright ? DoNews 2000-2026 All Rights Reserved
蜀ICP備2024059877號-1