欧美亚洲日韩乱伦,亚洲成人无码色图,草久伊人精品在线

DoNews > 專欄 > 性能持平價格大降80%，Anthropic新模型殺瘋了

性能持平價格大降80%，Anthropic新模型殺瘋了

字母榜 2026-02-20 14:11:33

4140

分享到

距離ClaudeOpus 4.6的發(fā)布僅過去12天，Anthropic就發(fā)布了新的中檔模型Claude Sonnet 4.6。

這次發(fā)布的核心不在于技術(shù)突破本身，而在于它以低得多的價格，達(dá)到了與競品齊平的性能。。

Sonnet 4.6的定價保持在每百萬token輸入3美元、輸出15美元，與前代 Sonnet 4.5相同。

然而在多項基準(zhǔn)測試中，Sonnet 4.6接近甚至超越了價格高出五倍的Opus 4.6。

Anthropic表示，便宜不一定就沒有好貨。

當(dāng)然了，在一些關(guān)鍵的測試?yán)铮匀贿€是Opus 4.6領(lǐng)先。

具體表現(xiàn)如何呢？

Sonnet 4.6究竟有多驚艷？

在SWE-bench Verified這個衡量真實軟件編碼能力的基準(zhǔn)測試中，Sonnet 4.6得分79.6%，幾乎追平Opus 4.6的 80.8%，同時略微領(lǐng)先于OpenAI的GPT-5.2。

在代理式金融分析任務(wù)中，Sonnet 4.6以63.3%的成績領(lǐng)先所有競爭對手，包括Opus 4.6的60.1%和GPT-5.2的59.0%。

在辦公任務(wù)的GDPval-AA Elo評分中，Sonnet 4.6達(dá)到 1633 分，超過Opus 4.6的1606分和GPT-5.2的1462分。

過去需要旗艦?zāi)Ｐ筒拍芡瓿傻娜蝿?wù)，現(xiàn)在用Sonnet 4.6這種中檔模型就能做到。

對于每天需要處理數(shù)百萬token的企業(yè)來說，這意味著可以大幅節(jié)省成本。

Opus 4.6仍然在某些高復(fù)雜度領(lǐng)域保持優(yōu)勢。

在終端編碼任務(wù)Terminal-Bench 2.0中，Opus 4.6得分65.4%，Sonnet 4.6為59.1%。

在代理式搜索BrowseComp中，Opus 4.6達(dá)到84.0%, Sonnet 4.6為74.7%。

在新穎問題解決測試ARC-AGI-2中，Opus 4.6得分68.8%，Sonnet 4.6為58.3%。

這些差距表明，對于前沿研究和需要頂級準(zhǔn)確度的場景，Opus 4.6仍是最好的模型。但對于大多數(shù)生產(chǎn)環(huán)境，這個差距已經(jīng)縮小到可以接受的程度。

Sonnet 4.6最引人注目的進(jìn)步出現(xiàn)在計算機(jī)使用能力上。在OSWorld-Verified基準(zhǔn)測試中，它得分72.5%，高于Sonnet 4.5的61.4%，遠(yuǎn)超GPT-5.2的38.2%。

計算機(jī)使用能力指的是AI像人類一樣操作計算機(jī)的能力，通過鼠標(biāo)點擊、鍵盤輸入來與軟件交互，而不依賴API接口。

前一陣引發(fā)熱議的豆包手機(jī)助手，其底層的UI-TARS模型，就是在OSWorld基準(zhǔn)上完成了權(quán)威測試，取得了47.5%的成績。

豆包手機(jī)助手的表現(xiàn)是非常出色的，已經(jīng)能夠完成除了支付以外所有的操作。

那么以此作為判斷依據(jù)，進(jìn)而不難推測，Sonnet 4.6的實際表現(xiàn)將會非常驚艷。

這項能力之所以重要，是因為它打開了最廣泛的企業(yè)應(yīng)用場景。

一個能夠直接看屏幕并與之交互的模型，可以在不構(gòu)建定制連接器的情況下，自動操作將所有可交互的系統(tǒng)。

Anthropic在發(fā)布時提到，早期用戶已經(jīng)看到接近人類水平的表現(xiàn)，能夠完成復(fù)雜的電子表格任務(wù)和多步驟網(wǎng)頁表單。

保險科技公司Pace的CEO賈米·考夫（Jamie Cuffe）表示，Sonnet 4.6在他們復(fù)雜的保險計算機(jī)使用基準(zhǔn)測試中達(dá)到94%的成績，是所有測試過的Claude模型中最高的。

他說：“它以我們之前未見過的方式推理失敗原因并自我糾正。”

惡意行為者可能在網(wǎng)頁中隱藏指令來劫持模型，這被稱為提示注入攻擊。

Anthropic在公告中表示，Sonnet 4.6在抵御此類攻擊方面比Sonnet 4.5有重大改進(jìn)。

對于部署需要瀏覽網(wǎng)頁和與外部系統(tǒng)交互的代理的企業(yè)來說，這種安全防護(hù)是必須的。

價格只要五分之一

那么Sonnet 4.6到底有多便宜呢？

外媒報道，一些早期的Sonnet 4.6用戶表示，原本企業(yè)需要花五倍的錢才能買到的能力，現(xiàn)在用Sonnet 4.6就能獲得差不多的效果。

這意味著運(yùn)營成本可能直接降到原來的五分之一，而工作質(zhì)量幾乎不受影響。

數(shù)據(jù)分析平臺Hex Technologies的CTO，同時也是Anthropic聯(lián)合創(chuàng)始人、首席產(chǎn)品官的凱特琳-科爾格羅夫 (Caitlin Colgrove)說，公司正在將大部分流量遷移到Sonnet 4.6。

她指出通過自適應(yīng)思考和高努力模式（high effort mode），“除了最困難的分析任務(wù)外，我們在所有任務(wù)上都看到了Opus級別的性能，且配置更高效靈活。以Sonnet的價格，這將降低工作成本。”

云存儲公司Box的CTO本·喀什（Ben Kus）表示，Sonnet 4.6在真實企業(yè)文檔的重度推理問答中，比Sonnet 4.5的表現(xiàn)提高了15個百分點。

Sonnet 4.6配備了100萬token的超長上下文窗口，以容納整個代碼庫、法律文件或數(shù)十篇研究論文。

Anthropic聲稱模型能夠在整個上下文中有效推理，并通過Vending-Bench Arena這個基準(zhǔn)測試來表現(xiàn)出Sonnet 4.6的有效推理。

Vending-Bench Arena測試的是模型運(yùn)營模擬企業(yè)的能力，不同AI模型相互競爭以獲得最大利潤。

在沒有人類提示的情況下，Sonnet 4.6發(fā)展出一種新穎策略：在前十個模擬月份中大量投資產(chǎn)能，支出遠(yuǎn)超競爭對手，然后在最后階段急轉(zhuǎn)彎專注于盈利能力。

模型在365天模擬結(jié)束時的余額約為5700美元，而Sonnet 4.5約為2100美元。

Anthropic開啟印度市場

Anthropic正處于上市前最關(guān)鍵的階段，因此他們不止要發(fā)布模型，還要借著模型去擴(kuò)張業(yè)務(wù)。

在Sonnet 4.6發(fā)布當(dāng)天，印度IT巨頭Infosys宣布與Anthropic合作，構(gòu)建企業(yè)級agent，將Claude模型集成到Infosys的Topaz AI平臺中，服務(wù)于銀行、電信和制造業(yè)。

與此同時，Anthropic也在印度的班加羅爾開設(shè)了首個印度辦事處，印度現(xiàn)在占全球Claude使用量的約6%，僅次于美國。

Anthropic的進(jìn)步也導(dǎo)致了最近幾天軟件股的大規(guī)模拋售，就連業(yè)績大漲的微軟，也經(jīng)歷了股價暴跌。

投資者越來越擔(dān)心AI對這些業(yè)務(wù)的潛在顛覆，Sonnet 4.6可能會加劇這種不安的氛圍。

也不知道是不是Anthropic飄了，他們還將其免費(fèi)層級默認(rèn)升級到了Sonnet 4.6，開發(fā)者可以通過Claude API直接調(diào)用。

特別聲明：本文為合作媒體授權(quán)DoNews專欄轉(zhuǎn)載，文章版權(quán)歸原作者及原出處所有。文章系作者個人觀點，不代表DoNews專欄的立場，轉(zhuǎn)載請聯(lián)系原作者及原出處獲取授權(quán)。(有任何疑問都請聯(lián)系idonews@donews.com)