
撰文 | 李信馬
題圖 | AI生圖
10年前,筆者進入科技媒體行業(yè),最先接觸的頂級科技公司就是甲骨文(Oracle)。那時候,提起數(shù)據庫大家的第一反應就是Oracle,在2016年的Gartner數(shù)據倉庫和分析數(shù)據管理解決方案魔力象限中,Oracle是無可爭議的領導者。

Gartner 2016數(shù)據倉庫和分析數(shù)據管理解決方案魔力象限 圖片來源:Gartner
在中國市場,其產品備受各行各業(yè)尤其是金融行業(yè)的信賴。有機構調查數(shù)據顯示,當時Oracle占到了我國數(shù)據庫市場份額的一半左右,另外約3成的市場份額被國外數(shù)據庫占據,國產數(shù)據庫的市場份額不足2成。
下面這張圖片拍攝于1987年,圖中站在講臺旁邊穿著白襯衫打著領帶的年輕人,正在教授SQL語言。他是甲骨文的第7號員工Andy Mendelsohn,曾任Oracle數(shù)據庫技術執(zhí)行副總裁,負責甲骨文全球數(shù)據庫的研發(fā),直到今年年初才退休。

他來到中國的契機,是當時我國西部最大的鋼鐵生產基地攀枝花鋼鐵公司,有一個1200萬的計算機管理信息系統(tǒng)項目,系統(tǒng)下面還有13個子應用系統(tǒng),這一級別的IT工程必須要用大型的商用數(shù)據庫。
彼時Oracle還沒有進入中國市場,于是在項目組購買了Oracle 5.1數(shù)據庫之后,對方寄過來三箱英文教材,參加項目的40余人一邊翻譯一邊開發(fā),還分成幾組互相培訓,甚至內部編寫了一個實用教程。1989年項目完成時,培訓教程也被整理出版,這就是Oracle的第一部中文教材《Oracle數(shù)據庫實用教程》,項目也獲得了1989年冶金部的科技進步一等獎。之后,Oracle正式進入中國市場。
中國早期的信息化建設隨處可見Oracle的身影,隨著九十年代后期國家稅務總局啟動了世界銀行稅收征管改革(CTAIS)技術援助項目,Oracle數(shù)據庫在我國金融數(shù)據庫市場逐漸占據了主流位置。微軟的SQL Server、IBM的DB2、Sybase、Informix等國外的數(shù)據庫,也陸陸續(xù)續(xù)進入國內市場。
相比之下,國產數(shù)據庫本身起步晚,1999年,中國第一家真正意義上的國產數(shù)據庫企業(yè)人大金倉(現(xiàn)已改名中電科金倉)才成立,此時距離Oracle發(fā)布第一個版本的數(shù)據庫已經過去了20年。
在很長的一段時期里,國產數(shù)據庫與Oracle等國外數(shù)據庫相比,差距是明顯的。不過當下,國產數(shù)據庫有了長足的發(fā)展,在部分領域也可以宣稱達到世界一流水平了。究其原因,筆者認為,國產數(shù)據庫廠商的努力固然重要,也要考慮時代的進程。
不久前,2025 OceanBase年度發(fā)布會在北京召開,在一眾國產數(shù)據庫中,它不能說是唯一的主角,但通過觀察OceanBase,我們的確能看到,國產數(shù)據庫是如何抓住歷史機遇,逐漸發(fā)展和壯大的。
早期的國產數(shù)據庫追不上Oracle的原因很簡單——后者的先發(fā)優(yōu)勢太大了。2017年,當時幾家老牌國產數(shù)據庫廠商中,以南大通用GBase的市場占有率最高,但其年營業(yè)收入僅為3.05億元人民幣——作為對比,甲骨文2017財年僅研發(fā)投入就達到了60億美元,而且在之前的10年里花費850億美元并購了130余家公司。
起步晚、投入少,還存在競爭壁壘,在相似的技術路線上,國產數(shù)據庫能夠維持發(fā)展,并滿足部分政府、軍工等關鍵信息領域的需求,就已經極為難得。
但互聯(lián)網的快速發(fā)展,卻給了后發(fā)者“彎道超車”的機會。2008年,《自然》雜志提出了“Big Data”(大數(shù)據)的概念,互聯(lián)網上非結構化數(shù)據迎來井噴式的爆發(fā),揭開了大數(shù)據時代的序幕。
在中國,BAT抓住了時代的機會,完成了對新浪、搜狐、網易“舊三巨頭”的反超,但急速增長的背后,他們面對海量數(shù)據同樣焦頭爛額,增長的利潤都被“IOE”(IBM的小型機、Oracle的數(shù)據庫和EMC的存儲)吃掉,繼續(xù)增長如同飲鴆止渴。
比如騰訊,當時按核計費一年要支付給Oracle上億美金,而且越發(fā)無法滿足大規(guī)模、高并發(fā)、大容量的需求,每次發(fā)生宕機事故,只能等甲骨文的技術人員來維護解決。這種情況下,去“IOE”對全球的大型互聯(lián)網公司來說都是勢在必行。
重要的是,互聯(lián)網公司有場景需求,也有錢,讓他們有動力也有能力去推動這件事情。
從谷歌的那篇論文——《基于集群的簡單數(shù)據處理:MapReduce》,到Hadoop、Spark等開源技術的出現(xiàn),互聯(lián)網公司基于分布式架構的存儲、資源調度和計算,只需要疊加機器數(shù)量,就能夠以更低廉的成本達到和突破以往集中式架構下的性能。
這件事發(fā)展到后面,就是云計算的興起了,不過多展開。
在數(shù)據庫領域,從90年代末期開始,開源數(shù)據庫就逐漸興起,谷歌等互聯(lián)網巨頭大規(guī)模應用MySQL等開源數(shù)據庫,即使后來MySQL被Oracle收購,也沒改變這一趨勢,在商業(yè)數(shù)據庫領域,谷歌最早嘗試了研發(fā)分布式數(shù)據庫——Google Spanner,這對瓦解“IOE”模式也起到了重要的作用,也不做過多展開了。
本文的主角OceanBase,也誕生于互聯(lián)網公司日益旺盛的大數(shù)據需求,和當時數(shù)據庫產品供給不足的矛盾中。多年前,筆者曾采訪過OceanBase的CTO楊傳輝,當時他還是OceanBase的研究員,據他透露,除了支付寶前CTO程立的強力推動外,壓力測試時Oracle出現(xiàn)了抖動,也是推動他們轉向自研數(shù)據庫的重要原因。
采訪中,他對國產數(shù)據庫長期發(fā)展緩慢的看法,讓筆者印象深刻:“沒有業(yè)務就會導致自研的系統(tǒng)沒有人來試驗,系統(tǒng)就不成熟,因為不成熟就沒有業(yè)務,進入這樣一個惡性循環(huán)的話,這個系統(tǒng)很難做好。要跨過這個惡性循環(huán),自研數(shù)據庫至少要5-10年的時間,我覺得5年是最低的,而且需要有類似雙十一這樣現(xiàn)象級的業(yè)務場景,普通業(yè)務場景誕生不了世界級的數(shù)據庫?!?/p>
簡單列一下時間軸,就能清晰地看到其中的聯(lián)系:
這里著重提一下,2017至2019年,OceanBase V2.0版本對MySQL的兼容性逐步邁進,最終實現(xiàn)了對Oracle的全面兼容,這意味著企業(yè)在遷移核心業(yè)務系統(tǒng)時,不需要對應用層進行大規(guī)模改造,極大降低了分布式數(shù)據庫的落地門檻——或者干脆點說,OceanBase有了“反攻”O(jiān)racle的能力,在金融、政務等傳統(tǒng)依賴Oracle的行業(yè)打開了市場。
下圖是2018年Gartner的OLTP數(shù)據庫魔力象限,Oracle依舊高居領導者的位置,但也出現(xiàn)了阿里云的身影,不得不說是歷史性的進步了。其實從時間上來看,阿里云的云原生數(shù)據庫POLARDB在2015年才開始自研,2017年10月正式發(fā)布,2018年商用,是明顯晚于OceanBase的,后者知名度相對較低,可能是吃了2020年才獨立的虧。
當然也有可能,是因為那時是云數(shù)據庫迅猛發(fā)展的階段,Amazon Web Services的位置都快和Oracle肩并肩了。這也是大勢所趨,兩年后Gartner將OPDBMS(Operational Database Management Systems)和DMSA(Data Management Solutions for Analytics)合并為CDBMS(Cloud Database Management Systems),理由是“There is Only One Cloud Database DBMS Market”,云原生架構和分布式技術最終深度融合為云數(shù)據庫。

2018年的Gartner分析型數(shù)據管理解決方案魔力象限
至于國產化,這個就不細講了,懂的都懂。國家出于基礎軟件自主可控的目的,對國產數(shù)據庫有政策上的傾斜,除了在軍工、政府等關鍵領域應用國產數(shù)據庫外,在金融等領域也要求國產化。2014年中國銀監(jiān)會39號文件《關于應用安全可控信息技術加強銀行業(yè)網絡安全和信息化建設的指導意見》中,就提出“在操作系統(tǒng)、數(shù)據庫等領域要加大探索和嘗試力度;從2015年起,各銀行業(yè)金融機構對安全可控信息技術的應用以不低于15%的比例逐年增加,直至2019年達到不低于75%的總體占比”。
這里放一頁筆者多年前參加活動時看到的PPT,Oracle創(chuàng)始人拉里·埃里森(Larry Ellison)在2018年10月接受FOX采訪時曾強調,不能讓中國的科技公司打敗美國的科技公司,在那時,他就將中國視為美國面臨的最大競爭對手了。

所以有些事情是必須要做的。2019年年中,Oracle中國研發(fā)中心關閉,大規(guī)模裁員1600人,這被視為Oracle在中國的“敗走”。同年10月,在“數(shù)據庫世界杯”TPC-C基準測試中,OceanBase以超過6000萬的分數(shù),打破了由Oracle保持了9年的OLTP世界紀錄,成為首個登頂?shù)膰a數(shù)據庫。

在這里,用OceanBase CEO楊冰接受筆者采訪時的回復來做下總結,他認為,OceanBase的發(fā)展,抓住了三個重要的時代機遇,其中前兩個分別是:
“第一波是互聯(lián)網的浪潮,本身我們也出身于阿里和螞蟻的大環(huán)境,如果沒有這一波浪潮帶來的海量的數(shù)據和互聯(lián)網的發(fā)展,其實很難倒逼團隊做如此大的投入,從第一行代碼開始去寫數(shù)據庫。這是以前所有的傳統(tǒng)數(shù)據庫廠商都沒有遇到過的(機遇),所以也使得我們以創(chuàng)新的方式把分布式和數(shù)據庫等結合在一起,完成了一次我認為是技術上彎道超車的積累。
第二波浪潮,假如前面這十年是讓我們快速形成技術的話,后面OceanBase商業(yè)化的這五六年,是讓我們快速從技術變成產品的過程,我們也經歷了中國分布式升級和國產化升級的浪潮。這個過程的意義在于,第一,它的時間非常短、非常迅速;第二,都是非常核心的關鍵系統(tǒng)做整個升級的替換。就像‘雙11’一樣,技術挑戰(zhàn)也是非常大的,而且是全行業(yè)去做,極大地縮短了我們把技術變成成熟產品的周期?!?/p>
第三個時代機遇,分兩個方面來講,技術上就是進入了AI時代。
為什么這么說呢?楊冰表示:“AI的話,它對于數(shù)據庫產生了新的需求,這些其實是讓我們一下子跟世界級的數(shù)據庫領域的玩家站在同一起跑線,因為這個場景全球都是新的,都是一樣的。而且可能因為中國應用比較發(fā)達,數(shù)據基建發(fā)展得比較快,數(shù)據量比較大,反而我們在這個場景當中,中國數(shù)據庫的玩家有更多的機會?!?/p>
具體來講,和大數(shù)據時代類似,AI時代的數(shù)據庫需要處理的數(shù)據量會變得越來越大,而且數(shù)據類型也與以往不同。大模型的計算能力強,但沒有記憶,需要數(shù)據庫產品來存儲和管理上下文,也即上下文工程。以前,是數(shù)據先進行結構化,然后進入數(shù)據庫處理,在AI場景中,數(shù)據可能未經處理就直接進入數(shù)據庫中。
近幾年,業(yè)界新的數(shù)據庫產品,其實都是面向AI的,比如向量數(shù)據庫、supabase等產品,數(shù)據庫領域的技術范式已經由應用服務慢慢延伸到智能服務。業(yè)界主流的數(shù)據庫,包括Oracle和MongoDB,也在引擎內部逐步增加了搜索的能力,支持AI原生的場景。誰能有把數(shù)據變成可被模型實時調用、可信執(zhí)行的能力,誰就握住了AI時代的機遇。
“只要談到AI數(shù)據庫,很多人的腦海里面想到的第一個詞叫向量搜索,我認為向量搜索只是AI數(shù)據庫的初級階段,最終所有的向量搜索都會逐步演進為混合搜索,能不能支持混合搜索是AI數(shù)據庫核心能力的分水嶺。”楊傳輝認為,未來數(shù)據庫除了處理結構化數(shù)據,還需要處理半結構化甚至是無結構化的數(shù)據,或者針對無結構化的數(shù)據來建立各種各樣的語義索引,比如說向量索引、圖索引和全文索引等,并需要有一套基于結構化、半結構化,以及無結構化各種索引之上的混合搜索。
他給出了一個具體的定義——面向Agent多?;旌纤阉?。今年4月27日,OceanBase發(fā)布了Datax AI戰(zhàn)略,宣布要打造 AI 時代的一體化數(shù)據底座。2025年,V4.4版本發(fā)布了共享存儲,采用存算分離架構,計算節(jié)點和數(shù)據存儲實現(xiàn)了完全的分離,計算節(jié)點能夠根據業(yè)務負載的變化,在主流云平臺上靈活地進行擴縮容,解決了AI時代打通多云底座的問題。

本次發(fā)布會上,OceanBase發(fā)布了4.4一體化融合版本,將TP、AP與AI能力集成于單一內核,同期還開源了其首款AI原生混合搜索數(shù)據庫seekdb,支持向量、全文、標量、GIS數(shù)據統(tǒng)一檢索,兼容30+主流AI框架。

seekdb產品架構
“這一次seekdb的發(fā)布,其實也是一個比較大的動作,它是完全獨立于現(xiàn)在OceanBase的一個分支,這也是我們下的決心。我們覺得AI的發(fā)展速度會超出我們的想象,所以我們希望以這樣的方式跑得更快一點,但是這個東西也對OceanBase工程化能力的各個方面提出進一步的挑戰(zhàn)?!睏畋f。
而商業(yè)上的時代機遇,就是全球化。隨著大量的中國企業(yè)出海,包括軟件企業(yè)、硬件企業(yè)和云廠商,對國產數(shù)據庫的全球化是有利好的。OceanBase誕生的第一天,就希望成為“世界級數(shù)據庫”,全球化也是其發(fā)展的必經之路。
不過,這條路即使對現(xiàn)在的OceanBase來說也是充滿挑戰(zhàn)。
市場競爭方面,還是拿Oracle來舉例。兩個月前,Oracle的股價大漲,一度將拉里·埃里森送上了世界首富的寶座,雖然最近其股價又大跌,不過機構看空的重要原因是認為其人工智能計劃過于“激進”。在AI時代,Oracle提出了“融合數(shù)據庫”的概念,Oracle的多模融合主要涉及數(shù)據類型與整體架構,比如圖數(shù)據、數(shù)據流、數(shù)據倉庫與數(shù)據湖架構,以及多種應用層級。在構建應用時,如果應用系統(tǒng)涉及多個數(shù)據庫,架構會變得復雜,容易出錯。融合數(shù)據庫通過整合不同數(shù)據類型和工作負載,支持企業(yè)級應用所需的高可靠性、安全性和可擴展性。
今年7月,筆者采訪了甲骨文公司副總裁及中國區(qū)董事總經理吳承楊,他在采訪中表示:“國產數(shù)據庫傾向于在應用層或數(shù)據中臺解決所有問題,而對錯需實踐驗證。但在智能體時代,代碼多由機器生成,如果希望從數(shù)據庫層面解決安全等問題,數(shù)據庫結構過于復雜對 AI 的使用是一個挑戰(zhàn)。現(xiàn)在很多企業(yè)做 AI 項目時,會把現(xiàn)有數(shù)據平臺的應用抽取到外部另起爐灶,這其實是誤區(qū)?!?/p>
在多模態(tài)和一體化上,OceanBase和Oracle的思路是相似的。吳承楊也表示,大多數(shù)國產數(shù)據庫近一兩年都在談融合數(shù)據庫的事情,但他認為,國產數(shù)據庫要做好,還需要一定的時間。
“融合數(shù)據庫不是幾種數(shù)據類型,是大量的數(shù)據類型,你可以看到我們在這上面有包括空間數(shù)據、結構化數(shù)據、MongoDB,JSON 的東西,文本的東西,XML 的東西,包括向量數(shù)據。坦率來講,我今天還沒有看到,一個國產數(shù)據庫能夠把一個向量數(shù)據庫融合在這里面,還有圖數(shù)據要融合進來,我覺得這是需要大量的投入?!眳浅袟钫f。
在中國市場,Oracle也非常重視中國企業(yè)出海,即China to Global(C2G),在產品端,吳承楊認為Oracle在數(shù)據合規(guī)和數(shù)據主權化等方面也有優(yōu)勢。
自2020年商業(yè)化以來,OceanBase的全球客戶數(shù)已突破4000家,連續(xù)五年年均增速超100%,深入到了金融、政務、通信、零售、制造、互聯(lián)網等十余領域,服務覆蓋16個國家和地區(qū)、60多個地域、240多個可用區(qū)。
在其長期深耕的金融領域,OceanBase服務了全部政策性銀行、5家國有大行,覆蓋了超100家資產規(guī)模千億級以上銀行,支撐190余個核心系統(tǒng)、1000多個關鍵業(yè)務;非銀領域,75%頭部保險集團、80%頭部券商、60%頭部基金公司已部署OceanBase,其中超半數(shù)用于核心系統(tǒng)。IDC報告顯示,OceanBase連續(xù)兩年穩(wěn)居中國分布式金融本地部署市場第一。
在去年年底Gartner最新發(fā)布的全球云數(shù)據庫管理系統(tǒng)魔力象限中,OceanBase雖然還未上榜,但已經連續(xù)兩年獲選“榮譽提及”??紤]到2022年OceanBase才正式推出云數(shù)據庫產品,近三年,OB Cloud客戶數(shù)年均增長115%,營收占比已達30%,這個表現(xiàn)很不錯了。

在采訪中,楊冰認為,OceanBase過去為國產數(shù)據庫的發(fā)展,主要做了三個方面的貢獻:
一是數(shù)據庫和分布式相結合,解決擴展性、可靠性和一致性的問題,OceanBase在工程化方面,做到了技術上的創(chuàng)新和突破;
二是在整個存儲結構上,以前是以Tree為主,OceanBase用LSM Tree數(shù)據結構,把它和數(shù)據庫相結合,演化出真正的HTAP,真正的存算分離和存算一體架構,包括單機分布式一體化,在存儲層面引領著創(chuàng)新;
三是在解決可用性的層面上,OceanBase做到在數(shù)據不丟失的情況下,RTO小于8秒,這是以前傳統(tǒng)架構沒有做到過的。
現(xiàn)在,我們談論國產數(shù)據庫是否已經崛起,還不是十分肯定。全球化和AI時代的到來,就是新一輪的“大考”。未來,OceanBase能否通過創(chuàng)新的方式,拓展數(shù)據庫的技術邊界,可能就是其能否成為“世界級數(shù)據庫”的關鍵。