悅數 Graph RAG,早于微軟站上起跑線
文章來源:雷峰網 作者:趙之齊
向量數據庫近年水花激蕩。
高效檢索高維向量數據,對大模型訓練和推理至關重要。2023 年大模型狂奔以來,向量檢索——RAG(檢索增強生成)技術中的一個重要組成部分——也成為數據庫技術的核心焦點。
但隨著 RAG 的廣泛應用,其局限性也逐漸顯露:它只能對知識本身做向量化,難以理解獨立信息之間的鏈接,無法結合關系和語境,處理需要更深層次語義關系和上下文細微差別時的復雜查詢就顯無力。
如何解決這一困境?杭州悅數科技有限公司(下稱悅數) CTO 葉小萌帶領團隊,在 2023 年與 LlamaIndex 聯合提出 Graph RAG 設想,并快速分享這個概念的初步驗證。
圖數據庫的優勢在于處理關聯關系,Graph RAG 通過知識圖譜,能更精確全面檢索相關信息,使模型能關聯上下文給出答復。這個概念起初在國內水花平平,但悅數組建團隊持續推動落地,去年 11 月推出悅數 RAG 產品,實現了基于圖的檢索增強生成,幫助企業應對知識孤島問題。
微軟也于去年 7 月 2 日開源了 Graph RAG 研究項目,讓這一概念真正被大眾廣泛關注。但究其概念提出時間,悅數早于微軟。把圖庫與向量結合的這個團隊,起初只有一個人。開發 Graph RAG 的難度幾何?致力于打造信創領域圖數據庫的悅數,又需要多做些什么?葉小萌向雷峰網分享這些年的心路歷程。
悅數 CTO 葉小萌
Graph RAG的先行者 一個人也是一支隊伍
談及悅數跟行業的差異化策略,葉小萌直言:技術。
大模型的出現在 2023 上半年帶火 RAG。葉小萌介紹道,要讓通過公域數據訓練的大模型了解私域數據,就要先把私域數據保存下來,這是 RAG 技術的起點。而要快速在私域數據里找到關聯內容,就需要將圖片文字等知識內容向量化進行比較。
但在向量浪潮下,團隊看到其缺陷:向量數據庫只能對知識本身做向量化,難以呈現知識間的關聯,也因此,擅長處理關聯關系的圖數據庫,在此大有可為。
在悅數團隊于 2023 年 8 月首次提出 Graph RAG 概念時,人們對這兩者的結合還難以想象。但悅數并未退卻,11 月組建團隊開始打造這款 RAG 產品。一年后推出了悅數 RAG,目前已進入 PMF,預計今年能進行推廣。
對于團隊規模七八十人的創業公司而言,在原有產品上分出一條新的線并不容易。除了內核的圖庫外,做上層 RAG 的團隊,起初只有古思為一個人。
2023 年,市面上有的 RAG 三種結合方式在古思為看來“都不是很令人興奮”。學習 RAG 范式時,深耕圖庫多年的他敏銳捕捉到, RAG 利用無狀態大模型做上下文理解和推理時無法繞過知識圖譜,因為真實世界中知識組織結構都是網狀的。當時 RAG 的明顯缺陷能靠圖做 index 來補充,“Graph RAG 足夠復雜、足夠有想象力,值得投入”,悅數于是開始了 RAG 的研究。
古思為向雷峰網回顧說,Graph RAG 就像一個小帳篷,里面能放很多東西,由此帶來的挑戰就是做抉擇。例如,圖的形式是選擇現有的知識圖譜進行事實檢測和推理,還是從不同類型知識中二次處理增強變成圖狀數據,還是僅用圖狀結構生成總結?沒有足夠參考的情況下,每個決定都需反復斟酌。最終悅數取舍簡化后呈現的初步驗證反響不錯;而當時定下來的實現方式,現在依然是 Graph RAG 的默認常用方法。
后續概念的落地比想象中復雜。2024 年上半年,悅數開始提供抽象工具給用戶,但技術門檻令當時許多客戶難以自己搭建 pipeline。如何讓用戶即便對圖庫無感知也能有很好使用效果?兩三個月里跟四五十個客戶聊過后,團隊開始迭代一定程度開箱即用的方案,以消除用戶使用產品的心智負擔。
回顧起初的探索,對新技術狂熱的古思為笑說,自己當時已充分利用生成式 AI 參與工作,如在 2023 年 9 月就成了 cursor 的付費用戶,這讓他的效率翻二十倍,雖然是一個人做研發,但又不完全是“一個人”。如今團隊中不同角色逐漸完備,很多工作都是通過 v0.dev 完成,“這在一兩年前不敢想象”。
如今,悅數 RAG 已經可以無縫銜接 DeepSeek,團隊也在基于蒸餾技術、圖上推理等功能進行 RAG 迭代,“做更多令人興奮、更有回報的事情”。
古思為和客戶講解產品
悅數走在前沿,不止在 RAG 的探索。2024 年 4 月,國際標準化組織(ISO)發布了國際標準圖查詢語言 GQL,是 ISO 在四十多年里制定的第二個數據庫查詢語言國際標準。這個標準制定開始于 2019 年,在其發布第一版、第二版草稿征求意見的過程中,悅數一直跟蹤投入研發。GQL 標準發布后的同年 11 月,悅數也推出悅數圖數據庫 v5.0 ,是全球第一款原生支持 GQL 的分布式圖數據庫產品。
開源的 NebulaGraph 經過三四年場景打磨和產品驗證后,悅數基于 NebulaGraph 開始做企業級的商業化產品。在圖數據庫的增長勢頭下,悅數在 2023 年比 2022 年實現兩倍多增長,2024 年又比 2023 年增長近三倍,已接近收支平衡。
在圖庫進入信創名錄前 先做到“萬事俱備”
悅數走在成為信創品牌的路上,但“悅數不是為了做信創而做信創”,在葉小萌看來,這是個自然發生的過程:信創的重要特征中,首當其沖便是自主可控,而悅數圖數據庫的每一行代碼都是團隊親手寫下,悅數本身已有 IP 和代碼的自主權,是做信創的良好土壤。
不過,在 2027 年實現 “2+8+N” 的數據庫 100% 國產替代目標下,數十種數據庫類型中,目前也只有關系型數據庫被收錄在冊,相對小眾、發展勢頭仍較年輕的圖數據庫還不在信創名錄之列。悅數能進入信創名錄、得到認證,是葉小萌的目標之一。而在此之前,他們要做的是匹配各種信創操作系統或硬件,先萬事俱備,再等東風吹來。
適配國產硬件生態并非易事。國產硬件起步較晚,國內 CPU 在近幾年才集中快速增長。一般較常用的芯片基于 x86 架構和 arm 架構,但現有主要六大國產 CPU,龍芯、海光、兆芯、鯤鵬、申威、飛騰,其中有些比較小眾的架構如 MIPS,對團隊編譯適配提出更高的時間和人力要求。但葉小萌也看到,雖然國產與國外硬件在 x86 的差距仍較大,但 arm CPU 的級別已與國際化水平非常接近。
與國產操作系統的適配也存在挑戰,尤其當國產 OS 上游的 Linux 版本仍相對較老時。此外,悅數圖數據庫在去年 6 月通過中國信通院舉辦的“可信數據庫”圖數據庫性能測試,是國內首個全項完成該測試的圖數據庫產品,這也體現了悅數做信創匹配國標的決心。
悅數 RAG 產品界面
以信創為發展目標的悅數,目前客戶也一半以上都有信創需求。
葉小萌觀察到,現在還愿意出大價格的企業,許多是國央企或至少有國資背景的企業,也因為此,政企領域的客戶競爭總是較為激烈,最甚是金融業——金融業 IT 需求發展起步較早,每年預算高,大家都擠破頭往里卷。
在價格戰硝煙中,悅數盡量避免受到波及:投標時,悅數會避開除產品分數外其他分數(如價格分數、公司資質、評委打分等)占比過高的場景,也盡量避免卷入搶低價客戶的漩渦。葉小萌相信,產品價格得體現產品本身給客戶帶來的價值,卷技術對行業有利,但卷價格“沒法體現軟件產品的價值,很不可取”。
數據庫市場競爭如長跑 一二梯隊已漸顯
葉小萌畢業后不久,就扎進圖數據庫領域。
他在 2010 年底進入 Facebook,一年后開始做圖數據庫產品。2015 年左右,葉小萌回國,業務蒸蒸日上的螞蟻正準備引入圖庫做風控。彼時國內圖數據庫市場剛起步,業界產品難以滿足螞蟻數據量和查詢并發量的高需求。就這樣,葉小萌成了團隊負責人,開始了這款比 Facebook 的圖數據庫查詢模式更復雜的項目——畢竟后者應用場景單一,基本查詢需求都只跟社交網絡有關。
螞蟻曾將自研的圖數據庫囊括在金融解決方案中一起銷售。葉小萌與客戶溝通接觸時,發現很多銀行在數據庫、中間件上都有現成配置,但在如反洗錢、反欺詐等新場景上,對圖庫有新需求。當時圖數據庫囊括在螞蟻的成套方案中,無法單獨拆分給銀行使用,但葉小萌已從中嗅到圖數據庫的商機。
早期風控主要基于規則和簡單算法,隨著需求深度提升,傳統算法難以滿足,圖數據庫優勢漸顯。葉小萌舉例說到,銀行放貸業務要判斷企業資質征信情況,便需要企業圖譜,了解企業間十幾二十層的控股關系,這種關聯是圖數據庫的擅長領域;此外,貸后監控如資金流向等,也是圖數據庫能大展拳腳的地方。
葉小萌在產品發布會上演講
親歷圖數據庫市場成長的浪潮,葉小萌也感受到,這些年的市場教育已卓有成效?,F在團隊接觸客戶不再需要介紹圖數據庫的定義功能,能直接從介紹行業經驗和使用場景開始。
而作為從業者,他形容數據庫市場的競爭有如跑八百米,進程近半,“雖然不排除有人最后沖刺反超,但到四百米左右已經可以分出第一梯隊和第二梯隊了”。如今,數據庫市場開始大浪淘沙,產品差距只會越來越明顯,他對此也抱有信心:淘汰完成后,最后能留下的玩家就是技術產品最好的。
技術狂人葉小萌領略過硅谷科技大公司的工程師文化,深受感染,希望能打造技術上最強的公司。也因為此,悅數的氛圍十分接近他心之所向的工程師文化——大家專注做技術、以技術為導向,員工自驅力很強。尤其創立初期,公司團隊里幾乎全都是程序員,大家的共同點是:非常理想化、相信圖數據庫未來可期。
不過,對葉小萌來說,創業最難的是突破邊界。浸潤技術領域多年的他,在 2023 年商業化后開始接觸客戶,面對的對象從電子屏幕轉變為人?!半娔X比較簡單,你發出指令它執行就可以,但跟客戶見面聊天時,要觀察對方對自己講的話的反應、猜測他們背后的想法”,葉小萌感慨,自己仍走在突破自我的路上。