數(shù)據(jù)中臺為什么不好搞?
從 2015 年阿里提出“大中臺”的數(shù)據(jù)中臺戰(zhàn)略,到 2019 年大廠及中臺服務(wù)商“大興”數(shù)據(jù)中臺,再到 2021 年大廠又開始拆中臺。數(shù)據(jù)中臺從小甜甜變成牛夫人僅僅用了 2 年時間,為什么這么快數(shù)據(jù)中臺就不香了?(說明:數(shù)據(jù)中臺的概念比較模糊,有些人說是業(yè)務(wù)概念,有些人說是技術(shù)概念,這里我們僅從技術(shù)的角度討論,即認為數(shù)據(jù)中臺是技術(shù)概念)
數(shù)據(jù)中臺為什么難搞?
從技術(shù)上講,中臺的架構(gòu)挺合理的。在前臺和后臺之間夾一個中臺,屏蔽后臺的數(shù)據(jù)存儲,應(yīng)對前面沒完沒了的變化需求。前臺跟著界面走,天生就穩(wěn)定不了,總是有五花八門的數(shù)據(jù)請求,這是必然的事情。后臺應(yīng)該主要負責(zé)數(shù)據(jù)存儲,把不同形式和規(guī)模的數(shù)據(jù)以合適的方式整理好,大數(shù)據(jù)倒騰起來動靜太大,要求有一定的穩(wěn)定性。如果前臺的請求都要求后臺直接做,那后臺管的事就太多了。應(yīng)對靈活請求和規(guī)整數(shù)據(jù)存儲在一定程度上是兩個優(yōu)化目標不同的需求,同一個團隊在同一套硬件上同時對付這兩件事,容易發(fā)生精神分裂。而且,后臺是被許多前臺共享的,如果直接向前臺提供靈活數(shù)據(jù)服務(wù),還可能導(dǎo)致各個前臺之間的耦合程度太高,維護成本立即陡增。同樣的,把這些數(shù)據(jù)處理放在前臺也不合適,一方面不太安全,另一方面,前臺團隊也是忙著讓界面如何更好看使用更流暢,沒太多工夫琢磨數(shù)據(jù)的事情。有了中臺就好很多了,后臺專心管存儲,前面專心管界面,前后臺之間的差距由中臺負責(zé)抹平。分工明確,各司其職,效率自然提高。
既然架構(gòu)合理,那為啥搞不下去?
原因呢,說啥的都有,不過大都沒說到點子上。因為說這些話的大都不寫代碼,寫代碼的又大都輪不到來說話。技術(shù)上的根本原因在于,業(yè)界就沒有準備好能讓數(shù)據(jù)中臺落地的技術(shù)!
中臺向前臺提供數(shù)據(jù)服務(wù)。啥是數(shù)據(jù)服務(wù)呢?就是收到請求后返回一些合適的數(shù)據(jù)回去,那咋弄出返回的數(shù)據(jù)呢?計算!就是把以前在后臺讓數(shù)據(jù)庫做的事搬到中臺完成。
那么,你打算讓我用什么技術(shù)來寫這些計算代碼呢?
Java?開玩笑呢?寫個稍復(fù)雜些的分組匯總就可能好幾百行,你讓我怎么提高效率?還想迅速應(yīng)對前臺變化?這代碼我連寫帶調(diào)得好幾天,下禮拜再見吧。
中臺要干的這些任務(wù),也是之前數(shù)據(jù)庫干的事,絕大多數(shù)都是結(jié)構(gòu)化數(shù)據(jù)相關(guān)的計算。而 Java 這些高級語言基本上沒什么好用的結(jié)構(gòu)化數(shù)據(jù)計算類庫,原先用 SQL 幾句幾十句話能搞定的事,現(xiàn)在用 Java 就得幾百甚至上千行代碼了。代碼長了,不僅難寫,還容易錯。而且,Java 程序員的成本也挺高啊,效率沒提高,錢倒花多了,那又何苦?
你可能會說,Java 支持 Stream 以后這些問題就都能解決啊。Stream 看著挺好,但實際用起來完全不是那么回事。Stream 的中間計算結(jié)果和最終結(jié)果都要事先定義,而結(jié)構(gòu)的定義和賦值都很麻煩,如果不定義,閱讀和使用又不直觀。而且 Stream 雖然支持 lambda 語法,但接口規(guī)則比較復(fù)雜,代碼沒短多少閱讀障礙卻顯著增加。Stream 的結(jié)構(gòu)化對象如 record\entiry\Map 都不方便,根本原因還是在于 Java 缺乏專業(yè)的結(jié)構(gòu)化數(shù)據(jù)對象,缺少來自底層的有力支持。
與 Stream 類似,Kotlin 計算能力不足也是由于缺乏專業(yè)的結(jié)構(gòu)化數(shù)據(jù)對象導(dǎo)致的。無法支持動態(tài)數(shù)據(jù)結(jié)構(gòu)、難以真正簡化 Lambda 語法、無法直接引用字段等等。同時 Kotlin 也缺乏一些重要的基本函數(shù),比如關(guān)聯(lián)計算,開發(fā)者仍然要硬編碼完成計算,對于多個基本計算組合而成的業(yè)務(wù)算法,開發(fā)過程仍然困難。
但是,貌似有些大廠的中臺架構(gòu)實施得不錯,這又咋解釋?
可能是大廠人才多,Java 代碼積累豐富吧,搞起這些計算就容易一點了。而且,事實是這些互聯(lián)網(wǎng)大廠雖然大,業(yè)務(wù)復(fù)雜度卻遠遠趕不上傳統(tǒng)行業(yè),大廠能搞得通的事,你可未必能搞得通。更何況大廠又開始拆中臺了不是?
不用 Java,那咱還繼續(xù)用 SQL 行不?
嗯,那得在中臺也放個數(shù)據(jù)庫,把一堆數(shù)據(jù)從后臺搬出來再移到中臺來。搬多少數(shù)據(jù)呢?貌似所有的數(shù)據(jù)都有可能用于計算,那得把整個后臺的數(shù)據(jù)都搬過來。然則這玩意兒還能叫中臺?不就是把后臺挪了個位置而已,純粹吃飽了撐的嘛。
在沒有不依賴于數(shù)據(jù)庫的、可被集成嵌入的、支持多樣數(shù)據(jù)源、簡單方便且豐富強大的結(jié)構(gòu)化數(shù)據(jù)計算能力之時,數(shù)據(jù)中臺就是空想,架構(gòu)好看,但無法落地。強行上中臺,除非你的業(yè)務(wù)足夠簡單,否則就是只會讓開發(fā)成本上升而效率下降,靈活性一點沒增加,麻煩事卻一大堆。
數(shù)據(jù)中臺受制于計算能力。必須要具有上述特征的計算引擎之后,才能讓數(shù)據(jù)中臺的合理架構(gòu)真正發(fā)揮作用,也才能讓數(shù)據(jù)中臺實打?qū)嵉芈涞亍㈤_花、結(jié)果。
開源 SPL:數(shù)據(jù)中臺計算引擎
開源計算引擎 SPL 具備數(shù)據(jù)中臺需要的所有特性,不僅提供了不依賴數(shù)據(jù)庫的完備計算能力,開放的計算體系還可以直接基于多樣數(shù)據(jù)源進行計算,同時豐富的計算類庫和敏捷語法可以很方便完成復(fù)雜結(jié)構(gòu)化數(shù)據(jù)計算,SPL 優(yōu)秀的集成性確保了可以方便地被分布到數(shù)據(jù)中臺的各個環(huán)節(jié)以處理數(shù)據(jù),助力數(shù)據(jù)中臺發(fā)揮應(yīng)有的效力。

邏輯上 SPL 介于應(yīng)用和數(shù)據(jù)源之間實施數(shù)據(jù)處理,對上提供計算服務(wù),對下屏蔽多樣性數(shù)據(jù)源差異,完美貼合數(shù)據(jù)中臺的結(jié)構(gòu)。SPL 提供了標準 JDBC/ODBC/RESTful 接口,可以像調(diào)用存儲過程一樣請求 SPL 計算結(jié)果。JDBC 調(diào)用 SPL 代碼示例:
Class.forName("com.esproc.jdbc.InternalDriver");
Connection conn =DriverManager.getConnection("jdbc:esproc:local://");
CallableStatement st = conn.prepareCall("{call splscript(?, ?)}");
st.setObject(1, 3000);
st.setObject(2, 5000);
ResultSet result=st.execute();
熱切換能力
SPL 采用解釋執(zhí)行機制,天然支持熱切換。這樣對于穩(wěn)定性差、經(jīng)常需要新增修改的中臺數(shù)據(jù)處理需求非常友好。SPL 服務(wù)腳本與 Java 程序獨立,外置在 Java 之外,修改和維護都可以獨立進行,腳本修改上傳后就能實時生效,保證中臺可以不中斷地提供服務(wù)。

使用 SPL 實現(xiàn)中臺中的數(shù)據(jù)處理邏輯,可以有效地降低數(shù)據(jù)服務(wù)和框架之間的耦合性。整個中臺架構(gòu)也更為合理。
敏捷語法
作為專業(yè)的數(shù)據(jù)計算引擎,SPL 為結(jié)構(gòu)化數(shù)據(jù)處理設(shè)計了專門的敏捷計算語法,通過 SPL 語法可以快速實現(xiàn)數(shù)據(jù)處理任務(wù),及時響應(yīng)前臺多變的數(shù)據(jù)請求。在敏捷語法與過程計算的支持下,即使原來使用 SQL 難以完成的復(fù)雜計算(更不用說 Java 了),用 SPL 也可以輕松實現(xiàn)。比如要根據(jù)股票記錄查詢某只股票最長連續(xù)上漲天數(shù),SQL(oracle)的寫法如下:
select max(continuousDays)-1
from (select count(*) continuousDays
from (select sum(changeSign) over(order by tradeDate) unRiseDays
from (select tradeDate,
case when price>lag(price) over(order by tradeDate) then 0 else 1 end changeSign from AAPL) )
group by unRiseDays)
可以嘗試一下讀懂這句 SQL,是不是很繞?這是由 SQL 的特性(缺乏離散性、集合化不徹底等)決定的。同樣的思路,SPL 寫起來就簡單多了,不用繞來繞去了:

數(shù)據(jù)從數(shù)據(jù)庫中取出(數(shù)據(jù)源是什么都可以,下面會說到 SPL 的開放性),計算在計算引擎 SPL 中完成,符合數(shù)據(jù)中臺的目標。
SPL 還提供了簡潔易用的 IDE 環(huán)境,在 IDE 中不僅可以很方便編碼調(diào)試,過程計算的每步計算結(jié)果都可以實時查看,網(wǎng)格式編碼代碼天然整齊,通過格子名稱引用中間計算結(jié)果無需定義變量,十分方便。

強計算
數(shù)據(jù)中臺的計算引擎需要獨立的計算能力。SPL 作為獨立的計算引擎,計算能力不依賴數(shù)據(jù)庫,提供了十分豐富的結(jié)構(gòu)化計算類庫,擁有完備的計算能力。分組匯總、循環(huán)、過濾、集合運算、有序計算等應(yīng)有盡有。

SPL 還提供了很多高性能算法來保證計算效率,內(nèi)外存計算、索引機制、遍歷復(fù)用等很多在業(yè)界內(nèi)首次使用的算法,同時支持并行計算進一步提升計算性能。
開放性
SPL 還具備非常開放的計算能力,可以對接多種數(shù)據(jù)源,RDB、NoSQL、CSV、Excel、JSON/XML、Hadoop、RESTful、Webservice 都可以直接對接并進行混合計算,不需要借助數(shù)據(jù)庫,數(shù)據(jù)實時性和計算實時性都可以很好保障。

我們知道,不同數(shù)據(jù)源有各自的優(yōu)勢,RDB 計算能力較強,但 IO 吞吐能力弱;NoSQL 的 IO 效率高,但計算能力很弱;而文本等文件數(shù)據(jù)完全沒有計算能力,但使用非常靈活。SPL 不僅可以基于這些數(shù)據(jù)源混合計算,在實施計算時還可以充分保留原有數(shù)據(jù)源的優(yōu)勢。除了原生計算語法,SPL 也提供 SQL 支持(相當(dāng) SQL92 標準),可以使用 SQL 查詢文本、Excel、NoSQL 等非 RDB 數(shù)據(jù)源,這樣就極大方便了熟悉 SQL 的應(yīng)用開發(fā)人員。
總結(jié)一下,數(shù)據(jù)中臺落地的關(guān)鍵在于計算引擎,而計算引擎需要具備獨立且完備的計算能力、應(yīng)對多樣性數(shù)據(jù)源的開放性、開發(fā)的高效性以應(yīng)對不停變化的前臺需求,還能支持熱切換以確保中臺持續(xù)提供服務(wù)。從這些方面來看,SPL 的確是數(shù)據(jù)中臺計算引擎的不二之選。


























