(網(wǎng)經(jīng)社訊)4月29日,數(shù)據(jù)中臺建設實戰(zhàn)系列課程「數(shù)智加速度」第4課,奇點云數(shù)據(jù)模型架構專家天啟帶來分享《AI驅(qū)動的數(shù)據(jù)中臺架構設計》,步步踏實落地,帶大家從0開始建設數(shù)據(jù)中臺。
天啟,奇點云數(shù)據(jù)模型架構專家、原海爾集團數(shù)據(jù)架構師、原阿里巴巴政務團隊數(shù)據(jù)架構師,精通數(shù)據(jù)倉庫建模理論及數(shù)據(jù)開發(fā)技術,具備零售、政務、醫(yī)藥、制造等多個領域數(shù)倉和數(shù)據(jù)中臺建設經(jīng)驗,及PB級數(shù)據(jù)倉庫與數(shù)據(jù)中臺建設經(jīng)驗。
在這一課里,你會聽到:
1. 數(shù)據(jù)中臺的選型與構建˙
2. 數(shù)據(jù)中臺踩過的那些坑
3. AI是如何驅(qū)動數(shù)據(jù)中臺
4. 數(shù)據(jù)中臺新理解與暢想
下文為分享節(jié)選,點擊文末[閱讀原文]可收看完整回放:
數(shù)據(jù)中臺:正確的人+正確的工具+正確的事=降本增效
數(shù)據(jù)中臺對于許多傳統(tǒng)企業(yè)而言,依舊是很陌生的概念。
如何從零開始建設數(shù)據(jù)中臺?
我們把它簡化為一個方程式,正確的人+正確的工具+正確的事,三者缺一不可。
正確的人
數(shù)據(jù)中臺在國內(nèi)有完整實踐的企業(yè)不多,相關的人才也相對較少。企業(yè)在選擇數(shù)據(jù)中臺時,需要有方法論、實踐經(jīng)驗去指導,以避免從零摸索帶來大量人力物力的浪費。這也是企業(yè)在選擇服務商時需要留意的。
正確的工具
在這里主要指的是狹義上的數(shù)據(jù)中臺產(chǎn)品。市面上的產(chǎn)品五花八門,數(shù)據(jù)中臺產(chǎn)品各型各樣,如何選擇非常關鍵。
正確的事
數(shù)據(jù)中臺不是擺設,并不是說搭建一個產(chǎn)品意義的數(shù)據(jù)中臺,企業(yè)就完成數(shù)字化轉(zhuǎn)型了。數(shù)據(jù)中臺最終還是要為業(yè)務服務。我們要用數(shù)據(jù)中臺做什么,解決什么業(yè)務痛點,需要考慮清楚。
這個方程式最終導向了我們建設數(shù)據(jù)中臺的目的:為企業(yè)帶來降本增效。「要么給老板省錢(降本),要么給老板掙錢(增效)?!?/p>
數(shù)據(jù)中臺的選型與構建
首先需要強調(diào)的是,在這里我們分享的只是一般情況,不同企業(yè)、不同數(shù)據(jù)情況和不同需求,不可一概而論。不管黑貓白貓,能解決痛點的就是好貓。
數(shù)據(jù)中臺的底層是大數(shù)據(jù)架構,大數(shù)據(jù)架構如何去選型?
在架構選型時,成本、場景支持是我們考慮最關鍵的2個要素。
綜合實施周期、實施成本、是否支持實時計算、數(shù)據(jù)冗余與數(shù)據(jù)一致性情況等因素,我們認為Lambda架構成本相對適中,又能滿足實時計算和離線計算兩個場景。
當然,選擇Lambda架構也會不可避免地面臨數(shù)據(jù)冗余的問題,而目前大部分傳統(tǒng)企業(yè)用到實時計算的場景偏少一些,相對來說產(chǎn)生的數(shù)據(jù)冗余也較少,可以通過數(shù)據(jù)治理等方式解決。
底層之上是引擎,包括離線計算引擎和實時計算引擎,又應當如何去選型?
離線計算:三種離線計算引擎各有特點,可以綜合企業(yè)的數(shù)據(jù)情況和需求,選擇合適的計算引擎。
實時計算:在批處理+流處理上,F(xiàn)link備受青睞,穩(wěn)定性較好、吞吐量較大。一般來說推薦使用Flink。
在架構上層,則涉及到了:數(shù)據(jù)模型應如何設計?
數(shù)據(jù)模型是為業(yè)務服務的。具體來說,就是把業(yè)務抽象化,提煉成數(shù)據(jù)模型,再通過數(shù)據(jù)解決業(yè)務問題。
建數(shù)據(jù)模型,會經(jīng)歷業(yè)務建模、概念建模、邏輯建模和物理建模四個階段。
在模型選擇上,我們僅列舉兩種模型,星型模型與雪花模型。通常情況下,為了能下游能更好地理解業(yè)務,快速提供數(shù)據(jù)服務,我們會采用空間換時間的方式,從而選擇星型模型;而在維度信息變化非常頻繁,或者數(shù)據(jù)存儲成本非常高的情況下,我們可以采用雪花模型。歸根到底,數(shù)據(jù)模型沒有好壞之分,只有能否解決業(yè)務問題。
最后需要強調(diào),對于技術和模型的選擇,我們做了一些推薦和優(yōu)劣勢的介紹,但技術和模型本身沒有對錯之分,適合自己的才是最好的(能解決業(yè)務問題才是最好的)。
數(shù)據(jù)中臺的架構設計
我們把數(shù)據(jù)中臺的架構分為三層,數(shù)據(jù)資產(chǎn)層、數(shù)據(jù)服務層、數(shù)據(jù)應用層。
這張圖從下往上看,首先通過數(shù)據(jù)治理、數(shù)據(jù)開發(fā)、借助數(shù)據(jù)倉庫,把數(shù)據(jù)轉(zhuǎn)化為可用的數(shù)據(jù),即資產(chǎn)「數(shù)據(jù)資產(chǎn)化」;然后建立數(shù)據(jù)能力,把數(shù)據(jù)用起來,例如標簽工廠、模型分析等,即「資產(chǎn)服務化」;再通過智能化的場景給業(yè)務賦能,也就是「服務智能化」。
AI驅(qū)動的數(shù)據(jù)中臺
奇點云創(chuàng)立三年來,數(shù)據(jù)中臺的實踐在零售、時尚、百購等行業(yè)相繼落地成功,在實踐經(jīng)驗中,探索并檢驗出了數(shù)據(jù)中臺的王道:AI驅(qū)動的數(shù)據(jù)中臺。
所謂「AI驅(qū)動」,我們可以看到在架構中融入了奇點云獨創(chuàng)的「云(智能)+端(感知)」的解決方案,從數(shù)據(jù)采集層的AIoT到數(shù)據(jù)服務層的算法服務、分析引擎再到頂部的數(shù)據(jù)智能應用,實現(xiàn)了「云賦能端,端豐富云」,既解決企業(yè)數(shù)據(jù)生產(chǎn)的問題,又解決企業(yè)數(shù)據(jù)使用的問題。
在「AI驅(qū)動的數(shù)據(jù)中臺」實踐的道路上,奇點云自研一站式大數(shù)據(jù)智能服務平臺——DataSimba,旨在為企業(yè)提供全鏈路的產(chǎn)品+技術+方法論服務。其核心模塊包括全域數(shù)據(jù)采集、數(shù)據(jù)開發(fā)、數(shù)據(jù)治理、數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)API、數(shù)據(jù)科學、數(shù)據(jù)質(zhì)量、標簽工廠。助力企業(yè)快速搭建安全、易用的數(shù)據(jù)中臺,最大化釋放價值,驅(qū)動業(yè)務增長與創(chuàng)新。