一、傳統(tǒng)數(shù)據(jù)治理之痛
隨著數(shù)據(jù)治理2.0時代的來臨,傳統(tǒng)人工及半自動化手段進行的數(shù)據(jù)資源盤點,在日益復雜的數(shù)據(jù)環(huán)境中暴露出諸多痛點,嚴重制約了數(shù)據(jù)價值的釋放和治理效率的提高,同時也加劇了成本和風險的上升,具體表現(xiàn)為:
(1)效率低下、耗時費力
高度依賴人工搜索、識別、記錄數(shù)據(jù)源和元數(shù)據(jù),線下盤點的成果難以快速轉化為線上成果,過程繁瑣,一次全面盤點可能需要數(shù)月甚至更長時間,難以頻繁進行,資源消耗大。
(2)深度不足、洞察有限
元數(shù)據(jù)管理通常只記錄表名、字段名、數(shù)據(jù)類型等基礎技術元數(shù)據(jù),缺乏對數(shù)據(jù)內(nèi)容、業(yè)務語義、敏感信息、數(shù)據(jù)質(zhì)量、價值的深入理解和記錄。
(3)準確性差、質(zhì)量不高
數(shù)據(jù)環(huán)境(如數(shù)據(jù)結構、含義)瞬息萬變,人工盤點維護的元數(shù)據(jù)和目錄極易過時,失去參考價值,人工記錄元數(shù)據(jù)易出錯或不一致。
二、智能體自動駕駛之路
為突破傳統(tǒng)數(shù)據(jù)治理的能力局限,三維天地基于公司SunwayLink智能體開發(fā)平臺,構建了數(shù)據(jù)資源盤點智能體。該智能體能夠?qū)崿F(xiàn)數(shù)據(jù)目錄的自動生成、數(shù)據(jù)內(nèi)容的智能洞察以及元數(shù)據(jù)的智能更新,有效推動數(shù)據(jù)治理模式從“人治”向“智治”轉變,顯著提升了數(shù)據(jù)治理的自動化和智能化水平。
(1)數(shù)據(jù)目錄自動生成
基于采集的元數(shù)據(jù)和線下完成的數(shù)據(jù)資源盤點成果文件(如調(diào)研報告),自動從調(diào)研報告中自動提取關鍵要素,快速生成數(shù)據(jù)資源目錄,從而顯著縮短盤點周期、降低人工成本,幫助企業(yè)精準掌握數(shù)據(jù)資產(chǎn)現(xiàn)狀。
(2)數(shù)據(jù)內(nèi)容智能洞察
利用NLP和LLM技術自動推斷字段的業(yè)務含義(語義標簽)、識別敏感數(shù)據(jù)類型、識別數(shù)據(jù)域(客戶、產(chǎn)品、財務等)、發(fā)現(xiàn)潛在的數(shù)據(jù)質(zhì)量問題(空值、異常值模式),自動生成或豐富業(yè)務術語描述,自動解析數(shù)據(jù)結構、業(yè)務含義、血緣關系,豐富了數(shù)據(jù)資源盤點的成果。
(3)元數(shù)據(jù)智能更新
監(jiān)控元數(shù)據(jù)變更、數(shù)據(jù)分布變化,自動檢測元數(shù)據(jù)缺失、不一致、過時等問題,并能根據(jù)AI建議自動更新元數(shù)據(jù)或觸發(fā)告警,保障技術元數(shù)據(jù)和業(yè)務元數(shù)據(jù)的一致性,提升元數(shù)據(jù)的準確性和鮮活度。
三、智能體實現(xiàn)之路
(1)文本解析與內(nèi)容生成
提取非結構化文檔內(nèi)容信息,識別文字、圖片、表格,進行文本內(nèi)容解析,基于自然語言指令,按照特定模板和格式,進行內(nèi)容總結和提煉,自動生成數(shù)據(jù)資源目錄結構。
(2)語義理解和關系解析
利用NLP自動識別數(shù)據(jù)結構、理解代碼邏輯以提取更豐富的技術元數(shù)據(jù)(表、列、視圖、存儲過程、作業(yè)依賴)和初步的業(yè)務上下文(如注釋),進行內(nèi)容解析,補全業(yè)務元數(shù)據(jù)信息,自動生成數(shù)據(jù)血緣關系。
(3)異常檢測和動態(tài)更新
監(jiān)聽數(shù)據(jù)源元數(shù)據(jù)信息,基于LLM對元數(shù)據(jù)結構變更、配置變更、語義變更進行異常掃描,識別元數(shù)據(jù)變更點,對變更的元數(shù)據(jù)進行自動更新并觸發(fā)預警。
四、智能體的應用價值
以某軍工單位為例,在落地該智能體后:
(1)盤點周期縮短 :將單個業(yè)務域的數(shù)據(jù)資源盤點時間縮短60%以上,減少數(shù)據(jù)工程師、業(yè)務專家手動收集、清洗、記錄元數(shù)據(jù)的工作量,人工參與小時數(shù)下降70%。
(2)元數(shù)據(jù)豐富度提升 :字段級業(yè)務語義標簽、敏感數(shù)據(jù)標識、質(zhì)量規(guī)則的自動填充率從20%上升到85%。
(3)數(shù)據(jù)發(fā)現(xiàn)效率提升 :業(yè)務用戶找到所需數(shù)據(jù)的平均耗時大幅下降。
(4)血緣覆蓋率提升 :自動構建的血緣鏈路覆蓋關鍵數(shù)據(jù)鏈路的比例從10%提升到75%。
(5)自動化覆蓋率提升 :智能體自動完成的任務步驟占比(發(fā)現(xiàn)、采集、解析、分類、血緣追蹤等)占比提升至80%以上。
數(shù)據(jù)資源盤點是數(shù)據(jù)治理中至關重要的一環(huán)。智能體不僅是技術能力的升級,更是企業(yè)管理范式的深刻變革?;赟unwayLink構建的數(shù)據(jù)資源盤點智能體,正通過端到端的自動化和智能化水平提升,加速企業(yè)數(shù)據(jù)治理進程,有力助推企業(yè)數(shù)字化轉型成功。
相關稿件