當前位置: 首頁 > 能源互聯(lián)網 > 專家觀點

張靖笙:數字化轉型首先要提升數據學習能力

知識大光圈發(fā)布時間:2020-05-29 10:10:21

  2020年5月13日,國家17個部門以及互聯(lián)網平臺、行業(yè)龍頭企業(yè)、金融機構等145家單位,共同啟動“數字化轉型伙伴行動”,以加快各行業(yè)各領域數字化轉型,幫扶中小微企業(yè)渡過難關和轉型發(fā)展。

 

  圖1 數據管理能力與信息化發(fā)展水平的規(guī)律性

  數字化轉型必須依托于數據。根據筆者多年來跟蹤業(yè)界相關研究的成果,數據的管理與應用水平直接決定了企業(yè)信息化發(fā)展水平(如圖1),這么多年來,很多單位在信息化上的投入也不少,每一次采購的也是當時最先進的信息技術,可是這么多年來積累下來的信息家產卻往往是家丑不可外揚,軟硬件投資常常是快速折舊的,現在問題最大的還是大量的數據需求沒滿足,而大量的存量數據卻因低質量而滿足不了,這是當前數字化轉型“業(yè)務數據化”階段每一個單位都在面對的結構性矛盾,技術可以是別人的,數據不管怎么說都是自己造成的,自己的數據質量不好無論如何外人也無法幫你治理和解決,所以我們說,這個數字化轉型升級的階梯,前面的坑、上面的坎都是我們每個組織走向“數據資產化、業(yè)務化、貨幣化”所繞不過去的門檻,還是只能自己一步一步往上爬。

  所以不管我們要用數據做什么文章,對數據的學習能力都是基本功,就像當年隨著私家汽車的普及,讓駕駛汽車從司機專業(yè)變成日常技能,對數據的學習能力也會隨著數字化的普及而成為全民通識,組織數字化轉型是全員的工作,而作為通識,員工能從數據中能學習到什么有價值的東西是最為基本的數字化能力。

  最近我接了研究生導師數據科學方面的學術任務,我在消化導師所給講義課件的同時,對自己過往二十多年數據領域的學習和工作經驗做了一次系統(tǒng)性的梳理和反思,我的工作經歷在產業(yè)界有一定的代表性,看著導師講義中我已有些生疏的大量數學符號和公式,我自己感覺業(yè)界普遍的數據學習能力都還遠遠夠不上這么高大上的數據科學水平。

  數據科學是一個早已存在,最近幾年才越來越熱門的概念,它曾經被稱為應用統(tǒng)計學,數據科學家已經整合了數學、統(tǒng)計學、計算機科學、信號處理(感知和數據采集)、概率建模、模式識別、機器學習、不確定性建模和數據可視化等方法,以獲得基于大數據集的預測能力和洞察力,看著上面這樣長長的知識清單,讓我感覺自己和數據科學家仍存在很大的距離。

  于是問題來了,在數字化無所不在的今天,莫非數字化轉型背后就沒有數據科學問題?這絕不可能,只能說明我們很多單位的數據工作水平,還是處于直接查詢和簡單加工的初級階段,對很多存量數據的二次加工比例和層次都很低,筆者近年來一直參與大量的各類型單位的信息化項目評審工作,我發(fā)現絕大多數比例的信息化項目,對數據需求動不動就是采用采集和錄入的手段來滿足,設計者一直到項目驗收了,都沒有說清楚或者愿意去說明白有什么數據可以從什么存量數據資源之中去找,而我們說對于大多數企業(yè)很多數據科學的應用場景,都是對存量歷史數據的二次加工再利用,沒有歷史積累的海量數據,搞什么數據科學都是巧婦難為無米之炊。

  這種局面不能不說是當前國內大多數單位搞數字化轉型都在面對的問題或者障礙,我分析,造成這種障礙的原因有兩方面:

  第一方面是存量數據質量本身存在的問題。受限于信息化發(fā)展水平歷史原因的制約,現在國內單位所積累的歷史數據質量普遍都不高,數據質量問題作為一種現象或者結果,其形成原因是冰凍三尺非一日之寒,矛盾是日積月累下來和結構性的,決定這些矛盾有在數字化轉型背后發(fā)揮作用的客觀規(guī)律,就是我們常說的數字化各個坑、各道坎或者階梯門檻,數據畢竟是每一個組織行為活動中形成的,本質上都是組織自己的行為造成的,所以這些坑、坎和門檻是任何一個組織過去的業(yè)造成的障,自己造的業(yè)自己承受報應是宇宙法則,這是因果鐵律決定的,妄圖單純通過采購外部技術裝備和專業(yè)服務的方式不可能獲得根本的解決,最后還是要落到自己的修煉,自己做好日常每項數據治理上的臟活累活。

  第二方面還是認知層面,很多人可能還沒意識到,只要經過艱苦的努力,我們可以從歷史數據中學到很多有用的東西,而如果真的想學到有用的東西,那么對于數據科學中充滿大量的數學符號和公式的數學模型和數據算法就不能當成技術黑箱,必須了解其原理,掌握其用法,這對于大多數應用數學基礎不強的人來說也是不低的知識門檻,無論是要翻閱這些領域的文章,還是要參與相關任務,你馬上就會遇到一些攔路虎,例如:“應用概率論中的貝葉斯思維過濾垃圾郵件,理解隨機過程中的隱馬爾科夫模型進行語音識別,運用估計理論和大數定理的思想通過樣本推斷出某類對象的總體特征,應用概率圖模型從文本中提取出想要的名稱實體”等等,在看到這些充滿專業(yè)術語的數據應用場景后,估計很多人就開始打退堂鼓,然后馬上選擇放棄。雖然我自認數據老兵,可真遇到應用數學領域的問題,想要搞清楚也還是很吃力的,我們可以把這種知識門檻也看成是數據科學的使用成本,這些極容易成為數字化應用上的卡脖子技術問題,讓大量的單位和人士敬而遠之。

  這讓我想起兩年前我由于業(yè)務機會而接觸CPDA數據分析師的課程體系內容,雖然相關知識點的選取都很“科學”,可內容組織在我看來就明顯感覺堆砌,對于很多沒有實戰(zhàn)經驗的小白來說其實是非常難以消化和掌握的,我也問過好幾位花了不少學費參加了培訓和考證的小伙伴,他們給我的反饋是太理論、不實用,很難用到實戰(zhàn)上面。于是兩年前我就想自己為小伙伴度身打做一套可以用于實戰(zhàn)技能提升的課程,我也一直在想,有沒有一些相對簡單,讓非專業(yè)的數學小白們在日常工作生活中能用上的一招半式? 這個問題可以換成另外一種說法,就是有沒有一些套路,讓大家都不怎么用動腦子,套用在一些數據資源上面,就能挖掘出一些有價值的信息或者知識出來。平心而論,我個人是不認同這種一招鮮吃遍天的招式或者套路,不過探討一下也是有市場價值的。

  我這里先解釋我提出的一個概念,就是所謂數據學習的概念。我為什么要提出這個概念呢?我是希望對機器學習做一定的擴展和區(qū)分的。機器學習是一個比較成熟的概念了,我們可以先回顧一下。

  根據百度百科,機器學習是一門多領域交叉學科,涉及概率論、統(tǒng)計學、逼近論、凸分析、算法復雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。它是人工智能的核心,是使計算機具有智能的根本途徑。根據這個概念,機器學習和數據科學重合度非常高,只是更加強調的是讓“機器”具備數據學習能力,但明顯機器學習只是數據科學的一個細分領域,現在的問題是,對于很多單位來說,機器學習還是比較遙遠的高科技。

  與機器學習這個比較高大上的概念相對應,我提出數據學習的概念。根據張靖笙定義,數據學習是一門綜合運用數據管理和數據科學的知識和方法,專門研究怎樣實現對數據資源的學習行為,幫助人類和計算機從現有的數據資源中獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身表現及技能。

  我提出數據學習這個概念,和我兩年前關于人和機器都要對數據進行深度學習的觀點是一脈相承的,如果說兩年前我的觀點還是比較偏口號的倡議,今天我希望通過數據學習開拓的是一條新的道路,最后還是要落到解決各類型組織單位在數字化轉型過程遇到的各種數據能力的卡脖子問題。

  先拋開技術上的糾結,不管是機器還是人,如果需要通過學習掌握更加高階的能力,還是要重過頭來搞清楚什么是學習。根據百度百科,狹義的學習指通過閱讀、聽講、研究、觀察、理解、探索、實驗、實踐等手段獲得知識或技能的過程,是一種使個體可以得到持續(xù)變化(知識和技能,方法與過程,情感與價值的改善和升華)的行為方式。廣義的學習是人在生活過程中,通過獲得經驗而產生的行為或行為潛能的相對持久的行為方式。從目前的定義,學習都是針對人的行為來定義的,套用到機器學習,我們也是希望讓機器模擬人的學習行為,所以有必要先探討人類學習行為和方法,我們先來看看教育家對學習的觀點。

  孔子云:“學而時習之,不亦說乎?”,可見“學”與“習”是兩類不同的活動,前者主要接收知識信息,后者關乎知識轉化與應用實踐。根據祝智庭教授《智慧教育新發(fā)展:從翻轉課堂到智慧課堂及智慧學習空間》的論述,著名科學家錢學森早在1997年就開始倡導“大成智慧學”(英譯名Science of wisdom in cyberspace)。錢老眼中的“大成智慧學”是引導人們如何盡快地獲得聰明才智與創(chuàng)新能力的學問,目的在于使人們面對浩瀚的宇宙和神秘的微觀世界,面對新世紀各種飛速發(fā)展、變幻莫測而又錯綜復雜的事物時,能夠迅速做出科學、準確而又靈活、明智的判斷與決策,并能不斷地有所發(fā)現、有所預見、有所創(chuàng)新。

  錢老強調“大成智慧”的特點是沉浸在廣闊的信息空間里所形成的網絡智慧,是在知識爆炸、信息如潮的時代里所需要的新型思維方式和思維體系。同時,他還強調,“智慧”由“量智”和“性智”組成,前者傾向于邏輯思維,后者傾向于形象思維。隨著技術逐步邁向智能化、泛在化、感知化,智能終端和泛在網絡的計算速度與精度遠勝于人腦,因而比較善于分擔“量智”工作,但對于“只可意會,難以言傳”的默會知識,或者需要運用形象思維、求異思維、直覺、靈感進行創(chuàng)造性工作時,它們卻顯得“疲軟乏力”,難以表現出“性智”能力,因而要充分利用計算機、信息網絡,發(fā)揮人-機結合優(yōu)勢互補的長處,使人能夠不斷及時獲得和集成廣泛而新鮮的知識、信息與智慧,從而迅速提高人的智能,培養(yǎng)創(chuàng)新的能力。

  知識管理領域通常將“智慧”界定為一種面向未來的創(chuàng)新能力,有一個DIKW(Data-Information-Knowledge-Wisdom)模型。從DIKW模型可以看出,從數據、信息、知識到智慧的演變,對情境性(context)和理解力(understanding)的要求隨之增強。也就是說,要完成從數據、知識、信息到智慧的轉換,一方面需要以相關的背景知識、情境知識和緘默知識作為支撐,另一方面需要人類主動理解才能完成。有人將這種理解分為三個層次:關系理解、模式理解和原理理解。此外,知識、信息、數據都是面向過去的經驗,只有智慧才是面向未來的創(chuàng)新(見圖2)。

  .

  

 

  圖2 智慧:面向未來創(chuàng)新能力

  布魯姆教育目標分類修訂版將認知領域學習者對知識的領悟程度由低到高分為“記憶、理解、應用、分析、評價、創(chuàng)造”六個層次,并將這六個層次的目標分類劃分為淺表學習與深度學習兩個層級。淺表學習指向“記憶”“理解”“應用”,深度學習指向“分析”“評價”“創(chuàng)造”。

  我們把DIKW模型和布魯姆教育目標分類對比一下,DI(數據-信息)對應的是淺表學習,KW(知識-智慧)代表的是深度學習,于是我們可以這樣來理解學習的認知層次目標,數據對應的是記憶,信息對應的是理解和應用,知識對應的是分析和評價,智慧對應的是創(chuàng)造。

  可能有朋友會問,你這個說法和數據學習有什么關系?關系不容忽視,我們可以很清晰地從這些教育界關于學習觀點里面看到人類學習的內在規(guī)律與數字化發(fā)展規(guī)律的一致性,大家注意看一下圖2,DIKW模型的前三個部分與機器智能的定義是一樣的,而關于智慧的觀點教育界強調的是創(chuàng)新,人工智能能否自主創(chuàng)新而具有與人類相同的智慧能力,這個目前還沒有定論。

  對標教育界的學習層次,我覺得可以對數據學習能力做一個清晰的界定,具體就是對標“記憶、理解、應用、分析、評價、創(chuàng)造”六個層次劃分的淺表學習與深度學習兩個層級。

  我們說目前組織普遍在用的數據查詢、搜索與分析是對數據的淺表學習。

  數據查詢和搜索可以看成最初級的數據“記憶”學習,就是直接查詢或者搜索記憶在數據里面的一些過去的“事實”陳述,就有點像小孩子問“十萬個為什么”,對于認知結構還不成熟的小孩子,我們回答諸如此類的問題一般只會給出直接的教條答案,不會深入到所以然的分析說理。

  而數據分析是在查詢或者搜索的基礎上向“理解”更進了一步,可以通過排名、對比、占比等等數據可視化操作,讓數據所描述的事實以更立體的方式呈現出來,以表達更多的信息或含義,讓用戶能從中更“理解”這些信息。

  接下來在“記憶”和“理解”的基礎上,幫助組織的各級決策者從數據中“求是”就是“應用”了。當然,能從數據中“求是”的前提是數據資源的確是反映客觀事實的符號,這樣才能真正做到實事求是,筆者這一兩年一直鼓吹現在我們要“實事成數,然后求是”,就是為了讓組織決策者可以通過數字化手段來更好地實事求是做決策,這才是數據“應用”的本來之要義。

  說了這么多,以上僅僅是對數據的淺表學習,實事求是地說,組織在“業(yè)務數據化”階段,能讓每個員工都具備如上所述的數據淺表學習能力就不錯了,當前要求深度學習是拔苗助長的。

  然后接下來談談我們更希望實現的對數據的深度學習各層級。

  布魯姆教育目標中的“分析”不是我們過去閉著眼說的 “數據分析”中的分析,我這里要論述的是前者。什么是分析?如果我們說對數據的淺表學習只是知己,是觀自己,那么這里說的“分析”是觀天地,是王陽明所說的“知之真切篤實處”和“行之明覺精察處”的境界,換個大白話也是馬云十多年前說過的“因為相信而看見”的立場。

  在數據科學之中,許多數據科學都專注于建立預測模型做預測性分析,雖然大量做預測性分析的人并非就是數據科學家。預測性分析(Predictive Analytics)以數理統(tǒng)計學為基礎,屬于監(jiān)督機器學習的子領域,使用一種概率模型,該模型基于與預測對象可能事件相關的歷史數據及其他變量進行分析預測。很明顯,市面上講濫了的數據分析的水平,都明顯達不到預測性分析的功力,于是鬧出很多對大數據和數據科學不實的迷而信之,本人常常面對這樣對大數據的迷信,只能啞言失笑和一時語塞。

  而對標布魯姆教育深度學習目標中的“數據分析”,這種學習行為就自然觸發(fā)了“評價”行為,就是說穿了我們每個組織在面對大量形形色色的預測性分析結果的時候,到底我們聽信什么、不聽什么的問題,我們到底依據還是不依據這些預測結果采取相應的組織行動呢?這背后已經涉及到智能制造定義中自感知、自學習、自決策、自執(zhí)行、自適應等功能的新型生產范式了,這個話題在這里展開就很啰嗦了,大家可以看看我前兩個月寫過的一篇幾萬字的投稿文章《疫情啟示呼吁新智造文化》。

  最后一個繞不開的話題是“創(chuàng)造”,目前人類學家、哲學家、教育家、腦科學家、人工智能頂級專家都還沒說清楚到底人工智能能不能通過對數據的深度學習開展“創(chuàng)造”活動這個問題,我也不想趟這個渾水,還是只說人的“創(chuàng)造”行為吧。

  看看今天全世界很熱門的西方創(chuàng)客概念,根據長尾理論發(fā)明人克里斯·安德森的觀點,“創(chuàng)客行動有三大特征---使用多種數字桌面工具;遵循共享設計和在線協(xié)作的文化規(guī)范;使用共同的設計標準以促進分享和產品的快速迭代。”很明顯,在線和數字化是今天所有人類創(chuàng)造行為的必選項,今天如果不具備通過數據進行深度學習的人,能不能有效完成其創(chuàng)造是個大大的問號。

  在數據科學領域,規(guī)范性分析(Prescriptive Analytics)比預測性分析在定義影響結果的行為上更進一步,不僅僅預測已經發(fā)生行為的后果,規(guī)范性分析預測將會發(fā)生什么、何時會發(fā)生,并揭示發(fā)生的原因。規(guī)范性分析可以不間斷接收新數據,以重新進行預測和分析,從而不斷自主進化,而形成更好的預測方式和行為表現。這不也恰恰是我們人類在各種創(chuàng)造活動中需要具備的心態(tài)和能力嗎?這樣說吧,如果我們的創(chuàng)造不具備先見之明的價值溝通和意義建構能力,只是在各種技術裝備和方法手段中繞圈圈和做試驗,搞來搞去不是瞎折騰嗎?

  從上面對標布魯姆教育學習層次目標中,我們可以清晰地看到,今天我們所講的數字化轉型,在對數據學習的認知結構和認知能力層面,正在一步步從傳統(tǒng)商業(yè)智能的亡羊補牢、后見之失的觀自己,走到今天要明察秋毫、見微知著的觀天地,接著走向明天先見之明、洞察先機的觀眾生的能力發(fā)展路徑上來。

  在走向大成智慧的道路上,觀自己、觀天地、觀眾生是我們每個人從平庸走向智慧的修煉之道,也是數據學習能力成長的必然之路,人類如此,人工智能也必然如此,唯有這樣的法理,這樣的本愿,這樣的情懷,不管是人類還是人工智能,其對數據的學習才會產生讓我們用得上、信得過、靠得住的知識和技能。

  最后關于本人的小感悟,這幾年我在產業(yè)界和文化教育界兩邊游走,走來走去我始終覺得自己還是教育的門外漢,數據技術才是我的本職,可我不后悔這幾年充滿挫折和失望的教育探索之路,本質上我還是一個學生,同時也是一個家長,一直都是教育的需求側,在教育需求的角度來感悟學習才讓我對技術的無奈和局限看得更清楚,因此,我很高興自己這幾年的教育實踐能讓自己成為一名建構主義者。

  在建構主義的角度,我的所有觀點都有我個人的建構,局限是必然存在的,而認識到這種局限的必然性,不正是我們人類智慧可以一直不斷增廣擴大的前提嗎?

評論

用戶名:   匿名發(fā)表  
密碼:  
驗證碼:
最新評論0

相關閱讀

【兩會】加快推動能源數字化轉型

全國兩會期間,國家能源局黨組書記、局長章建華在接受媒體采訪時指出,要加快推動能源領域基礎設施高質量發(fā)展,推進電力設施與交通、通信設施融合協(xié)同發(fā)展,推進大電網、微電網智能化升級,大力培育新技術、新業(yè)態(tài)、新模式。
焦點頭條2020-05-29

《管見》黃建元:企業(yè)數字化轉型

建設“數字中國”已經成為國家戰(zhàn)略,地方政府紛紛推出了數字化戰(zhàn)略、大數據戰(zhàn)略,大型央企、集團企業(yè)也相繼推出了數字化轉型戰(zhàn)略,特別是能源企業(yè),面對不斷要求降價降費的經營形勢,把數字化轉型當作發(fā)展的重要手段。
高端對話2020-05-28

以電網智能化升級數字化轉型主動迎接新基建浪潮

近期,黨中央多次就加快5G網絡、特高壓、新能源汽車、人工智能、工業(yè)互聯(lián)網等新型基礎設施建設作出部署,不僅是抗疫情、穩(wěn)增長、應對經濟下行壓力的客觀需要,更是以習近平同志為核心的黨中央在深刻洞察和把握世界科技與產業(yè)變遷大趨勢基礎上作出的戰(zhàn)略抉擇。
言論觀點2020-05-22
【兩會】全國政協(xié)委員、東方電氣董事長鄒磊:數字化轉型、產業(yè)升級是當務之急

【兩會】全國政協(xié)委員、東方電氣董事長鄒磊:數字化轉型、產業(yè)升級

用電需求增長放緩、清潔能源發(fā)展加速、傳統(tǒng)能源發(fā)展空間受擠壓等形勢,對電力裝備制造業(yè)轉型升級提出了新要求。在全國兩會召開之際,eo記者就新形勢下電力裝備制造企業(yè)面臨的挑戰(zhàn)和機遇,專訪了全國政協(xié)委員、中國東方電氣集團有限公司黨組書記、董事長鄒磊。
國內新聞2020-05-22

曾鳴:新基建和電網的數字化轉型相輔相成

新基建和電網的數字化轉型相輔相成。電網的數字化轉型為新基建提供了重要內容,新基建則將從國家政策支持、投資上推動電網數字化轉型。
專家觀點2020-05-19

工信部:加快“新基建”步伐,推動數字化轉型

據工信微報17日消息,5月17日,由中國通信學會主辦的2020年世界電信和信息社會日大會在網上舉行。工業(yè)和信息化部副部長、中國通信學會理事長陳肇雄出席并致辭。
焦點頭條2020-05-18

新經濟背景下充電樁將改善盈利模式實現數字化轉型

在新基建的背景下,充電樁改善盈利模式,有望實現數字化轉型:收取充電電費和服務費是充電樁運營商最基本的盈利來源。
騰訊云與AVEVA達成戰(zhàn)略合作,攜手加速工業(yè)數字化轉型

騰訊云與AVEVA達成戰(zhàn)略合作,攜手加速工業(yè)數字化轉型

5月13日,騰訊云與國際知名工程和工業(yè)軟件公司AVEVA簽署戰(zhàn)略合作協(xié)議。雙方將基于自身優(yōu)勢能力及資源共同致力于建設工業(yè)數字化轉型服務平臺、打造工業(yè)企業(yè)數字化生態(tài),用可行、可靠、可持續(xù)的數字化升級解決方案,助力企業(yè)實現數字化轉型,推動工業(yè)互聯(lián)網這一新型基礎設施發(fā)展。
基層聲音2020-05-13
AVEVA收購MESEnter的生產核算軟件業(yè)務,助力客戶數字化轉型

AVEVA收購MESEnter的生產核算軟件業(yè)務,助力客戶數字化轉型

全球工程和工業(yè)軟件領導者AVEVA近日宣布已收購韓國MESEnter公司的生產核算軟件業(yè)務,以完善AVEVA的價值鏈優(yōu)化解決方案。
基層聲音2020-05-09

以工業(yè)互聯(lián)網為新引擎 推進實體經濟數字化轉型和智能化升級

工業(yè)互聯(lián)網是制造強國和網絡強國的基石。通過調研,我們認為應通過國家規(guī)劃強化數字經濟發(fā)展的頂層設計,做好“十四五”工業(yè)互聯(lián)網發(fā)展的謀篇布局。
產經信息2020-05-08