「暗資料」釋放「暗資料」潛能
自然界中有一種物質叫做「暗物質」,從物理學家的解釋來看,「暗物質」是自然界當中最充滿能量的部分,如何發揮「暗物質」的作用是當代自然科學研究的話題。而在資料科學領域,人們都在討論如何發掘隱藏在企業內部和整個互聯網上巨量的「暗資料」,怎樣發揮「暗資料」的價值。
- 暗物質網路上的定義
- 在宇宙學中,暗物質,是指無法通過電磁波的觀測進行研究,也就是不與電磁力產生作用的物質。人們目前只能通過引力產生的效應得知,而且已經發現宇宙中有大量暗物質的存在。 現代天文學通過引力透鏡、宇宙中大尺度結構的形成、微波背景輻射等方法和理論來探測暗物質。而根據ΛCDM模型,由普朗克衛星探測的數據得到:整個宇宙的構成中,我們常說的物質佔4.9%,而暗物質則佔26.8%,還有68.3%是暗能量。暗物質的存在可以解決大爆炸理論中的不自洽性,對結構形成也非常關鍵。暗物質很有可能是一種粒子物理標準模型以外的新粒子所構成。對暗物質的研究是現代宇宙學和粒子物理的重要課題。
有一種說法,人類只要利用大腦的 10%,就可以實現長生不老。即便在無數神經學家將其斥為胡編亂造的無稽之談,多年以後,我們還是不會放棄這種念頭,因為我們知道自身還有很多潛力沒有發揮,只是有待發掘。同樣,許多企業也僅利用了資料的一小部分,而把經過巨大的開銷存儲著的關於流程、員工、客戶和產品的寶貴資料放在資料孤島中,無法有效利用。我們對資料的挖掘還處在一個非常初級的階段,可將其稱之為「黎明前的黑暗」階段。
莫斯科國立大學物理化學生物學研究所所長斯庫拉喬夫院士和英國劍橋大學的遺傳學家格雷教授都認為,人的壽命可以長達800至1000歲甚至更長。幾年前,由於獲得了俄羅斯鋁業大王傑里帕斯科的巨額資助,斯庫拉喬夫院士開始在其領導的研究所內展開“長生不老藥”的研製工作。目前,斯庫拉喬夫院士領導的研究小組已經研發出了一種“能量強大的抗氧化劑”。這個被命名為“斯庫拉喬夫離子”的氧化劑據說可以真正阻止人的衰老。
斯庫拉喬夫院士認為:衰老是病,它像心肌梗塞和癌症一樣是可治的。衰老和死亡是自然界賦予基因的一種程序。氧在這一程序中發揮著至關重要的作用。氧既可以使細胞獲得能量,也可以破壞細胞內的基因。斯庫拉喬夫的研究小組合成出一種強阻氧化劑,可以阻止氧深入細胞內部,防止細胞受到氧原子團的傷害,從而阻止自然界固有的自願死亡機制發揮作用。目前世界上有幾十家研究機構正在進行“超級氧化劑”方面的研究,但是,很多科學家卻並不讚同斯庫拉喬夫的學說,他們認為細胞的自願死亡機制也可能並不是決定壽命長短的決定性因素。
不過,多數科學家仍然認為,人類阻止自身衰老的努力正在取得成效。抗衰老學家們指出,發達國家的平均壽命目前可以達到112歲。因為,所有的條件已經具備了:當代醫學的發展和最新的基因工程研究成果使人類完全可以實現修復人體器官的夢想。醫生可以將壞掉的器官修好或者換掉。參加牛津大學國際老年病和長壽會議的專家一致認為,這不過是一個開始,更值得期盼的時刻即將來到。美國密歇根大學的米勒教授認為,人類的平均壽命至少可以在現有基礎上增加40%。他之所以得出這個結論,是因為在與人類基因代碼大體相同的大鼠和小鼠身上進行的一系列實驗表明,這樣的診斷很可能是正確的。不過是限制了小鼠體內的熱量,米勒就能使其預期壽命明顯增加。如果同樣的生物規律可以適用於人類,那麼人類的平均壽命就能達到112歲。
劍橋大學的老年醫學專家奧布裏德‧格雷認為,醫生們要做的只不過是對人體進行定期的“技術保養”和更換失效器官罷了。不少科學家接受和支持格雷教授的說法,他們相信,基因治療、幹細胞治療和其他生物技術將會把不可避免的死亡延遲30至40年。在此期間,科學將不斷創新,以便為人類提供下一個“寬限期”。
傳統醫學認為,人從出生時起,體內就有一定的“投入限制”,也就是對生命周期的限制。然而時至今日,這種教條的理論已經過時了,需要重新對其進行驗證和思考。許多嚴肅的科學家們相信,新的醫療技術雖然不能取消這一限制,至少可以將生命周期不斷延長。
定義「暗資料」
「暗資料」是指企業已付費購買、收集以及存儲在各種系統和資料存儲中,但實際上目前並未使用、分析甚至訪問的所有資料。我們可以將「暗資料」視為巨量資料的子集,它可以包括存儲在 CRM 資料倉庫的結構化資料、日誌文件甚至來自於社交媒體的非結構化資料等所有資料。
暗資料
暗資料
大資料要轉化為知識需要被標引或分析,否則它只能處於黑暗狀態,因此大資料再進一步細分還有暗資料。據有關統計,在企業創造的資料中,其可用的平均為10%,而90%左右為暗資料。
美國高德納諮詢公司(Gartner)把“暗資料”定義為:企業在開展正常業務活動期間採集、處理和存儲,但通常無法用於其他目的(如分析、商業關係和直接獲利)的資訊。具體來說,它指那些需要資金來存儲、保護和管理,但又沒有得到高效的利用,不能提升商業價值,甚至可能會給企業帶來風險的內容。
暗資料是伴隨大資料一起產生的新名詞,其實人們需要挖掘的是那些既具有潛在經濟價值、又存在某些風險的資源,如商業機密、智慧財產權、個人資訊洩密以及涉及國家安全和軍事機密的資訊都包含在這些資源中,這些資訊的洩露會引發法律和政治問題,如斯諾登案就是典型的資料案,暴露了美國利用海量資料掌握政治和軍事控制權的戰略意圖..
當然,有些企業已經實施資料倉庫或者
「資料科學家」這個專業,是DJ Patil and Jeff Hammerbacher在2008年提出的,主要指稱隨著巨量資料(big data)時代的到來,能處理且專研巨量資料的專家。之後,美國政府在2012年投入2億美金(約60億台幣),積極建構數項大數據計劃,因而帶動起一波又一波資料科學的風潮,巨量資料也因而成為熱門詞彙。柯文哲市長在台北市選戰中狂掃80多萬票,其中,準確嚴謹的資料分析,功不可沒,為台灣巨量資料寫下新的一頁。
大數據怎麼解決社會問題?
納西姆.尼可拉斯.塔雷伯在《反脆弱》一書中提出反脆弱性的概念,直指如果可以微調許多小錯誤,應可避免重大的缺失錯誤。在大數據時代,當政府資訊能公開、透明, 即是另一種反脆弱性概念的應用。當政府有能力處理巨量資料,政策的缺失透過嚴謹的調查,掌握政策帶來的效果,不斷對政策缺失進行細微的調整,確實能避免「政策殺人」的困境。所謂「錯誤政策比貪污更可怕」,而透過資訊開放達到反脆弱的效果,或許正能面對台灣的政策,特別是社會相關政策,進而解決社會問題。
「暗資料」產生
顯而易見, 沒有任何組織主動採取低效、 昂貴和不明智的措施。但一系列新應用程序和大量新資料已使很多公司忽視了他們已經擁有和付費購買的資料。為何會有這麼多「暗資料」存在?我們從以下四點來解釋:
1、企業甚至沒有意識到資料的存在
企業不止有IT部門,還有更多的業務人員、管理決策人員,當他們嘗試解答疑難問題或改進工作方式時,會迴避尋找並分析自己不熟悉的資料集的挑戰,這種情況十分常見。不幸的是,往往由於缺乏技能、時間或能力,他們很難將正確的資料公諸於世,這在日常的工作當中是非常典型的一種場景。舉例說明,有些企業表示不清楚到底有多少客戶,這是真的嗎?回答是否定的,因為現在的企業IT已非常完善,每一筆客戶的交易信息都會存在系統當中,或許有些資料質量不是很好,但它們都是存在的,只是企業自己沒有意識到。如果這些資料以整個組織都能訪問的方式存儲,就能為更多業務部門、項目團隊提供支持,進而制定更明智的決策,並對更多假設進行測試。
2、企業意識到資料的存在,但不知道具體位置,利用的手段和方法也不足
企業已經建設了很多資料管理系統,知道資料是存在的,但如果組織的資料體系結構或複雜的資料流程起到阻礙作用,那就很難訪問資料。如果各個部門都在資料孤島中工作,並且資料保存在遺留資料存儲中,那麼即使是求知慾最強的團隊也會徒然碰壁。如果沒有制定關於存儲和管理所有這些資料的整個企業範圍的戰略,那麼組織的決策質量仍將受制於內部組織架構和過時的技術。
決策是管理的心臟,管理是一系列決策組成的,管理就是決策[1]。
[編輯]
管理決策基本要求[2]
管理決策是企業管理者的一項基本活動,它關係到企業的生存和發展,往往“一步走錯,全盤皆輸”,它關係到企業人、財、物的使用方向及企業的經濟效益。因而在企業管理決策時應遵循一些基本要求,增強科學性,減少失誤。
1.及時性
市場具有瞬息萬變的特征,企業其他方面的經營環境雖不像市場環境變化的那樣迅速,但都是不斷變動的,任何決策都是有風險的。因而企業決策者必須及時發現影響企業生存、成長的積極因素和限制性因素,做出決策,抓住機遇。任何一個決策的正確與否都是與當時的環境條件相聯繫的。決策時要註意避免產生“布里丹效應”。丹麥哲學家布里丹寫過這樣一則寓言:一頭小毛驢在乾枯的草原上好不容易找到了兩堆草,由於不知道先吃哪一堆好,結果長時間選擇而被活活餓死。後來,人們把決策時猶豫不決的現象,稱為“布里丹效應”。可見,要實現有效決策,就要善於決策,敢於決策。
2.經濟性
3.系統性
即進行管理決策應綜合考慮各種制約因素和有利條件,正確處理好當前利益與長遠利益之間的關係。
4.靈活性
根據企業內外部條件的變化,及時調整決策的重點和內容。。曾經發生過這樣一件事情:有個人單獨到森林中去伐木。一棵大樹倒下,壓住了他的一條腿。他狠命往外拉自己的腿,劇烈的疼痛使他昏了過去;醒來又拉,又昏了過去。到了第二天,他已經沒有力氣了,這樣下去只能等死。這時,理性終於占據了支配地位,於是他毅然鋸斷了壓在樹下的一條腿,爬出了森林,保住了自己的性命。此例可以深刻地說明在決策中一定要靈活,在必要的時候該捨棄的,即使是十分可惜的東西也要捨棄。如果沒有這樣的決斷,就不能及時行動,沒有行動就永遠達不到所追求的目標。
3、實際利用資料過於昂貴阻礙了資料使用的效果
即使企業已經發現了所需的「暗資料」,通常也必須面對與在遺留系統上處理這些資料相關的一連串成本問題,如資料利用的環節過長。即便他們通過使用Hadoop此類的新軟體架構,在價格較低廉的硬體上複製這些資料來努力避免這些成本,但與遷移流程和獲取新技能相關聯的初始成本對於單個項目而言,通常仍顯得過高。這也造成了很多的資料其實仍然是未被充分使用的狀態,仍然隱藏在我們的IT系統和日常流程當中。為了充分利用企業已擁有的資料,需要為更現代化的資料體系結構奠定基礎,否則,您仍會繼續為資料支付巨額費用,卻無法承擔對其進行分析產生的成本。
4、某些資料存在遵守法律的問題
如金融、電信、醫療等行業的資料量非常多,但無法將某些資料提供給任何人分析,最重要的原因之一是害怕違反法律法規的要求。對於企業而言,要使其擁有的資料具有意義,需要部署明確定義的流程和工具,以保證這些資料的安全性。Informatica 有專門的解決方案,叫做資料脫敏(Data Masking),保證資料隱私不被泄露的情況下充分利用資料。
公開「暗資料」
既然我們面臨著非常多的「暗資料」,那麼公開就是它的對立面,叫做資料的透明化,我們期望的結果是企業中所有資料,對企業的任何一個參與者——IT、業務、決策、財務——都是透明的,在他們想分析的時候都能找到所需的資料。
任何企業在發掘資料價值的時候,往往包括三種典型的角色:集成商、IT部門和業務部門。人們常常討論誰才是資料的主人,一般認為是業務部門,但完成實際操作過程的卻是集成商,似乎所有的報表都是集成商來做,所有的分析也是集成商完成。在資料分析資料使用中有一個常常被大家忽略的過程,被稱為資料的探索和探查的過程也是由集成商來完成。這其實是業務模式的一個致命弱點,由集成商完成資料探查工作,再根據業務或者IT提的報表分析需求來使用這些資料,使用資料的主體——業務部門並沒有參與探索資料,並沒有親身體驗分析資料的過程。
業務部門參與資料挖掘對資料價值的實現大小關係密切。如果找集成商來做巨量資料平台可能也叫BIG DATA,但這個「BIG」很小;假如IT部門能充分參與架構設計和資料的探索過程,這個「BIG」會變得大一點;假如業務部門也參與可能使「BIG」變得更大,資料在企業中的流程也會縮短,業務部門會知道資料的存放位置,「暗資料」問題能夠更快解決。
業務部門如何才能自我分析資料,實現自助服務?他們需要一個有效的IT支撐手段,需要IT把暗資料透明化,變成透明的資料。實現資料透明化的一個基礎是資料標準化,建立標準化平台。暗 數 據存在於不同系統中,需要重新格式化、解析、篩選、標準化、整合以及細 化, 使 其 為 輸 入 到 任何分 析 工 具 和 應 用 程 序 中 做 好準備。
真正釋放「暗資料」潛能,讓資料見光需要一定的策略變化,除了上述的要啟動業務部門的自助服務的能力,以及啟動IT部門的標準化構建,還有一個關鍵點是啟動可重複利用「暗資料」的流程。大多數公司所犯的最大錯誤是認為他們只需對其「暗資料」進行一次深入探究,這可不止是一個一次性的流程。資料只會不斷增長,無論是規模、多樣性還是價值,提供資料的應用程序的數量和類型也會不斷變化,因此,與其一遍又一遍地解決單個「暗資料」項目,應該考慮建立一個可重複的流程。這意味著採用所需技術,建立現代化的基礎架構,以使您的所有資料隨時可供訪問並保持一致,使其保持潔凈、安全、互聯互通。
「暗資料」並非僅僅表明技術開支效率低下,它還表明企業難以利用其積累起來的豐富知識,「暗資料」是一個有待發掘的潛在金礦。在我國當前新型工業化進程中,提倡巨量資料的前奏叫數字化,數字化能夠貫通各個環節,把原來可能隱藏在工業流程當中的資料釋放出來,用資料來描述工業流程,這也成為眾多領先企業希望征服「暗資料」的原因所在。


留言
張貼留言