●得大數(shù)據(jù)者得天下,,是一些推崇大數(shù)據(jù)時(shí)代的變革者堅(jiān)信不疑的判斷,。很多專家認(rèn)為,,在大數(shù)據(jù)時(shí)代,,誰能有效地壟斷數(shù)據(jù),誰就有可能成為世界霸主,。
●2009年爆發(fā)甲型H1N1流感病毒時(shí),,谷歌公司就是通過觀察人們在網(wǎng)上搜索的大量記錄,,在流感爆發(fā)幾周前,,就判斷出流感是從哪里傳播出來的,。
●大數(shù)據(jù)及其分析,將會在未來10年改變幾乎每一個(gè)行業(yè)的業(yè)務(wù)功能,。根據(jù)麥肯錫預(yù)測,,如果具備相關(guān)的IT設(shè)施、數(shù)據(jù)庫投資和分析能力等條件,,大數(shù)據(jù)將在未來10年,,使美國醫(yī)療市場獲得每年3000億美元的新價(jià)值。
2012年3月,,美國奧巴馬政府發(fā)起了《大數(shù)據(jù)研究和發(fā)展倡議》,將大數(shù)據(jù)定義為“未來的新石油”,,稱將斥資2億美元用于大數(shù)據(jù)研究,,以應(yīng)對大數(shù)據(jù)革命正在帶來的大機(jī)遇。據(jù)美國咨詢機(jī)構(gòu)Gartner預(yù)測,,從現(xiàn)在起到2015年,,大數(shù)據(jù)將會在世界范圍內(nèi)創(chuàng)造440萬個(gè)工作崗位。
“大數(shù)據(jù)”,,這一新興概念,,正在被賦予極其豐富的內(nèi)涵,,并被寄予特別巨大的希望……大數(shù)據(jù)時(shí)代,我們該如何尋找對策,,迎接挑戰(zhàn),?
人類正在邁入大數(shù)據(jù)時(shí)代
關(guān)于“大數(shù)據(jù)(Big Data)”,麥肯錫全球研究所在報(bào)告《大數(shù)據(jù):創(chuàng)新,、競爭和生產(chǎn)力的下一個(gè)前沿》中定義:大數(shù)據(jù),,是指大小超出了傳統(tǒng)數(shù)據(jù)庫軟件工具的抓取、存儲,、管理和分析能力的數(shù)據(jù)群,。也有專家認(rèn)為,大數(shù)據(jù)的“大”是指大型數(shù)據(jù)集,,即數(shù)據(jù)量一般在10TB規(guī)模左右,;多個(gè)用戶把多個(gè)數(shù)據(jù)集放在一起,形成PB級的數(shù)據(jù)量,;同時(shí),,這些數(shù)據(jù)又來自多種數(shù)據(jù)源,并以實(shí)時(shí),、迭代的方式來實(shí)現(xiàn),,即“大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型的數(shù)據(jù)”。
我們正處在一個(gè)數(shù)據(jù)爆發(fā)增長的時(shí)代,。移動(dòng)互聯(lián)網(wǎng),、移動(dòng)終端和數(shù)據(jù)感應(yīng)器的出現(xiàn),使數(shù)據(jù)以超出人們想象的速度在快速增長,。據(jù)國際數(shù)據(jù)資訊公司(Global Pulse)估測,,數(shù)據(jù)數(shù)量一直在快速增加,每年增長50%,,這個(gè)速度不僅是指數(shù)據(jù)流的增長,,而且還包括全新的數(shù)據(jù)種類的增多。據(jù)統(tǒng)計(jì),,全球企業(yè)2010年在硬盤上存儲了超過7EB的新數(shù)據(jù),,消費(fèi)者在PC和筆記本電腦等設(shè)備上存儲了超過6EB新數(shù)據(jù),而1EB數(shù)據(jù)就相當(dāng)于美國國會圖書館中存儲數(shù)據(jù)的4000多倍,。目前數(shù)據(jù)容量增長的速度,,已經(jīng)大大超過了硬件技術(shù)的發(fā)展速度,并正在引發(fā)數(shù)據(jù)存儲和處理的危機(jī),。
有研究統(tǒng)計(jì),,從人類文明開始到2003年,人類共創(chuàng)造了5TB(兆億字節(jié))的信息,。而現(xiàn)在,,這樣的數(shù)據(jù)量卻僅需兩天就能夠被創(chuàng)造出來,,且速度仍在加快。數(shù)據(jù)顯示,,2011年全球創(chuàng)建和復(fù)制的數(shù)據(jù)總量,,就達(dá)到了1.8ZB(1ZB等于10的21次方比特),相當(dāng)于全球每人產(chǎn)生300GB以上的數(shù)據(jù),。目前這個(gè)數(shù)字仍在快速增長,,預(yù)計(jì)2020年,全球產(chǎn)生的數(shù)據(jù)量更將超過80ZB,。由此可見,,我們的確已經(jīng)邁入了大數(shù)據(jù)時(shí)代。
世界各國加緊大數(shù)據(jù)布局
世界上許多國家都已經(jīng)認(rèn)識到了大數(shù)據(jù)所蘊(yùn)含的重要戰(zhàn)略意義,,紛紛開始在國家層面進(jìn)行戰(zhàn)略部署,,以迎接大數(shù)據(jù)技術(shù)革命,正在帶來的新機(jī)遇和新挑戰(zhàn),。
美國在《大數(shù)據(jù)研究和發(fā)展倡議》中,,提出將通過收集龐大而復(fù)雜的數(shù)字資料,從中獲得知識和洞見,,以提升能力,。并協(xié)助加速在科學(xué)、工程上發(fā)現(xiàn)的步伐,,強(qiáng)化美國國土安全,,轉(zhuǎn)變教育和學(xué)習(xí)模式。根據(jù)這一計(jì)劃,,美國希望利用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)在多個(gè)領(lǐng)域的突破,,包括科研教學(xué)、環(huán)境保護(hù),、工程技術(shù),、國土安全、生物醫(yī)藥等,。其中具體的研發(fā)計(jì)劃涉及了美國國家科學(xué)基金會,、國家衛(wèi)生研究院、國防部,、能源部,、國防部高級研究局、地質(zhì)勘探局等6個(gè)聯(lián)邦部門和機(jī)構(gòu),。
英國政府2012年計(jì)劃在未來兩年內(nèi),,在大數(shù)據(jù)和節(jié)能計(jì)算研究上投資1.89億英鎊,,以帶動(dòng)企業(yè)在該領(lǐng)域的投資,。大數(shù)據(jù)被英國看作是自己的優(yōu)勢所在,,且英國認(rèn)為已在政府層面,為大數(shù)據(jù)做好了準(zhǔn)備,。
法國政府宣布將在2013年投入1150萬歐元,,用于7個(gè)大數(shù)據(jù)市場研發(fā)項(xiàng)目。目的在于“通過發(fā)展創(chuàng)新性解決方案,,并將其用于實(shí)踐,,來促進(jìn)法國在大數(shù)據(jù)領(lǐng)域的發(fā)展�,!狈▏凇稊�(shù)字化路線圖》中列出了五項(xiàng)將大力支持的戰(zhàn)略性高新技術(shù),,“大數(shù)據(jù)”就是其中一項(xiàng)。
日本在2012新一輪IT振興計(jì)劃中,,將發(fā)展大數(shù)據(jù)作為國家戰(zhàn)略層面提出,,重點(diǎn)關(guān)注大數(shù)據(jù)應(yīng)用技術(shù),如社會化媒體等智能技術(shù)的開發(fā),、新醫(yī)療技術(shù)的開發(fā),、以及交通擁堵治理等公共領(lǐng)域的應(yīng)用。
此外,,加拿大,、新西蘭、德國和印度等國也在大數(shù)據(jù)領(lǐng)域進(jìn)行了研究部署,,還紛紛推出本國的公共數(shù)據(jù)開放網(wǎng)站,,以使更多的人可以使用大數(shù)據(jù)資源,并從中獲得利益,。目前,,全球已經(jīng)擁有大大小小的數(shù)據(jù)開放網(wǎng)站50余個(gè)。
大數(shù)據(jù)將給世界帶來巨大沖擊
“大數(shù)據(jù)資源”成為重要戰(zhàn)略資源
互聯(lián)網(wǎng)時(shí)代,,“資源”的含義正在發(fā)生極大的變化,,它已不再僅僅只是指煤、石油,、礦產(chǎn)等一些看得見,、摸得著的實(shí)體,“大數(shù)據(jù)”,,也正在演變成不可或缺的戰(zhàn)略資源,。互聯(lián)網(wǎng),、物聯(lián)網(wǎng)每天都在產(chǎn)生大量的數(shù)據(jù),,這些龐大的數(shù)據(jù)資源,為人們依據(jù)數(shù)據(jù)了解世界,、了解市場,、了解人們的生活提供了可能,。大數(shù)據(jù)已經(jīng)被視為一種資產(chǎn)、一種財(cái)富,、一種可以被衡量和計(jì)算的價(jià)值,。得大數(shù)據(jù)者得天下,是一些推崇大數(shù)據(jù)時(shí)代的變革者所堅(jiān)信不疑的判斷,。
很多專家認(rèn)為,,在大數(shù)據(jù)時(shí)代,誰能有效的壟斷數(shù)據(jù),,誰就有可能成為世界的霸主,。2006年,微軟以1.1億美元的價(jià)格,,購買了大數(shù)據(jù)公司Farecast,。2008年,谷歌則以7億美元的價(jià)格,,購買了為Farecast提供數(shù)據(jù)的ITA Software公司,。
“大數(shù)據(jù)安全”上升為國家安全
傳統(tǒng)意義上的國家安全,是指軍隊(duì)對國家領(lǐng)土安全的保護(hù),,是國家之間軍事實(shí)力的較量,。但在互聯(lián)網(wǎng)高度發(fā)達(dá)的大數(shù)據(jù)時(shí)代,網(wǎng)絡(luò)變成了幾乎是透明的虛擬世界,,也因此使國家安全的環(huán)境和內(nèi)涵發(fā)生了極大的變化,,對大數(shù)據(jù)的安全保存、防丟失和防破壞等問題,,成為我們必須要面對的安全難題,。大數(shù)據(jù)安全,已經(jīng)上升成為國家安全的重要組成部分,�,!�
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)安全的威脅隨時(shí)都有可能發(fā)生,。各種國家信息基礎(chǔ)設(shè)施和重要機(jī)構(gòu)所承載著的龐大數(shù)據(jù)信息,,如由信息網(wǎng)絡(luò)系統(tǒng)所控制的石油和天然氣管道、水,、電力,、交通、銀行,、金融,、商業(yè)和軍事等,都有可能成為被攻擊的目標(biāo)。
此外,,大數(shù)據(jù)也為網(wǎng)絡(luò)恐怖分子提供了新的資源支持,,有可能使恐怖分子通過網(wǎng)絡(luò)侵入到人們工作生活的方方面面,并通過威脅,、攻擊、破壞,,癱瘓民用或軍事基礎(chǔ)設(shè)施等手段,,達(dá)到其制造心理恐慌和財(cái)產(chǎn)損失,威脅國家安全和社會安全的目的,。
“大數(shù)據(jù)決策”成為一種新決策方式
依據(jù)大數(shù)據(jù)進(jìn)行決策,,從數(shù)據(jù)中獲取價(jià)值,讓數(shù)據(jù)主導(dǎo)決策,,是一種前所未有的決策方式,,并正在推動(dòng)著人類信息管理準(zhǔn)則的重新定位。隨著大數(shù)據(jù)分析和預(yù)測性分析對管理決策影響力的逐漸加大,,依靠直覺做決定的狀況將會被徹底改變,。
2009年爆發(fā)的甲型H1N1流感病毒,谷歌公司就是通過觀察人們在網(wǎng)上搜索的大量記錄,,在流感爆發(fā)的幾周前,,就判斷出流感是從哪里傳播出來的,從而使公共衛(wèi)生機(jī)構(gòu)的官員獲得了極有價(jià)值的數(shù)據(jù)信息,,并做出有針對性的行動(dòng)決策,,而這比疾控中心的判斷,提前了一兩周,。美國的Farecast系統(tǒng),,它的一個(gè)功能就是飛機(jī)票價(jià)預(yù)測,它通過從旅游網(wǎng)站獲得的大量數(shù)據(jù),,分析41天之內(nèi)的12000個(gè)價(jià)格樣本,,分析所有特定航線機(jī)票的銷售價(jià)格,并預(yù)測出當(dāng)前機(jī)票價(jià)格在未來一段時(shí)間內(nèi)的漲降走勢,,從而幫助虛擬乘客選擇最佳的購票時(shí)機(jī),,并降低可觀的購票成本。
“大數(shù)據(jù)應(yīng)用”促進(jìn)信息技術(shù)與各行業(yè)深度融合
有專家指出,,大數(shù)據(jù)及其分析,,將會在未來10年改變幾乎每一個(gè)行業(yè)的業(yè)務(wù)功能。從科學(xué)研究到醫(yī)療保險(xiǎn),,從銀行業(yè)到互聯(lián)網(wǎng),,各個(gè)不同的領(lǐng)域都在遭遇爆發(fā)式增長的數(shù)據(jù)量。在美國的17個(gè)行業(yè)中,已經(jīng)有15個(gè)行業(yè)大公司擁有大量的數(shù)據(jù),,其平均擁有的數(shù)據(jù)量已經(jīng)遠(yuǎn)遠(yuǎn)超過了美國國會圖書館所擁有的數(shù)據(jù)量,。
在醫(yī)療與健康行業(yè),根據(jù)麥肯錫預(yù)測,,如果具備相關(guān)的IT設(shè)施,、數(shù)據(jù)庫投資和分析能力等條件,大數(shù)據(jù)將在未來10年,,使美國醫(yī)療市場獲得每年3000億美元的新價(jià)值,,并削減2/3的全國醫(yī)療開支。
在制造業(yè)領(lǐng)域,,制造企業(yè)為管理產(chǎn)品生命周期將采用IT系統(tǒng),,包括電腦輔助設(shè)計(jì)、工程,、制造,、產(chǎn)品開發(fā)管理工具和數(shù)字制造,制造商可以建立一個(gè)產(chǎn)品生命周期管理平臺PLM(Product Lifecycle Management),,從而將多種系統(tǒng)的數(shù)據(jù)集整合在一起,,共同創(chuàng)造出新的產(chǎn)品。
此外,,在交通,、能源、材料,、商業(yè)和服務(wù)等行業(yè)領(lǐng)域,,甚至在新聞傳媒領(lǐng)域,也都在以大數(shù)據(jù)為發(fā)展契機(jī),,加速這些行業(yè)與信息技術(shù)的深度融合,。
“大數(shù)據(jù)開發(fā)”推動(dòng)新技術(shù)和新應(yīng)用不斷涌現(xiàn)
大數(shù)據(jù)的應(yīng)用需求,是大數(shù)據(jù)新技術(shù)開發(fā)的源泉,。在不久的將來,,也許很多原來單純依靠人類自身判斷力的領(lǐng)域應(yīng)用,最終都將被計(jì)算機(jī)系統(tǒng)的數(shù)據(jù)分析和數(shù)據(jù)挖掘功能,,所普遍改變甚至取代,。一小片合適的信息,也許會促使創(chuàng)新邁進(jìn)一大步,;一組數(shù)據(jù),,也可能會得到數(shù)據(jù)收集人難以想象的應(yīng)用,甚至可能在另一個(gè)看起來毫不相關(guān)的領(lǐng)域得到應(yīng)用,。借助這些創(chuàng)新型的大數(shù)據(jù)應(yīng)用,,數(shù)據(jù)的能量將會層層被放大,。
“語義網(wǎng)(Semantic Web)”,也稱為下一代互聯(lián)網(wǎng),,實(shí)際上就是“數(shù)據(jù)網(wǎng)”(Web of Data),。語義網(wǎng)是一個(gè)全球的數(shù)據(jù)庫網(wǎng),在這個(gè)數(shù)據(jù)庫網(wǎng)中,,計(jì)算機(jī)可自動(dòng)為用戶搜尋,、檢索和集成網(wǎng)上的信息,而不再需要搜索引擎,。大數(shù)據(jù)時(shí)代正在催生的這個(gè)最大的技術(shù)變革,,就是要重新構(gòu)造互聯(lián)網(wǎng),打造出下一代互聯(lián)網(wǎng),。
數(shù)據(jù)安全管理是最大風(fēng)險(xiǎn)
大數(shù)據(jù)時(shí)代的來臨,對中國來說面臨安全管理能力,、存儲及處理能力,、應(yīng)用能力和人才培養(yǎng)能力等多方面的新挑戰(zhàn)。
大數(shù)據(jù)的安全管理能力挑戰(zhàn),。數(shù)據(jù)安全管理問題,,是我國應(yīng)用大數(shù)據(jù)面臨的最大風(fēng)險(xiǎn)。雖然將海量數(shù)據(jù)集中存儲,,方便了數(shù)據(jù)分析和處理,,但由于安全管理不當(dāng)所造成的大數(shù)據(jù)丟失和損壞,則將引發(fā)毀滅性的災(zāi)難,。有專家指出:由于新技術(shù)的產(chǎn)生和發(fā)展,,對隱私權(quán)的侵犯已經(jīng)不再需要物理的、強(qiáng)制性的侵入,,而是以更加微妙的方式廣泛衍生,,由此所引發(fā)的數(shù)據(jù)風(fēng)險(xiǎn)和隱私風(fēng)險(xiǎn),也將更為嚴(yán)重,。
當(dāng)前,,我國對大數(shù)據(jù)的保護(hù)能力還十分有限,數(shù)據(jù)被惡意使用的現(xiàn)象仍然難以掌控,。我國個(gè)人和企業(yè)對于數(shù)據(jù)資源的保護(hù)意識,,還比較薄弱。隨著電子商務(wù),、社交網(wǎng)絡(luò),、物聯(lián)網(wǎng)、云計(jì)算,、以及移動(dòng)互聯(lián)網(wǎng)的全面普及,,我國數(shù)據(jù)資源與全球的數(shù)據(jù)資源一樣,正在呈現(xiàn)爆發(fā)性、多樣性的增長態(tài)勢,。但是,,由于對數(shù)據(jù)保護(hù)認(rèn)識的不足,以及對個(gè)人電腦安全防護(hù)的不當(dāng),,個(gè)人或企業(yè)的隱私數(shù)據(jù)暴露在互聯(lián)網(wǎng)上的現(xiàn)象十分普遍,。2011年,我國最大程序員網(wǎng)站的600萬個(gè)人信息和郵箱密碼被黑客公開,,進(jìn)而引發(fā)了連鎖的泄密事件,。2013年,中國人壽80萬客戶的個(gè)人保單信息發(fā)現(xiàn)被泄露,。這些事件都凸顯出在大數(shù)據(jù)時(shí)代,,信息安全管理所面臨的、前所未有的挑戰(zhàn),。
大數(shù)據(jù)的存儲及處理能力挑戰(zhàn),。當(dāng)前,我國大數(shù)據(jù)存儲,、分析和處理的能力還很薄弱,,與大數(shù)據(jù)相關(guān)的技術(shù)和工具的運(yùn)用也相當(dāng)不成熟,大部分企業(yè)仍處于IT產(chǎn)業(yè)鏈的低端,。我國在數(shù)據(jù)庫,、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘以及云計(jì)算等領(lǐng)域的技術(shù),,普遍落后于國外先進(jìn)水平,。
在大數(shù)據(jù)存儲方面,數(shù)據(jù)的爆炸式增長,,數(shù)據(jù)來源的極其豐富和數(shù)據(jù)類型的多種多樣,,使數(shù)據(jù)存儲量更龐大,對數(shù)據(jù)展現(xiàn)的要求更高,。而目前我國傳統(tǒng)的數(shù)據(jù)庫,,還難以存儲如此巨大的數(shù)據(jù)量。在大數(shù)據(jù)的分析處理方面,,由于針對具體的應(yīng)用類型,,需要采用不同的處理方式,因此必須通過建立高級大數(shù)據(jù)的分析模型,,來實(shí)現(xiàn)快速抽取大數(shù)據(jù)的核心數(shù)據(jù),、高效分析這些核心數(shù)據(jù)并從中發(fā)現(xiàn)價(jià)值,而這些數(shù)據(jù)分析能力我國還很欠缺,。
因此,,如何提高我國對大數(shù)據(jù)資源的存儲和整合能力,,實(shí)現(xiàn)從大數(shù)據(jù)中發(fā)現(xiàn)、挖掘出有價(jià)值的信息和知識,,是當(dāng)前我國大數(shù)據(jù)存儲和處理所面臨的挑戰(zhàn),。
大數(shù)據(jù)的應(yīng)用能力挑戰(zhàn)。我國擁有龐大的人口資源和大數(shù)據(jù)應(yīng)用市場,,市場復(fù)雜度高且變化多端,,使我國成為世界上最復(fù)雜的大數(shù)據(jù)國家。我國互聯(lián)網(wǎng)用戶,,通過利用互聯(lián)網(wǎng)上的海量數(shù)據(jù)來提升自身的商業(yè)價(jià)值和科研價(jià)值,。我國企業(yè)用戶,也已積累了大量的數(shù)據(jù)信息資產(chǎn),,如產(chǎn)品數(shù)據(jù),、運(yùn)營數(shù)據(jù)和價(jià)值鏈數(shù)據(jù)等。隨著我國企業(yè)信息化系統(tǒng)的深入部署和逐步完善,,大數(shù)據(jù)應(yīng)用能力所引發(fā)的商業(yè)模式的改變,,將直接影響我國企業(yè)的競爭能力。
在政府決策方面,,當(dāng)前我國政府部門的數(shù)據(jù)規(guī)模還很小,,多數(shù)仍集中在對結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用上,,而對于非結(jié)構(gòu)化數(shù)據(jù)的利用則幾乎為空白,。利用數(shù)據(jù)分析來支撐政府決策,我國做得還很不夠,。從認(rèn)識到“大數(shù)據(jù)能產(chǎn)生價(jià)值”,,到實(shí)現(xiàn)了“從大數(shù)據(jù)中找到價(jià)值”,再到“有效使用大數(shù)據(jù)產(chǎn)生的價(jià)值”,,政府目前也只是剛剛起步,。當(dāng)前,如何收集數(shù)據(jù),、使用數(shù)據(jù),、開放數(shù)據(jù)、管理數(shù)據(jù)和利用數(shù)據(jù)來支撐決策,,是我國面臨的又一新挑戰(zhàn),。
大數(shù)據(jù)的人才培養(yǎng)能力挑戰(zhàn)。大數(shù)據(jù)領(lǐng)域技術(shù)人才和商業(yè)人才的缺乏,,是一個(gè)全球性的問題,。根據(jù)麥肯錫的一項(xiàng)研究顯示,僅美國每年就有14萬到19萬名數(shù)據(jù)科學(xué)家的缺口,,預(yù)計(jì)到2018年將達(dá)到44萬到49萬,,而數(shù)據(jù)科學(xué)家則更是嚴(yán)重缺乏,。
我國大數(shù)據(jù)分析專業(yè)人才缺口究竟有多大,有專家粗略估算至少需要100萬人,。當(dāng)前,,具備綜合掌控?cái)?shù)學(xué)、統(tǒng)計(jì)學(xué),、機(jī)器學(xué)習(xí)等方面知識的復(fù)合型人才,,同時(shí)又可承擔(dān)數(shù)據(jù)分析和數(shù)據(jù)挖掘的數(shù)據(jù)科學(xué)家,在我國尤為奇缺,。目前,,我國初級的分析人員只能對數(shù)據(jù)進(jìn)行簡單的報(bào)表和進(jìn)行描述性分析,而隨著未來大數(shù)據(jù)應(yīng)用的不斷增長,,我國大數(shù)據(jù)人才儲備不足的問題將更加嚴(yán)重,。因此,培養(yǎng)能夠解決大數(shù)據(jù)問題所需的人才,,包括培養(yǎng)大數(shù)據(jù)分析人才和管理人才,,是我們需要面對的又一緊迫問題。
(作者單位:中國科學(xué)技術(shù)發(fā)展戰(zhàn)略研究院)