新「數位世界」研究顯示巨量資料落差

分類: 儲存 新品報導   1/2/2013   EMC


EMC 宣布委託IDC進行的「數位世界」研究——「巨量資料、更龐大的資料影子及遠東地區最大的資料成長」(Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East)結果,發現大量由人類及機器產生的資料令「數位世界」創下史無前例的成長,但其中卻只有0.5%資料受到分析。

全球PC和智慧型電話等設備激增、新興市場連網愈趨普及、機器如監控錄影機或智慧電表等產生的資料急劇上升,使得「數位世界」資料量在過去兩年間倍增至2.8 ZB的龐大數字。IDC預測「數位世界」在2020年時將會達到40 ZB,遠高於先前預測的14%。

純粹就資料量而言,40 ZB資料相當於:

● 全球所有的沙灘上有700,500,000,000,000,000,000粒沙的話,40 ZB 即是全球所有沙灘上沙粒總數的57倍。

● 如果我們能將40 ZB的資料儲存於今日的藍光磁碟上,所有光碟的重量(不含封套或光碟盒)加起來,相等於424艘尼米茲級(Nimitz-class)核動力航空母艦。

● 在2020年,40 ZB相當於世界上每個人均擁有5,247 GB資料。

今年的研究是IDC首次能夠捕捉資料在「數位世界」的來源、以及首次被記錄或使用的位置,顯示正在發生的重大轉變。這份專門測量及預測每年產生及複製的數位資料的研究,已邁入第六年,其成果包括「巨量資料落差」的發現,亦即存在於隱藏價值的資料數量與其價值真正被擷取的資料數量之間的落差;資料保護等級與真正被傳遞資料的相對問題;以及全球資料地域分佈的含義。

研究重點:
● 「數位世界」迅速成長:IDC 預測「數位世界」將於2020年前增至40 ZB,遠高於先前的預測。

  • 「數位世界」由今年起至2020年,將每兩年倍增。
  • 到了2020年,全球每位成年男女及兒童將擁有約5,247 GB資料。
  • 「數位世界」膨脹主因是由機器產生的資料增加,上升幅度由2005年僅佔11%,增至2020年超過40%。

    ● 大量有用資料正在流失:巨量資料承諾的前景存在於從大量、未被開發的資料之中擷取價值。不過,大多數新資料絕大部份都是未被標註、以檔案為基礎的非結構性資料,我們對這些資料所知甚少。

  • 2012年,「數位世界」23% (643 exabytes)的資料若被給予標籤及被分析的話,將對巨量資料十分有用。但目前僅3%有潛在價值的資料被標註,被分析的資料甚至更少。
  • 有用資料的數量會隨著「數位世界」的成長而遞增,到了2020年,「數位世界」中33%的資料 (13,000+ exabytes )若被給予標註及分析,將擁有巨量資料的價值。

    ● 大部分「數位世界」未受保護:應該受到保護的資訊成長,比「數位世界」的成長更快。

  • 2010年的「數位世界」中有不到三分之一的資訊需要獲得保護,但這個比例將於2020年上升至40%。
  • 2012年的「數位世界」中有大約35%的資訊需要某程度上的資料保護,但真正獲得此等保護的資料小於20%。
  • 受保護的程度因地而異,新興市場所受的保護程度相對較低。
  • 消費者及企業所面臨的挑戰,如更高層次的威脅、資安技術的落差和缺乏可依從的最佳資安實務,將使這個問題持續加劇。

    ● 地理上的角色逆轉迫在眉睫:「數位世界」現象早期只出現於已開發國家,但隨著新興市場的人口成長,其「數位世界」的身影愈趨明顯。

  • 新興市場於2010年僅佔「數位世界」的23%,在2012年已升至36%。
  • IDC預測在2020年前,62%的「數位世界」將歸屬新興市場
  • 目前「數位世界」的全球市場分佈為:美國 – 32%,西歐 – 19%,中國 – 13%,印度 – 4%,其他國家 – 32%。
  • 在2020年前,預估單是中國將產生佔全球22%的資料。

    其他重要結果:

    ● 雲端運算將於巨量資料管理中扮演更重要的角色,預計全球伺服器的數量將成長十倍,企業資料中心直接管理的資訊將成長14倍。

    ● 儲存於雲端的資料種類將於未來幾年面對重大的變革。IDC預測2020年前,46.7%儲存在雲端的資料將會與娛樂有關,而不再是企業資料。其餘部份則是由監控錄影機資料、嵌入式及醫療資料,以及由電腦、電話、及消費性電子所產生。

    ● 儲存於「數位世界」中有關各個使用者的資訊超過他們所製造的資料。

    ● 西歐現投入最多資金來管理「數位世界」,每GB花費$2.49美元。美國排第二,每GB投資$1.77美元,中國和印度分別以每GB投資$1.31和$0.87緊隨於後。

    ● 由於「數位世界」的基礎架構更緊密連接,資訊不會只存放於所使用的地區。IDC 預計在2020年前,接近40%資料將會「接觸」雲端運算(私有雲及公共雲),意味每個位元組的產生和使用之間的某些過程將於雲端中被儲存或處理。