Ⅰ 大數據是什麼,是怎麼帶動經濟發展的
大數據的概念
概念:難以用常規的資料庫工具獲取、存儲、管理、分析的數據集合。
特徵:
1、數據量大:起始單位是PB級的。
1KB=1024B
1MB=1024KB
1GB=1024MB
1TB=1024GB
1PB=1024TB
1EB=1024PB
1ZB=1024EB
2、類型多:
結構化、板結構化、非結構化:網諾日誌、音頻、視頻、圖片、地理位置等信息混雜。
3、價值密度低:
獲取數據的價值就像是淘金一般。
4、速度快時效高:
數據呈指數倍增長,時效性要求高,比如搜索引擎要求幾分鍾前的新聞能夠被用戶查詢到,個性化推薦演算法盡可能的完成實時推薦。
5、永遠在線:
大數據時代的數據是永遠在線的,隨時應用計算,這也是區別於傳統的數據的最大特徵。
大數據從哪來
1、搜索引擎服務
網路數據量1000PB,每天響應138個國家數十億次請求,每日新增10TB
2、電子商務
3、社交網路
QQ:8.5億用戶,用4400台伺服器存儲用戶產生的信息,壓縮後的數據100PB,每天新增200~300TB
4、音視頻在線服務
5、個人數據業務
6、地理信息數據
7、傳統企業
8、公共機構
智慧城市:攝像頭拍攝的圖片,1080P高清網路攝像機一月產生1.8TB數據,大點的城市50萬個攝像頭,一個月3PB的數據量。
醫療、中國的氣象系統。
大數據的存儲與計算模式
存儲:
面臨的問題:數據量大、類型復雜(結構化、非結構化、半結構化)
關鍵技術:
1、分布式文件系統(高效元數據管理技術、系統彈性擴展技術、存儲層級內的優化、針對應用和負載的存儲優化技術、針對存儲器件的優化技術)
2、分布式資料庫
事務性資料庫技術:NoSQL:(支持非關系資料庫、具有多個節點分割和復制數據的能力、用最終一致性機制解決並發讀操作與控制問題、充分利用分布式索引及內存提高性能)代表有:BigTable、HBase、MongoDB、Dynamo。
分析型的資料庫技術:Hive 、Impala
3、大數據索引和查詢技術
4、實時流式大數據存儲與處理技術
計算:
面臨的問題:數據結構特徵、並行計算(以分布式文件為基礎的Hadoop以分布式內存緩存為基礎的Spark)、數據獲取(批處理流處理)、數據處理類型(傳統查詢數據挖掘分析計算)、實時響應性能、迭代計算、數據關聯性(先map一下再rece一下)。
關鍵技術:
1、大數據查詢分析計算模式與技術:HBase、Hive、Cassandra、Impala
2、批處理計算:Hadoop MapRece、Spark
3、流式計算:Storm、Spark Steaming
4、圖計算:Giraph、GraphX
5、內存計算:Spark、Hana(SAP公司全內存式分布式資料庫系統)、Dremel
應用領域
1、智慧醫療(臨床數據、公共衛生數據、移動醫療健康數據)(共享疾病案例,基因分類參考)
2、智慧農業(主要指依據商業需求進行農產品生產,降低菜殘傷農概率)
3、金融行業:
精準的營銷:根據可與習慣進行推銷
風險管控:根據用戶的交易流水實施反欺詐
決策支持:抵押貸款這一塊,實施產業信貸的風險控制。
效率提升:加快內部數據處理。
產品設計:根據客戶的投資行為設計滿足客戶需求的金融產品。
4、零售行業(對零售商來說:精準營銷(降低營銷成本,擴大營銷額);對廠商:降低產品過剩)
5、電子商務行業
6、電子政務
希望對您有所幫助!~