從某種程度上說,大數據是數據分析的前沿技術。簡言之,從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業的潛力。
大數據給互聯網帶來的是空前的信息大爆炸,它不僅改變瞭互聯網的數據應用模式,還將深深影響著人們的生產生活。深處在大數據時代中的人們,已經認識到大數據已經將數據分析的認識從“向後分析”變成“向前分析”,改變瞭人們的思維模式,但同時大數據也向我們提出瞭數據采集、分析和使用等難題。在解決瞭這些難題的同時,也意味著大數據開始向縱深方向發展。
大數據可分成大數據技術、大數據工程、大數據科學和大數據應用等領域。目前人們談論最多的是大數據技術和大數據應用。工程和科學問題尚未被重視。大數據工程指大數據的規劃建設運營管理的系統工程;大數據科學關註大數據網絡發展和運營過程中發現和驗證大數據的規律及其與自然和社會活動之間的關系。
大數據是未來的發展方向,正在挑戰我們的分析能力及對世界的認知方式,因此,我們與時俱進,迎接變化,並不斷的成長!
1、大數據統計分析的意義
近年來,包括互聯網、物聯網、雲計算等信息技術在內的IT通信業迅速發展,數據的快速增長成瞭許多行業共同面對的嚴峻挑戰和寶貴機遇,因此現代信息社會已經進入瞭大數據時代。事實上,大數據改變的不隻是人們的日常生活和工作模式、企業運作和經營模式,甚至還引起科學研究模式的根本性改變。
一般意義上,大數據是指無法在一定時間內用常規機器和軟硬件工具對其進行感知、獲取、管理、處理和服務的數據集合。網絡大數據是指“人、機、物”三元世界在網絡空間中彼此交互與融合所產生並在互聯網上可獲得的大數據。將數據應用到生活生產中,可以有效地幫助人們或企業對信息作出比較準確的判斷,以便采取適當行動。數據分析是組織有目的地收集數據、分析數據,並使之成為信息的過程。也就是指個人或者企業為瞭解決生活生產中的決策或者營銷等問題,運用分析方法對數據進行處理的過程。
所謂的數據統計分析,SEO馬龍認為就是運用統計學的方法對數據進行處理。在以往的市場調研工作中,數據統計分析能夠幫助我們挖掘出數據中隱藏的信息,但是這種數據的分析是“向後分析”,分析的是已經發生過的事情。而在大數據中,數據的統計分析是“向前分析”,它具有預見性。
8fed1c2c8221b94d59a55e1c839dc9ce
2、大數據的可視化分析
數據是結構化的,包括原始數據中的關系數據庫,其數據就是半結構化的,譬如我們熟知的文本、圖形、圖像數據,同時也包括瞭網絡的不同構型的數據。通過對各種數據的分析,就可以清晰的發現不同類型的知識結構和內容,包括反映表征的、帶有普遍性的廣義型知識;用於反映數據的匯聚模式或根據對象的屬性區分其所屬類別的特征型知識;差異和極端特例進行描述的差異型知識;反映一個事件和其他事件之間依賴或關聯的關聯型知識。關於這點,我曾在SEO馬龍博客的《如何做好一個產品的市場調研和數據分析》一文中體現出來瞭。
根據當前歷史和當前數據預測未來數據的預測型知識。當前已經出現瞭許多知識發現的新技術,其中之一就是可視化方法。數據可視化技術有3個鮮明的特點:
(1)、與用戶的交互性強。用戶不再是信息傳播中的受者,還可以方便地以交互的方式管理和開發數據。
(2)、數據顯示的多維性。在可視化的分析下,數據將每一維的值分類、排序、組合和顯示,這樣就可以看到表示對象或事件的數據的多個屬性或變量。
(3)、最直觀的可視性特點。數據可以用圖像、曲線、二維圖形、三維體和動畫來顯示,並可對其模式和相互關系進行可視化分析。
3、數據挖掘算法
數據挖掘是指數據庫中的知識發現,其歷史可以追溯到1989年美國底特律市召開的第一屆KDD國際學術會議上,而第一屆知識發現和數據挖掘(Data Mining,DM)國際學術會議是1995年加拿大召開的,會議上將數據庫裡存放的數據生動地比擬成礦床,從而“數據挖掘”這個名詞很快就流傳開來。數據挖掘的目的是在雜亂無章的數據庫中,從大量數據中找到有用的、合適的數據,並將其隱含的、不為人知的潛在價值的信息揭示出來的過程。事實上,數據挖掘隻是整個KDD過程中的一個步驟。
數據挖掘的定義沒有統一的說法,其中“數據挖掘是一個從不完整的、不明確的、大量的並且包含噪聲的具有很大隨機性的實際應用數據中,提取出隱含其中、事先未被人們獲知、卻潛在有用的知識或模式的過程”是被廣泛接受的定義。
事實上,SEO馬龍覺得該定義中所包含的信息——大量真實的數據源包含著噪聲;滿足用戶的需求的新知識;被理解接受的而且有效運用的知識;挖掘出的知識並不要求適用於所有領域,可以僅支持某個特定的應用發現問題。
以上這些特點都表現瞭它對數據處理的作用,在有效處理海量且無序的數據時,還能夠發現隱藏在這些數據中的有用的知識,最終為決策服務。從技術這個角度來說,數據挖掘就是利用一系列相關算法和技術從大量的數據中提取出為人們所需要的信息和知識,隱藏在數據背後的知識,可以以概念、模式、規律和規則等形式呈現出來。
4、大數據技術的預測性分析
預測性分析可以讓分析員根據可視化分析和數據挖掘的結果做出一些預測性的判斷。大數據分析最終要實現的應用領域之一就是預測性分析,可視化分析和數據挖掘都是前期鋪墊工作,隻要在大數據中挖掘出信息的特點與聯系,就可以建立科學的數據模型,通過模型帶入新的數據,從而預測未來的數據。作為數據挖掘的一個子集,內存計算效率驅動預測分析,帶來實時分析和洞察力,使實時事務數據流得到更快速的處理。實時事務的數據處理模式能夠加強企業對信息的監控,也便於企業的業務管理和信息更新流通。
此外,大數據的預測分析能力,能夠幫助企業分析未來的數據信息,有效規避風險。在通過大數據的預測性分析之後,無論是個人還是企業,都可以比之前更好地理解和管理大數據。對此大傢可以通過SEO馬龍博客的《解讀2013年大數據應用與趨勢的調研》相關介紹來具體瞭解。
盡管當前大數據的發展趨勢良好,但網絡大數據對於存儲系統、傳輸系統和計算系統都提出瞭很多苛刻的要求,現有的數據中心技術很難滿足網絡大數據的需求。因此,科學技術的進步與發展對大數據的支持起著重要的作用,大數據的革命需要考慮對IT行業進行革命性的重構。網絡大數據平臺(包括計算平臺、傳輸平臺、存儲平臺等)是網絡大數據技術鏈條中的瓶頸,特別是網絡大數據的高速傳輸,需要革命性的新技術。
此外,既然在大數據時代,任何數據都是有價值的,那麼這些有價值的數據就成為瞭賣點,導致爭奪和侵害的發生。事實上,隻要有數據,就必然存在安全與隱私的問題。隨著大數據時代的到來,網絡數據的增多,使得個人數據面臨著重大的風險和威脅,因此,網絡需要制定更多合理的規定以保證網絡環境的安全。
5、大數據的應用
眾所周知,企業數據本身就蘊藏著價值,但是將有用的數據與沒有價值的數據進行區分看起來可能是一個棘手的問題。但是屢見不鮮的是,很多公司仍然隻是將信息簡單堆在一起,僅將其當作為滿足公司治理規則而必須要保存的信息加以處理,而不是將它們作為戰略轉變的工具。
畢竟,數據和人員是業務部門僅有的兩筆無法被競爭對手復制的財富。在善用的人手中,好的數據是所有管理決策的基礎,帶來的是對客戶的深入瞭解和競爭優勢。數據是業務部門的生命線,必須讓數據在決策和行動時無縫且安全地流到人們手中。
所以,數據應該隨時為決策提供依據。有些人會說,數據中蘊含的價值隻能由專業人員來解讀。但SEO馬龍卻不完全贊同這個觀點,在SEO馬龍認為數據的價值在於將正確的信息在正確的時間交付到正確的人手中。未來將屬於那些能夠駕馭所擁有數據的公司,這些數據與公司自身的業務和客戶相關,通過對數據的利用,發現新的洞見,幫助他們找出競爭優勢。
大數據分析是商業智能的演進。當今,傳感器、GPS系統、QR碼、社交網絡等正在創建新的數據流。所有這些都可以得到發掘,正是這種真正廣度和深度的信息在創造不勝枚舉的機會。要使大數據言之有物,以便讓大中小企業都能通過更加貼近客戶的方式取得競爭優勢,數據集成和數據管理是核心所在。
有的時候,我們應該將這種復雜性看成是一種機會而不是問題。處理方法時,產生的數據越多,結果就會越成熟可靠。在如今的大數據時代中,最靈活和成功的企業將會是那些善用大機遇的公司。
大數據技術的戰略意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行專業化處理。換言之,如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的“加工能力”,通過“加工”實現數據的“增值”。