• 公安大數據變革!你準備好了嗎?

    2014-01-10 15:23:08 來源:博康 評論:
    分享到:

      1、“撲面而來,只爭朝夕”記大數據時代背景

    “這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。”

    ———哈佛大學社會學教授加里·金

    “忽如一夜春風來,千樹萬樹梨花開。”2012年是“大數據”概念熱議的一年,就如一股春風,大數據的訊息從各行各業撲面而來。大數據有多大,讓我們看看“互聯網上的一天”。互聯網上的一天究竟會發生些什么?一天之中,互聯網產生的全部內容可以刻滿1.68億張DVD;發出的郵件有2940億封之多(相當于美國兩年的紙質信件數量);發出的社區帖子達200萬個(相當于《時代》雜志770年的文字量)。

    如果說一天太長,我們只爭朝夕,那么看看一分鐘內又會發生些什么。一分鐘內,微博Twitter上新發的數據量超過10萬;社交網絡Facebook的瀏覽量超過600萬。

    wps_clip_image-21474.png

    思科對全球移動數據流量的預測(EB/月)

    注:EB等于1024PB,如下圖所示,數據量的計算按1024為進制,從Byte、KB、MB可以一直推算到YB,那是我們無法想象的超級大數據概念。


    根據國際數據公司

      

      大數據的“4V”特性

    公安大數據也是“大數據”的一種,它也具備著大數據的通用特性。

    1、公安數據體量大、增長快,如高清視頻錄像,1路1個月就將占用2.5TB的磁盤空間,500個探頭將輕易突破PB級存儲需求;又如卡口數據,幾百路卡口1年將產生幾十億條記錄,幾千路卡口1年將產生幾百億條數據;

    2、公安數據來源非常豐富,種類繁多,結構不一,而其中70%~85%的數據都是圖片、視頻等非結構化數據,數據檢索和關聯比對非常困難;

    3、公安大數據成規模存儲,其價值密度較低。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒,急迫需要快速發現價值、提取知識的大數據工具;

    4、警務工作對時間相當敏感,傳統的數據挖掘技術在如此大的數據量下無法快速發現數據規律和破案線索,必須要求采用大數據的“1秒定律”,海量數據挖掘分析盡可能的秒級響應。

    “人無遠慮必有近憂”,越來越多的公安科技部門發現,基于新的大數據形態,傳統的數據庫技術已經開始出現疲態,技術瓶頸逐步顯現,相關情報研判和案件偵破的響應速度越來越慢,有些應用場景已經完全不能支撐。傳統技術就像一艘老舊的航船,無法在大數據的海洋中高效挖掘捕撈有價值的物產,并隨時都有傾覆的危險。因此,未來公安科技強警的工作,不僅僅是進一步豐富我們的信息采集手段,也不僅僅是加快我們警務信息應用系統或平臺的建設,還需要更加看重公安大數據的整體規劃和布局,以主動的心態來迎接公安大數據時代的到來。

    具體來說,公安大數據究竟在哪些方面會遇到挑戰呢?

    傳統的數據存儲和計算體系依靠的僅僅是一套數據庫管理系統,以及若干網絡存儲設備,其存儲能力和計算能力在設計建造之初就已經確定,而且極難擴展。這種方式在當今數據急速增長、甚至稱為“信息爆炸”的時代,其數據容量、網絡吞吐和計算能力的彈性擴展能力上都存在天生的不足,這也是為什么我們聽到最多的公安抱怨往往不是數據丟失或者損壞,而是數據增長帶來的查詢速度變慢的問題,以及數據增長帶來的高昂擴容成本和改造復雜性等困擾和困惑。

    大數據的存儲計算難,難就難在如何應對高速增長的海量數據,以及如何始終保持高效的計算能力。前文提到,“全世界可獲取的數據量每兩年就會翻一番”,公安大數據也是如此,我們既不愿意每兩年更換一次系統,我們也不可能在系統的建設初期就投入巨大的前期成本來為將來買單,我們需要的是一種能夠彈性擴展的存儲和計算能力。


     

    2、大數據結構多樣化問題

    智慧公安是智慧城市的一個有機組成部分,智慧城市中遇到的各類結構化、非結構化數據,如視頻、圖片、測量、日志等數據,在智慧公安中也比比皆是,而傳統的關系型數據庫對非結構化數據的管理能力非常的薄弱,甚至就是不支持,這為公安大數據中的結構化數據、非結構化數據的統一管理帶來了困擾。例如,我們把結構化數據放在數據庫中心,把非結構化數據以文件的方式放在磁盤陣列中,而當磁盤陣列的IP地址或存儲路徑發生變更時,數據庫和磁盤陣列的數據對應關系就輕易的被破壞了。

    3、大數據整合共享難問題

    公安信息化建設力度逐年加大,其相關信息系統日益豐富,但每個子系統都需要自下而上完成采集、存儲、交換、管理和應用模塊的建設,數據系統的構建者往往是應用系統的構建者,當數據完成統一存儲和管理后,也僅僅由該應用系統的集成商進行使用。在傳統方案下,當應用和應用之間需要相互調用數據時,應用系統需要彼此開放數據接口,建立橫向的數據交換通道。目前各地公安在本地都有相應的存儲設備、數據庫,存儲各種非結構化(圖片、視頻)和結構化(特征、屬性)數據,如果需要交換這些數據,大量的數據接口維護起來非常復雜,這也將帶來非常大的工作量和網絡交換壓力。

    另外,由于公安機關建立的是部、省、市、縣的四級組織機構,各層級需要進行橫向的數據交換以外,層級與層級自下而上也需要進行縱向的數據交換。在傳統方案下,建設省一級的數據整合應用系統時,往往是將各地市的海量數據匯總到省廳數據中心,并為此進行相應的骨干網鏈路擴容、機房軟硬件擴容。在大數據時代,數據增長是無限的,而鏈路擴容和機房擴容是有限的,數據全部向上匯聚后再進行應用顯然也非長久之計。

    1、“數據在手,決勝千里”記公安大數據的思考和方向

    在美國,“計算機統計”現在已經演變成一個專業名詞,特指一種警務管理模式。

    1970年,杰克·梅普爾加入紐約市交通警察局成為一名地鐵線上的警察。當時,地鐵線上的搶劫案非常頻繁,地鐵警察被認為是紐約最危險的工作之一。在十幾年的街頭警察的經歷中,他開始研究地鐵搶劫案的發生規律。梅普爾在辦公室的墻上掛上了幾百幅地圖,用不同顏色的大頭針來跟蹤地鐵搶劫案發生的時間和地點,分析其中的原因和規律。預測第二天可能發生搶劫的時間和地點,進行伏擊。梅普爾后來晉升為派出所所長,他就采用這種方法來部署和調配他所管轄的警力。他的辦公室掛滿了地圖,他的同事戲稱為“地圖墻”,他卻稱之為“預測未來的圖表”。這種方法在全市警察局進行了推廣。

    第二年,紐約市的地鐵搶劫案下降了27%。

    之后這項技術在紐約警察局各個業務領域推廣,1995年紐約的犯罪率應聲而降,兇殺案由1994年的95420宗下降到72679宗,到2009年,兇殺案更是下降到466宗,創下了50年的新低。這個指標,已經使紐約躋身全美最安全的大城市行列。

    紐約的巨大成功,很快引起了其他地方政府和聯邦司法部的注意。90年代,全美國三分之一的地區引進了這種管理模式。

    “運籌帷幄之中,決勝千里之外。”如何才能解決公安大數據的問題,這是我們需要面對的問題。而要突破公安大數據的問題,就必然要考慮前文提及的“大數據存儲計算難問題”、“大數據結構多樣化問題”和“大數據整合共享難問題”。

    目前,大數據的解決方案包括很多,比如Hadoop、NoSQL、Redis、MangoDB……等等,但是綜合各種大數據的解決方案,我們認為Hadoop是目前業內最好的技術。2012年12月,中國北京“Hadoop與大數據技術大會”的勝利召開,也意味著大數據和Hadoop技術已經緊密的結合在一起(往年都是分別召開“大數據”和“Hadoop”兩項IT界的技術盛會)。


    沿著Hadoop的技術架構往下思考大數據的解決之道,可以有以下啟示:

    第一,大數據存儲難題的解決之道

    “我們怎么從如此多的數據中高效提取有用的信息?”,“當數據增長了,我們如何以最小的代價、平滑的、快速的擴展系統的承載能力?”,面對這兩項大數據的基礎應用問題,Hadoop給出了她的答案:

    1、高效率:

    Hadoop集群可以在多臺PC服務器上分布存儲、并行計算,相比傳統的單一數據庫服務器,能夠更高效的幫助我們在海量數據中找到有用的信息,而且并行的PC服務器越多,處理速度越快。

    2、成本低:

    Hadoop可以通過普通PC服務器組成的集群來分發以及處理數據,每臺設備的硬件成本都是相當低廉的,而且每個節點都是運行在免費的開源操作系統上面,這比傳統的高端小型機和大型網絡存儲設備具有更高的成本優勢。

    3、彈性擴展:

    Hadoop從設計之初就是為了利用新節點的優勢進行透明擴展,當系統能力不足時,簡單的添加新的PC服務器,即可完成精確的系統擴容。每一臺PC服務器的添加,都會同步的提升整個系統的存儲能力和計算能力,因此我們可以按需以最小的代價,平滑的、快速的擴展系統的承載能力。

    4、高可靠:

    Hadoop集群能自動地維護數據的多份復制,并且在任務失敗后能自動地重新部署計算任務;眾所周知,網絡化的整體可靠性將遠遠高于單機可靠性,支撐Hadoop集群可靠性的PC服務器可多達幾十上百臺,我們再也不會遇到雙機備份的核心設備整體宕機的可怕后果。

    相比于Hadoop的向外擴展(隨著負載的增加將數據庫分不到多個不同的主機上),多年來關系型數據庫(比較典型的如Oracle、Mysql、DB2等等)還一直依賴于向上擴展(隨著數據庫負載的增加購買更大的數據庫服務器)。因此當數據系統的存儲或計算資源不足時,只能換設備,而無法做到加設備;無論是高昂的成本,還是升級換代所需的停機時間,對高速增長中的大數據系統來說都是非常不利的。不斷的不停機疊加設備可以是常態,但不斷的停機更換設備誰又能忍受呢?

    第二,大數據結構多樣化的解決之道

    與關系型數據庫相比,Hadoop在數據模型的限制這一點上要寬松得多,或者完全不存在。Hadoop分布式數據庫的“鍵/值”存儲與文檔數據庫允許應用在一個數據單元中存入它想要的任何結構,并且本身就是一類支持版本跟蹤和列聚類的高維數據庫,通常也允許創建新的字段而不致帶來麻煩。在大量的生產環境數據庫中,變更管理是一個非常棘手的問題。哪怕是對數據模型做很小的變更,在關系型數據庫中也需要進行小心的管理,甚至還需要停機或降低服務級別;而Hadoop的數據字段動態擴展能力就使得這一個過程非常靈活和容易。由于是列式數據管理,Hadoop從超寬表中提取數據和訪問數據的效率也更高。

    另外,傳統數據庫或數據文件存儲模式,對非結構化數據的高速處理也有相當大的瓶頸。例如,在海量的公安視頻圖像中“以圖搜圖”定位某類嫌疑目標,由于需要通過大量的二進制數據掃描和極其復雜的特征相似度度量計算;在傳統的架構中,大數據的1秒定律幾乎不能實現。而使用hadoop架構,只需編寫一個并行計算程序,然后把數據丟進hadoop集群,讓hadoop啟動并行計算即可。hadoop計算框架會自動的高效的使用集群中的多臺服務器的計算能力,完成并行搜索。由于Hadoop集群的計算能力是基于集群節點數量呈線性增長的,只要集群規模足夠大,秒級響應完全可以實現。

    由此可見,公安數據面臨的結構多樣化問題在Hadoop這里也找到了滿意的答案。無論從非結構數據的可管理性、可變更性和高效計算能力上,Hadoop都比傳統的關系型數據庫和文件索引機制更加優越,也更加適合。

      

      第三,大數據整合共享的解決之道

    面向公安大數據橫向交換和縱向匯聚的困難,我們可以引入Hadoop的分布式數據管理技術,讓數據分散開來存儲和計算,但在邏輯上進行統一管理和調度。各種符合大數據定義的海量數據統一進入Hadoop公安大數據平臺,通過Hadoop的并行計算架構和彈性擴容能力予以支撐,并對外提供統一的大數據訪問服務。由于在大數據平臺內部,數據天然就是融合的,自然消除了海量數據的跨部門、跨應用交換問題;并且借助Hadoop的分區虛擬大表技術,省廳用戶甚至本地不存儲數據也可以進行全省跨地市的統一數據查詢和應用,無需各地單獨規劃、制作接口,提升了標準化程度,簡化了維護工作。

    綜上,無論是橫向的數據整合,還是縱向的數據整合,都可以圍繞多層級的Hadoop大數據平臺展開,運用Hadoop自身的分布式存儲和并行計算能力,從一個面上來支撐公安機關眾多的信息系統建設和數據融合共享,大大減低了公安大數據的整合難度,提高了建設效率。


  • 關鍵字: 公安大數據
  •    責任編輯:liujuan
  • 延伸閱讀!

  • 關于我們
  • 聯系我們
  • 廣告贊助
  • 快乐10分开奖视频