1 引言
大數據技術(shù)和產(chǎn)業(yè)目前正處于蓬勃發(fā)展過(guò)程中,新的技術(shù)、應用層出不窮,越來(lái)越多的客戶(hù)已經(jīng)意識到數據作為企業(yè)核心資產(chǎn)的重要意義,也都有意愿向該領(lǐng)域的系統建設投資,這也吸引了大量的廠(chǎng)商參與到這一領(lǐng)域。但是,大數據產(chǎn)業(yè)在發(fā)展過(guò)程中,也存在著(zhù)以下一些問(wèn)題:
(1) 技術(shù)驅動(dòng)而非需求驅動(dòng),導致系統對客戶(hù)實(shí)際業(yè)務(wù)的幫助不大:很多客戶(hù)只是聽(tīng)說(shuō)大數據能解決很多問(wèn)題而上了大數據系統,但并不知道怎樣用大數據來(lái)幫助自己解決問(wèn)題。同樣,很多廠(chǎng)商只是具備一定的大數據技術(shù),并不深入了解客戶(hù)的業(yè)務(wù),所以也很難開(kāi)發(fā)出真正能幫助客戶(hù)解決問(wèn)題的大數據應用。;
(2) 垂直化的應用開(kāi)發(fā)方式,導致系統開(kāi)發(fā)成本高周期長(cháng):目前行業(yè)內大量的大數據應用仍采用按項目垂直化的開(kāi)發(fā)方式,項目之間缺少積累復用,每個(gè)項目幾乎都是零基礎的重新開(kāi)發(fā),造成系統開(kāi)發(fā)周期長(cháng)、成本高、質(zhì)量難以保證。
2 大唐電信大數據平臺及應用解決方案
2.1 解決方案的整體思路
針對以上問(wèn)題,結合自身在大數據技術(shù)領(lǐng)域的深厚實(shí)力和多年來(lái)積累的行業(yè)應用軟件研發(fā)實(shí)施經(jīng)驗,大唐電信以“平臺+行業(yè)應用”的形式,推出了公司針對政務(wù)、社區、交通、水利、運營(yíng)商等行業(yè)大數據市場(chǎng)的整體解決方案。該方案以面向多行業(yè)應用的大數據處理分析平臺為基礎,基于該平臺提供的大數據管理與分析能力,并結合各行業(yè)自身的業(yè)務(wù)需求,提供面向多個(gè)行業(yè)的大數據分析應用,如下圖所示:

2.2 大數據處理分析平臺的功能
大數據處理分析平臺是一個(gè)能夠提供支撐大數據存儲、處理與分析、展現、管理能力的基礎平臺,其主要功能包括大數據實(shí)時(shí)采集和預處理、大數據分布式存儲、大數據高性能應用處理、多模態(tài)(表格、文件、對象及數據流等)數據的綜合管理,高維度檢索和可視化展現,以及大數據行業(yè)分析模型。平臺覆蓋了大數據生命周期中的采集、存儲、計算、挖掘、管理等處理環(huán)節,其具體功能包括:
· 大數據采集:提供從行業(yè)應用系統、數據庫、中間件等外部系統采集數據的服務(wù),或者從大數據平臺中向行業(yè)應用系統共享數據的服務(wù)。該功能解決了數據生產(chǎn)系統與大數據系統間的接口與解耦問(wèn)題,提供大數據平臺與外部系統間關(guān)系數據庫型數據源、文件型數據源、事件型數據源等間的數據采集與ETL(抽取,轉換,加載)。
· 大數據存儲:提供分布式的數據存儲服務(wù),包括基于分布式文件系統的存儲服務(wù),以及基于分布式數據庫系統的存儲服務(wù)。
· 數據處理與分析:包括批處理、流處理在內的分布式計算框架服務(wù),以及基于計算框架的數據查詢(xún)服務(wù)、數據分析服務(wù)與數據挖掘服務(wù)。
· 數據展現與應用:用于對大數據平臺系統內部的數據(特別是結果數據)提供結果展現服務(wù),提供面向行業(yè)應用系統的數據交換服務(wù)。
· 數據管理:提供元數據管理以及數據質(zhì)量管理功能。數據質(zhì)量管理支持數據質(zhì)量規則和數據質(zhì)量流程的定制能力
· 系統管理:面向大數據集群提供分布式的集群部署管理功能、集群監控管理功能、集群服務(wù)協(xié)作管理功能。
2.3 大數據處理分析平臺的特點(diǎn)
· 靈活、多模態(tài)的大數據采集及管理。通過(guò)分布式高速高可靠數據爬取或采集、高速數據全映像等大數據收集技術(shù),可靈活適應多模態(tài)大數據的數據采集及管理。
· 低成本、高性能的大數據存儲。根據不同需求靈活采用HDFS、NoSQL數據庫、內存數據庫等多種存儲技術(shù),實(shí)現低成本高性能的大數據分布式存儲。
· 滿(mǎn)足多層次需求的大數據分析與可視化服務(wù)。支持全面高效的大數據高維檢索、大數據分析與可視化服務(wù),支持快速靈活的改變海量數據多維分析的維度,支持人工智能AI與機器學(xué)習ML算法,能更好地分析和挖掘數據深層面價(jià)值。
· 高可用、彈性可擴展的分布式系統部署。不需要昂貴專(zhuān)用存儲、網(wǎng)絡(luò )和服務(wù)器設備,支持高可用及橫向擴展的分布式系統架構,硬件成本低。
· 良好的可管理性和用戶(hù)體驗。將引入的開(kāi)源軟件作為技術(shù)組件,與平臺通過(guò)定義良好的接口進(jìn)行集成,使組件松耦合、可管理、可監控、可升級,實(shí)現了良好的可管理性和用戶(hù)體驗。
3 大唐電信大數據行業(yè)應用案例
基于大數據處理分析平臺所提供的大數據管理與分析能力,大唐電信已研發(fā)了針對政務(wù)、社區、交通、水利、運營(yíng)商等行業(yè)的大數據應用,并得到了成功推廣。
3.1 互聯(lián)網(wǎng)及寬帶測速平臺
互聯(lián)網(wǎng)及寬帶測速平臺已在某部級單位完成了應用示范。該系統采用分布式架構,應用層和數據層網(wǎng)狀分布,平臺監測點(diǎn)覆蓋中國除臺灣外的所有省和運營(yíng)商,包括國外主要國家和城市的7個(gè)監測點(diǎn),目前400個(gè)左右的監測點(diǎn)位于系統的分布式末梢,北京數據中心是網(wǎng)狀核心,負責核心數據處理和業(yè)務(wù)分析展示。
該平臺網(wǎng)站已經(jīng)面向公眾開(kāi)發(fā),目前測速用戶(hù)人數超過(guò)5萬(wàn),平臺涉及到的主機和設備400余臺。在數據量方面,中心平臺主動(dòng)采集部分數據量1.2T/月,省平臺主動(dòng)采集部分數據量0.5T/月,被動(dòng)數據量29G/秒。對于被動(dòng)采集部分,因數據量太大,基礎數據不保留,保存5分鐘匯總數據3個(gè)月,數據庫中放置天粒度以上的分析數據。
3.2 高速公路交通大數據分析平臺
高速公路交通大數據分析平臺已在某省高速公路管理局得到了應用。系統采集與整合高速公路交通路網(wǎng)運營(yíng)的海量業(yè)務(wù)數據,分析高速公路斷面交通量、OD數據、收費、路況、養護、氣象、管控等業(yè)務(wù)數據,研究并建立路網(wǎng)調度決策支持模型、狀態(tài)預測類(lèi)模型、分析影響類(lèi)模型、輔助決策類(lèi)模型,開(kāi)發(fā)路網(wǎng)調度決策系統、道路養護決策系統、機電設備養護決策系統、公眾服務(wù)系統等軟件系統,構建面向行業(yè)管理和公眾服務(wù)的分析應用。
目前系統處理的數據包括微波車(chē)檢數據6億條/年、ETC數據1.5億條/年,MTC數據 2億條/年,高速路況數據 10萬(wàn)條/年,路面、機電養護及其他業(yè)務(wù)數據1000萬(wàn)條/年,視頻、圖像數據80PB/年。預計在未來(lái)2~3年內,該軟件平臺存儲、處理的結構化數據量約在2000~3000億條左右,非結構化數據量約在160~240PB左右。
4 結束語(yǔ)
我國政府高度重視大數據產(chǎn)業(yè)的發(fā)展,發(fā)展大數據已成為我國的國家戰略。在這樣的大環(huán)境下,將有越來(lái)越多的行業(yè)用戶(hù)采用大數據技術(shù)作為科學(xué)決策的輔助手段。未來(lái),大唐電信將不斷優(yōu)化大數據處理分析平臺的能力,并結合行業(yè)需求推出更多的大數據應用方案,為我國大數據產(chǎn)業(yè)的發(fā)展做出自己的貢獻。