北京航空航天大學(xué)校長(cháng)懷進(jìn)鵬在下午舉行的“名人堂——互聯(lián)網(wǎng)趨勢論壇”上表示,云計算下大數據將產(chǎn)生新價(jià)值。一個(gè)是商業(yè)社會(huì )價(jià)值,另一個(gè)是學(xué)術(shù)價(jià)值。
大數據不僅改變我們通訊模式,也影響到我們經(jīng)濟和社會(huì )生活發(fā)展模式,更重要它可能是未來(lái)學(xué)術(shù)和科學(xué)研究發(fā)現的一種重要手段。
但是他同時(shí)表示,大數據的應用會(huì )不可避免地涉及隱私。
懷進(jìn)鵬提出,網(wǎng)站利用大數據可以將個(gè)人的許多相關(guān)信息挖掘出來(lái)。未來(lái)當大數據更多的應用之后,百度可以知道你上網(wǎng)行為,你思考的關(guān)注點(diǎn)可能性。淘寶可以了解你的購物習慣,微博會(huì )了解你在某個(gè)領(lǐng)域的思維情況。因此,關(guān)于可信和隱私也是未來(lái)需關(guān)注的問(wèn)題。
以下是懷進(jìn)鵬演講實(shí)錄:
懷進(jìn)鵬:謝謝主持人,剛才前面鄔先生做了一個(gè)非常精彩的報告關(guān)于大數據,我下面向各位匯報一下有關(guān)對云計算和大數據在一些方面的思考。主要是兩個(gè)部分,第一個(gè)互聯(lián)網(wǎng)的發(fā)展所派生和影響出來(lái)的一種新模式和數據作為當前和未來(lái)的一個(gè)重點(diǎn)。第二就是云計算和大數據研究的一些思考。
我們大家都非常清楚,由于主干網(wǎng)六個(gè)月增加一倍,而費用將區域分零,這個(gè)也是著(zhù)名的基爾德(音)定律,這20年在計算儲備和計算當中,計算速度存儲容量增快,內存硬盤(pán)價(jià)格下降了45000倍和360萬(wàn)倍,這樣一個(gè)數據給我們簡(jiǎn)單認識,一個(gè)數據如何獲取帶寬,另外一個(gè)數據的計算和存儲需要的成本。因此作為在當前的互聯(lián)網(wǎng)應用情況下,實(shí)際上我們進(jìn)入一個(gè)更好的數據服務(wù)這樣一個(gè)新時(shí)代。因為帶寬不斷提升已經(jīng)成為基本廉價(jià)的費用,我們不擔心上網(wǎng)需要很多費用,通訊超過(guò)摩爾定律,我們一切都是在線(xiàn)一切是互聯(lián)網(wǎng)絡(luò )的計算,這樣方式使IT和通訊領(lǐng)域也是進(jìn)一步在業(yè)務(wù)方面進(jìn)行整合。所以我們很難分辨出IPone、谷歌(微博)、雅虎包括我們微軟一部分業(yè)務(wù),很難說(shuō)一定是傳統的IT還是電信新服務(wù)的內容。
這個(gè)領(lǐng)域當中原來(lái)有一種說(shuō)法,上世紀60年代互聯(lián)網(wǎng)的先驅也是心理學(xué)家叫里德(音),他說(shuō)未來(lái)計算機互聯(lián)網(wǎng)他有一個(gè)設想,這個(gè)設想就是把世界所有的計算機連在一起,能夠讓用戶(hù)使用遠程的計算機,實(shí)現兩個(gè)功能:第一個(gè)功能怎么獲取數據,第二功能怎么用別人的計算機。對于第一個(gè)功能和正在開(kāi)展使用多臺計算機遠程方面,實(shí)際上一直是計算機和信息領(lǐng)域學(xué)者研究實(shí)踐努力的方向,第一個(gè)信息出現,TIC的出現,使得我們在全球任何一個(gè)地方可以送達數據的內容,這個(gè)事情在計算機世界是重要的事。另外一方面我們知道七八十年代有一個(gè)更重要的進(jìn)展就是操作系統,操作系統實(shí)際上由微機出現把傳統專(zhuān)業(yè)人士可以更多的向普通的非計算機專(zhuān)業(yè)人士來(lái)使用計算機。這個(gè)事情做的重要貢獻就是我們可以不知道內存怎么管理,計算怎么分配時(shí)間,這樣的情況下單機和大型機管理,也提供了技術(shù)和方法。由于操作系統的重要突破,這個(gè)領(lǐng)域當中先后有兩次圖靈獎頒獎,一個(gè)頒給了IBM360的人,一個(gè)頒給了(英文)。這兩個(gè)人都是由操作系統貢獻獲得了圖靈獎。
計算機一個(gè)永恒的主題就是探討數據處理能力如何更好,如何更快如何更強。圍繞這樣一個(gè)領(lǐng)域從過(guò)去所謂的P2P現在云計算以及移動(dòng)計算物聯(lián)網(wǎng)還有智慧地球應用的模式,都是把數據庫作為它重要的一個(gè)核心。來(lái)把過(guò)去的計算模式向云向其他一種方式轉型當中來(lái)強調數據資源來(lái)更有效的利用。這個(gè)過(guò)程當中無(wú)論從科學(xué)的角度還是面向某個(gè)領(lǐng)域應用角度,還是從計算模式的轉型,對某一類(lèi)計算終端來(lái)說(shuō)都是更好的計算能力。我們由于帶寬低廉使得我們上網(wǎng)成本越來(lái)越低,就是說(shuō)互聯(lián)網(wǎng)給我們帶來(lái)新的機會(huì ),從簡(jiǎn)單通訊平臺進(jìn)入互聯(lián)網(wǎng)作為一種更廣泛的計算平臺。
云計算是一個(gè)什么內容我們大家都很清楚,它是基于數據中心,強調性?xún)r(jià)比、效率、可信新的服務(wù)運營(yíng)模式,這是提高高端計算利用率,同時(shí)提升低端計算事物處理能力,我們不關(guān)注本身計算機的能力,更多提供給后臺,由后臺強大的處理能力完成。我們看到大數據基于云計算模式的應用也好,可能對服務(wù)質(zhì)量保證未必完全有效。就像大食堂和小灶一樣,你要想吃得好要付出你的成本處理,來(lái)吃得更好。我們在這個(gè)會(huì )議樓上正常提供五千人,突然來(lái)了五萬(wàn)人要就餐我們怎么去做?一種簡(jiǎn)單的方式比如說(shuō)營(yíng)養保持食品的問(wèn)題,白菜燉豆腐,好不好難說(shuō),但是提供基本服務(wù),在一定程度上云計算并不能夠提供高質(zhì)量的一種服務(wù)能力,應用環(huán)境不斷發(fā)展對互聯(lián)網(wǎng)大規模應用過(guò)程當中所產(chǎn)生的一種計算模式。
基本應用模式第一次確實(shí)把信息技術(shù)能夠作為在未來(lái)的一種基礎設施,那么它核心技術(shù)前面剛才鄔院士提出了用TB的方式提供更多的隔離性,以便提供更有效的服務(wù)。為互聯(lián)網(wǎng)應用推出新的計算手段和能力,這十年來(lái)從不同角度的探索,另外一個(gè)互聯(lián)網(wǎng)應用需求當中也對云計算的模式提供新的要求,正向前面講到大數據本身特點(diǎn),規模大,變化快,種類(lèi)雜,在社交類(lèi),搜索類(lèi)都有相當多數據類(lèi)型的表現,以及在我們社會(huì )生活當中很多方面。曾經(jīng)圖靈獎獲得者說(shuō)18個(gè)翻一番,過(guò)去數據是確定性的數據,當前是人機物融合數據多樣性和異構性是當前數據特別重要的特點(diǎn)。現在數據遠不止18個(gè)月翻一番,更高數據在發(fā)展。
去年大數據成為整個(gè)信息技術(shù)和社會(huì )當中的熱門(mén)詞,也成為世界上第二大熱門(mén)詞而引起全世界的關(guān)注。去年的時(shí)候做了一次未來(lái)趨勢走向對云計算大數據的發(fā)展過(guò)程給出了它的一個(gè)走向。這個(gè)圖當中給出就是對云計算所謂私有云以及混合云,還有未來(lái)大數據它在發(fā)展當中能夠產(chǎn)生產(chǎn)業(yè)的空間。它的預測大概在2016年的時(shí)候大數據的相關(guān)產(chǎn)業(yè)將達到2000多個(gè)億的規模,數據成為經(jīng)濟社會(huì )一個(gè)重要的驅動(dòng)力。同樣做了一個(gè)分析,去年下半年對于全球整個(gè)企業(yè)投入大數據研究,已經(jīng)投資在大數據領(lǐng)域的情況可以看到,目前在教育、交通之醫療以及能源這些領(lǐng)域超過(guò)大概30%,已經(jīng)事實(shí)性的投資,作為下一步繼續開(kāi)展工作有很多發(fā)展,對于大數據和云計算的投入。
這種方式我們看到由于互聯(lián)網(wǎng)快速普及,大量應用在互聯(lián)網(wǎng)的計算服務(wù)從主機到客戶(hù)服務(wù)到虛擬計算表現,也許云計算僅僅是對于虛擬計算環(huán)境的一種表達方式,還有很多。包括我們說(shuō)的物聯(lián)網(wǎng)等等,隨著(zhù)時(shí)間和應用模式變換,這種名詞會(huì )很多,人們對于它的理解和要求會(huì )有很多變化。
第二部分我們對未來(lái)互聯(lián)網(wǎng)作為一個(gè)普通用戶(hù)來(lái)說(shuō)更多希望成為大的計算服務(wù)平臺,相當于我們在自己筆記本電腦上,臺式機上自己使用自己的系統資源一樣。需要配置相當于有一個(gè)大的計算操作系統管理這個(gè)系統,以便實(shí)現當時(shí)對未來(lái)互聯(lián)網(wǎng)的猜想,可以使遠程計算遠程數據資源共同完成你所需要的服務(wù)。
這種模式實(shí)際上對互聯(lián)網(wǎng)無(wú)論從去中心化,和終端更有效的連接都是在這樣一個(gè)方式思考。我們說(shuō)互聯(lián)網(wǎng)曾經(jīng)改變了我們的交流方式,大數據現在已經(jīng)改變我們經(jīng)濟和生活的很多內容。鄔先生報告當中舉了特別多很有說(shuō)服力的例子,說(shuō)明大數據對我們不僅是交流方式,更重要它改變我們經(jīng)濟和社會(huì )生活。我這里有幾個(gè)例子,比如說(shuō)谷歌在2007用兩萬(wàn)億單詞訓練語(yǔ)言模型,這個(gè)也是大數據產(chǎn)生很好的效果。我們知道醫療有KS.BS研究對于產(chǎn)生新藥物很有好處。預測H7N9流感爆發(fā)用了4.5億模擬,最后提前兩到三周比傳統疾控中心更早預報所發(fā)生地區類(lèi)型,阿里巴巴百度這方面工作都有很多杰出表現,主要原因因為他們擁有一個(gè)強大,真實(shí)可運行的數據提供。我們情況百度和谷歌使得它可以研究分析我們每一個(gè)人上網(wǎng)游覽行為。淘寶網(wǎng)和亞馬遜可以熟悉用戶(hù)的購物習慣和社會(huì )交往的習慣。像微博對于我們社會(huì )思維對一些方式的理解也有很多變化,可以從這樣幾個(gè)數據例子可以看到互聯(lián)網(wǎng)作為第一階段改變交流方式,所謂深度挖掘就進(jìn)入一種新方式,同時(shí)這種數據宏觀(guān)統計的分析也改變了我們過(guò)去研究當中要知其所以然,而不只能知其然這樣的分析。
第三云計算下大數據新價(jià)值,這個(gè)價(jià)值更有意義是學(xué)術(shù)價(jià)值,傳播理論實(shí)踐是科學(xué)研究的三個(gè)手段。類(lèi)似于我們看到很多這樣的研究工作都是在這樣基本方式下進(jìn)行。現在很多學(xué)者預測數據密集型的測算成為第四種科學(xué)研究的模式,推進(jìn)我們對社會(huì )、自然的認識和理解。這個(gè)變化一個(gè)是商業(yè)社會(huì )價(jià)值,另外一方面就是學(xué)術(shù)價(jià)值。給我們計算機研究人員一個(gè)挑戰就是本身對于軟件和理論正處于一個(gè)轉型和新變革時(shí)期。我這里簡(jiǎn)單做一個(gè)粗略的理解,從計算機發(fā)現一開(kāi)始我們圍繞科學(xué)計算,第二階段我們?yōu)樯虡I(yè)階段,現在假定是云計算這種簡(jiǎn)單代名詞來(lái)看我們知道過(guò)去計算機研究基礎問(wèn)題就是圖靈機的算法和復雜性,商業(yè)研究流程和數據處理,云計算考慮數據科學(xué)和數據理論。科學(xué)計算和數據處理為基礎,推進(jìn)數據庫的發(fā)展,在大數據在數據科學(xué)下,現在我們知道HPdoop,mis這樣僅僅是一個(gè)出入,會(huì )有很多方式推進(jìn)這個(gè)工作。
從計算機發(fā)展轉型和過(guò)程當中對新計算模型新軟件理論和復雜性,以及對軟件系統互聯(lián)網(wǎng)的軟件都提出了很多的挑戰。比如說(shuō)第一大的問(wèn)題就是對軟件和數據服務(wù)的能力。因為軟件的復雜性已經(jīng)超過(guò)過(guò)去我們傳統的軟件。而非功能屬性,我們完成做加減這樣,更多考慮服務(wù)質(zhì)量可用性,同時(shí)當前互聯(lián)網(wǎng)應用我們過(guò)去對軟件維護和生產(chǎn)成本已經(jīng)是非常昂貴,在當前無(wú)須復雜系統配置,對終端資源不需要更多管理,也不需要你的服務(wù)對象在什么地方,只需要關(guān)注在互聯(lián)網(wǎng)下你需要什么樣的服務(wù),和需要什么樣的資源。因此在云計算的軟件和我們傳統所看到軟件研究的方式,傳播的方式和維護的方式有了很大變化。
我們過(guò)去考慮是單機或者是簡(jiǎn)單的局域網(wǎng)機器內部變化,在互聯(lián)網(wǎng)下如何進(jìn)行軟件開(kāi)發(fā),計算平臺不是一個(gè)簡(jiǎn)單小的AP這樣的軟件,未來(lái)應用模式我們希望互聯(lián)網(wǎng)作為完整的計算平臺,因此對于未來(lái)軟件機遇也許我們現在開(kāi)始品嘗到這種有效的模式,就是用戶(hù)是開(kāi)發(fā)者也是使用者。由數據和服務(wù)的提供商把它軟件上載上傳數據服務(wù)的運營(yíng)商,由數據服務(wù)運營(yíng)商實(shí)際上提供整個(gè)對軟件服務(wù)進(jìn)行支撐配置集成、開(kāi)發(fā)和應用,也許這是未來(lái)像電信運營(yíng)商一樣,服務(wù)運營(yíng)商將會(huì )成為越來(lái)越重要互聯(lián)網(wǎng)一種計算新平臺。同時(shí)在這種計算平臺下我們看到數據處理本身技術(shù)挑戰是非常多的,例如美國總統委員會(huì )的報告,在過(guò)去連續10年當中一直創(chuàng )造十億美元以上的計算機產(chǎn)業(yè)主要是由數據處理這些領(lǐng)域發(fā)生,并行數據庫、數據挖掘這些工具,在傳統數據處理能力,已經(jīng)不適應在云計算處理,2010年每年處理有70TB而且是壓縮數據,這么大量的數據用傳統的數據不僅存不了,而且價(jià)格貴。現在雅虎HPdoop節點(diǎn),一年下來(lái)超過(guò)四千個(gè)節點(diǎn),不是簡(jiǎn)單的單一數據庫,綜合數據方面超過(guò)了三千個(gè)節點(diǎn),對這樣數據處理的要求和當前技術(shù)提供的這樣裝備來(lái)看,應該說(shuō)這個(gè)領(lǐng)域將會(huì )有重要挑戰和機會(huì )。同時(shí)在數據處理本身來(lái)說(shuō)維護的成本,數據更新的成本和本身數據維護的模式都有很多差別。
因此在這樣一個(gè)領(lǐng)域里將會(huì )有無(wú)限生機和新技術(shù)的挑戰。這里有很多問(wèn)題,比如說(shuō)我們過(guò)去看到MIS的方式,相當于全部數據到齊一次處理,最近發(fā)現應用過(guò)程當中有很多問(wèn)題,兩年前OSDI對MIS進(jìn)一步的升級考慮,對數據增量計算有很多局限,對新算法新問(wèn)題有很多局限性,大數據算法面臨很大挑戰,不僅是由小到大量變,更多發(fā)生根本的變化。在數據處理計算支撐當中,同時(shí)對大數據計算模型,分布式系統的架構,對數據挖掘,預測方面都是現在技術(shù)沒(méi)有辦法完全解決的。在未來(lái)大規模數據處理支持平臺也是在云計算和大數據計算一個(gè)重要的問(wèn)題。特別是我們過(guò)去計算當中計算是被動(dòng)的,以計算為主動(dòng),在轉換需要存儲計算聯(lián)動(dòng),作為新的架構和新方式應該說(shuō)也是正在研究和不斷發(fā)展當中,如何有效把存儲和計算,特別是基于數據主動(dòng)型的計算作為新機構和處理平臺設計變成重要問(wèn)題。
我們前面提到大數據不僅改變我們通訊模式,也影響到我們經(jīng)濟和社會(huì )生活發(fā)展模式,更重要它可能是未來(lái)學(xué)術(shù)和科學(xué)研究發(fā)現的一種重要手段。這種重要手段也改變了我們過(guò)去計算機研究很多新視野和空間。比如說(shuō)我們過(guò)去以50年代以來(lái)一直以抽樣進(jìn)行,工業(yè)進(jìn)行測試以抽樣方式做,大數據當中不是以抽樣做,比如說(shuō)我們炒菜嘗一嘗,我們事先有理解,受熱面積均勻,當你嘗一嘗雖然對局部進(jìn)行分析,但是對全盤(pán)數據有把握。但是大數據下局部數據不可能,炒菜過(guò)程當中不斷加新的菜,所以局部處理已經(jīng)不能保證我們對數據的完整。
我們去買(mǎi)鞋子不會(huì )跑遍北京所有鞋店買(mǎi)鞋子,我們通常跟我們成本進(jìn)行計算不會(huì )達到最后的絕對成本。
在醫療當中很難說(shuō)一個(gè)醫生把對癥下藥問(wèn)題原因用很好科學(xué)方法說(shuō)出來(lái),更多是關(guān)聯(lián)關(guān)系,通過(guò)過(guò)去經(jīng)驗映射到我們對當前治療的理解。大數據給我們帶來(lái)很多新研究和挑戰。我們搞計算機過(guò)去數據基礎就是我們離散數據和我們傳統200年以前的數據,現在面臨不僅考慮近百年,特別是工業(yè)發(fā)展以后我們對統計新數據分析的理解,更重要從應用數學(xué),和我們計算機科學(xué)整個(gè)多方面的理解。
對于云計算的大數據對于科學(xué)研究的意義是相當大的,所以我理解我們對于大數據的問(wèn)題!社會(huì )上談四維的特征,我們自己更多理解從研究角度理解大數據對計算本身產(chǎn)生什么樣的重要影響,這是我前面提到如何進(jìn)入增量型計算,如何進(jìn)入非確定性計算,如何研究歸納計算,改變我們計算機做系統的時(shí)候,把一個(gè)問(wèn)題變成N個(gè)問(wèn)題,每個(gè)問(wèn)題思考代表我們對問(wèn)題的解決。大數據下由于增量和更多不確定性,我們更多需要做綜合分析歸納的方法,對于大數據的科學(xué)計算,我們考慮數據持續增長(cháng)不斷變化特別對高實(shí)時(shí)的要求下,它的增量計算,以及把過(guò)去還原法結合的新計算。這些問(wèn)題我們看做是大數據計算和新問(wèn)題,這個(gè)也是未來(lái)大數據處理當中我們的理解和認識。
第二個(gè)問(wèn)題就是關(guān)于計算機學(xué)科的基本問(wèn)題。我們計算機做當中我們說(shuō)這事情能不能算,對計算機人來(lái)說(shuō)不是所有問(wèn)題都能算的,只有能算的問(wèn)題才配得上拿計算機算,就像我們保密、加密以10的一次方,六一次方在一定時(shí)間內不可算的問(wèn)題。我們研究基本問(wèn)題這個(gè)電視能不能計算,我們說(shuō)有五個(gè)城市能不能不重復的走遍每一點(diǎn),這是我們傳統說(shuō)TSP,不存在一種算法使得你完成一遍一遍不走其他路,比如說(shuō)電路板設計,都有很多不可計算的,算法是我們搞計算機基礎問(wèn)題,是不是能計算。
從過(guò)去有計算機以來(lái),應該說(shuō)算法研究一直是計算機科學(xué)的根本問(wèn)題,我這里只列出來(lái)從70年代到90年代有10位圖靈獎的獲得者,他們在算法和重要歷史階段獲得了計算機的最高獎,叫圖靈獎。發(fā)現有些問(wèn)題算不了,大家知道60年代美國做了長(cháng)期研究工作,其中一條和治療癌癥,登月計劃同樣重要的計劃。算法方面研究是計算機重要的研究,大數據的時(shí)代計算復雜度和算法都有新問(wèn)題。最基本原因我們非常清楚數據量如此之大,所以的機器和算法存儲能力都被占滿(mǎn)。因此作為計算機的工作者面對大數據下和新的計算模式面對新的問(wèn)題,數據不可計算和存儲下有沒(méi)有新手段支持。
我們過(guò)去研究問(wèn)題我跟大家在這里報告,目前大家全球最快硬盤(pán)讀取速度是每秒6個(gè)GB,這是線(xiàn)型掃描,掃描一個(gè)PB的數據要將近兩天,一個(gè)EB需要五年多,而百度一天處理網(wǎng)頁(yè)數量10個(gè)PB,19天你才可以把它掃描完的東西還不考慮后面的處理,顯然這方面工作大數據是大的災難,但是對研究有很多新機會(huì )。我上邊這張圖就是以世界最快掃描設備讀取最快的磁盤(pán)來(lái)說(shuō),要19天完成對它的掃描量。這樣問(wèn)題大數據傳解一定是一個(gè)難問(wèn)題,因此明明知道大數據已經(jīng)給我們帶來(lái)新的問(wèn)題,它傳統的計算復雜性在當下要求掃描完1.9TB,要求我們一分鐘就要看到一個(gè)數據,怎么定義?怎么分析?如何研究?就帶來(lái)很多問(wèn)題。這些問(wèn)題應該會(huì )對過(guò)去50年來(lái)計算復雜性算法一個(gè)重要問(wèn)題。
我這里給一張圖12年前著(zhù)名的會(huì )議上談?wù)摰氖虑椤N覀兛吹娇v軸是測試數據的準確率,橫軸是數據規模,隨著(zhù)規模增大,在小數據樣本下好算法和壞算法差異不是太大。及時(shí)是壞的算法我看縱軸1坐標下排到80%以下的識別率算法,隨著(zhù)數據規模10倍100倍1000倍變化,已經(jīng)接近最好的算法,算法的簡(jiǎn)潔等要做處理。這樣給我們帶來(lái)重新對我們復雜性分析設計的新問(wèn)題。我們科學(xué)問(wèn)題第二個(gè)情況下我們不僅過(guò)去我們考慮算法研究F的,收入是S,用F做函數得出是一個(gè)結果,過(guò)去考慮F設計如何好就可以了,現在S不是量的變化而是質(zhì)的變化下來(lái),它對算法的影響,小數據算法的好壞特別重要,大數據下算法數據受到相當大的影響。
這個(gè)必須考慮算法和數據本身不斷動(dòng)態(tài)變化如何找到和它最能逼近最近似有效的方法,這個(gè)要考慮在大數據計算當中如何找到平衡點(diǎn),這個(gè)平衡點(diǎn)需要我們在數據量算法數量三者考慮,現在F和S疊加起來(lái)考慮問(wèn)題對于我們新系統設計就要求非常多,這樣對我們計算有很多問(wèn)題。
第三個(gè)問(wèn)題就是大數據下數據沒(méi)辦法表示,大部分用新數據表示,在當前運用當中都不使,當我們一維10維到三千萬(wàn)維這些數據我們處理怎么表示。所以這些問(wèn)題我們需要從傳統計算模式走出來(lái),第二我們對于高維空間抽取的特征以及對于計算重新認識和量化。
我們看我們現在寫(xiě)微博很簡(jiǎn)單,到后臺計算機處理當中你現有方式持續不了,這個(gè)也是重要研究的機遇問(wèn)題,表示、計算、異構高于數據。我們現在計算手段只能簡(jiǎn)單的存儲,特別是每一天過(guò)去都會(huì )帶來(lái)很多新問(wèn)題。針對數據規模大,種類(lèi)雜、變化快的云計算對數據的分析和挖掘也還有新問(wèn)題。比如說(shuō)我們現在中國有四大微博系統,對于過(guò)去挖掘只在一大微博系統,對同一事物理解我用語(yǔ)言用文字用聲音圖像不同方式表現出來(lái),如何在跨越之間表示聯(lián)動(dòng)性,如何在不同領(lǐng)域遷徙。過(guò)去在單一的挖掘,從小樣空間做的數據非常漂亮,在廣域不斷擴展規模下數據處理能力,分析綜合能力都遇到很多問(wèn)題。所以對數據理解和分析就很重要。給了這么多數據你分析的結果為什么是有效可信的,所以對數據本身的理解也變了,數據的可視化更重要給出我們對多元數據異構類(lèi)的數據給出直觀(guān)可視的結果,這個(gè)也是我們對大數據模式下研究的問(wèn)題。對于云計算下大數據和云計算本身我們思考云計算是一種計算模式,背后處理是重要的,隨著(zhù)應用發(fā)展云計算的服務(wù)質(zhì)量一定會(huì )重要成為研究的內容,挖掘有效信息,糾正不確定的信息,并且能夠把多樣性的數據進(jìn)行結合,也許也是今后大數據下它的服務(wù)質(zhì)量一種新的挑戰,包括智能的搜索,我們以前是關(guān)鍵詞、文檔搜索進(jìn)入社會(huì )網(wǎng)絡(luò )當中,實(shí)際上開(kāi)始進(jìn)入(英文),這種新搜索模式也是所有互聯(lián)網(wǎng)公司發(fā)展重要的內容。
第四個(gè)重要問(wèn)題就是關(guān)于可信和隱私。我這里是幾前年的例子,當時(shí)有一家公司他可以根據你上網(wǎng)的習慣,除了名字沒(méi)有特別挖掘到,他知道他是建筑師住在什么地方,他家里人口結構,以及最近他的購買(mǎi)習慣。我們知道西方人的生日和他購買(mǎi)習慣直接關(guān)聯(lián),這些數據是絕對個(gè)人隱私,你在網(wǎng)上任何一個(gè)單位,提供家庭住址和個(gè)人的生日號碼的時(shí)候是違法是被禁止的,所以通過(guò)這樣一個(gè)網(wǎng)站分析我們可以看到,他可以把你很多相關(guān)信息都給挖掘出來(lái)。同時(shí)在社會(huì )網(wǎng)絡(luò )當中也有很多被利用作為敏感信息的發(fā)現,因此未來(lái)當大數據更多的在分析和應用之后,我們知道百度可以知道你上網(wǎng)行為,你思考的關(guān)注點(diǎn)可能性。你在淘寶的行為知道你購物習慣,在微博更多了解你在這個(gè)領(lǐng)域的思維情況,關(guān)于可信和隱私也是未來(lái)關(guān)注的問(wèn)題。
如果說(shuō)我們曾經(jīng)有過(guò)互聯(lián)網(wǎng)的快速發(fā)展基于信息服務(wù)業(yè)的話(huà),那么未來(lái)圍繞大數據或者現在的名字還叫云計算,那么新的虛擬計算模式是重要的,基本標志就是數據服務(wù)成為越多產(chǎn)業(yè)技術(shù)和研究重要的內容。計算模式的變遷可能造成時(shí)代變化。在現在探討中國互聯(lián)網(wǎng)新的價(jià)值和它的科學(xué)價(jià)值或者產(chǎn)業(yè)價(jià)值的時(shí)候,我覺(jué)得這里有我們很多機遇,我想我們也會(huì )努力探索這方面的工作。
謝謝各位!