• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 新聞 > 專(zhuān)家觀(guān)點(diǎn) >

    專(zhuān)訪(fǎng)汪源:網(wǎng)易杭研為孵化創(chuàng )新而生 不止于云和大數據

    2016-12-16 16:25:39   作者:   來(lái)源:CTI論壇   評論:0  點(diǎn)擊:


      2016年,網(wǎng)易杭州研究院(以下簡(jiǎn)稱(chēng)“杭研”)成立十周年之際,我們推出系列訪(fǎng)談文章,針對親歷杭研核心技術(shù)體系變遷的數位技術(shù)大牛發(fā)問(wèn),揭秘網(wǎng)易云背后的技術(shù)脈絡(luò )、研發(fā)思想和技術(shù)人成長(cháng)的故事。本期的受訪(fǎng)嘉賓,是網(wǎng)易杭州
      2016年,網(wǎng)易杭州研究院(以下簡(jiǎn)稱(chēng)“杭研”)成立十周年之際,我們推出系列訪(fǎng)談文章,針對親歷杭研核心技術(shù)體系變遷的數位技術(shù)大牛發(fā)問(wèn),揭秘網(wǎng)易云背后的技術(shù)脈絡(luò )、研發(fā)思想和技術(shù)人成長(cháng)的故事。本期的受訪(fǎng)嘉賓,是網(wǎng)易杭州研究院執行院長(cháng)汪源。本篇介紹了杭研成立的背景和初衷,杭研技術(shù)體系的演進(jìn),當前的應用進(jìn)展,和未來(lái)的一些重點(diǎn)工作。除了云計算的實(shí)踐經(jīng)驗,汪源還解析了網(wǎng)易大數據實(shí)踐的思路和成果,并分享了企業(yè)實(shí)施大數據的關(guān)鍵步驟。
    \
      網(wǎng)易杭州研究院執行院長(cháng)汪源
      十年,杭研支撐了整個(gè)網(wǎng)易互聯(lián)網(wǎng)業(yè)務(wù)
      十年前在什么樣的情況下成立的杭研,當時(shí)的初衷是什么?
      汪源:網(wǎng)易的傳統業(yè)務(wù)板塊包括郵箱、門(mén)戶(hù)、游戲等,到2005-2006年的時(shí)候,很多創(chuàng )新的互聯(lián)網(wǎng)業(yè)務(wù)形態(tài)開(kāi)始出現,包括博客(如MSN Space)、在線(xiàn)相冊(如Flickr)等,丁總(網(wǎng)易CEO丁磊)認為互聯(lián)網(wǎng)領(lǐng)域將出現很多值得探索、孵化的業(yè)務(wù)創(chuàng )新方向,網(wǎng)易需要在原有的業(yè)務(wù)板塊之外,重新建立一個(gè)面向創(chuàng )新業(yè)務(wù)孵化、探索的獨立組織,所以成立了網(wǎng)易杭州研究院。
      成立之后,杭研做的第一個(gè)業(yè)務(wù)就是博客,博客能夠讓所有的網(wǎng)民都可以發(fā)表自己的觀(guān)點(diǎn),代表Web 2.0時(shí)代的誕生。另外,我們還做了在線(xiàn)相冊。在這些探索中,我們發(fā)現新的Web 2.0業(yè)務(wù)形態(tài)對技術(shù)的要求相比Web 1.0有了質(zhì)的飛越,需要如海量數據管理等基礎軟件的支撐,因為所有網(wǎng)民帶來(lái)的數據量,相比之前門(mén)戶(hù)網(wǎng)站至少有兩個(gè)數量級以上的提升。所以,杭研的第二個(gè)職責,就是為網(wǎng)易接下來(lái)的互聯(lián)網(wǎng)業(yè)務(wù)發(fā)展籌備基礎軟件技術(shù),構建一個(gè)現代化的互聯(lián)網(wǎng)知識體系和技術(shù)體系。
      經(jīng)過(guò)了十年的迭代,現在杭研技術(shù)體系的全貌是什么樣子?
      汪源:網(wǎng)易目前的技術(shù)體系可以總結為如下七個(gè)方面:
    1. 服務(wù)端技術(shù)和云計算體系;
    2. 整個(gè)大前端的技術(shù)體系,包含Web前端、PC客戶(hù)端和移動(dòng)端;
    3. 信息安全體系;
    4.  QA(質(zhì)量保障)體系;
    5. 運維體系;
    6.  大數據分析/挖掘體系;
    7. 感知與智能體系。
    \
      形成這個(gè)體系,這十年來(lái)重大技術(shù)變革的時(shí)間節點(diǎn)和革新的契機有哪些?
      汪源:杭研在不同時(shí)期的研發(fā)重心與整個(gè)互聯(lián)網(wǎng)環(huán)境的變化基本是一致的,當然網(wǎng)易因為體量的緣故,比一般的互聯(lián)網(wǎng)公司能夠更早地感受到新的技術(shù)需求。
    • 2006年,杭研研發(fā)核心是海量數據管理平臺,包括分布式數據庫和分布式文件系統等,也是現在網(wǎng)易對象存儲的核心組件。外部因素是Web 1.0到Web 2.0的過(guò)渡,導致網(wǎng)易整個(gè)互聯(lián)網(wǎng)產(chǎn)品對數據量的需求突然暴增。
    • 2007年,我們開(kāi)始做MapReduce這樣的分布式計算平臺,支持大規模分析。因為Web 2.0產(chǎn)品發(fā)展逐漸成熟,催生了基于大量數據統計的個(gè)性化推薦等數字化運營(yíng)模式,也帶來(lái)了大數據分析的需求。
    • 2009-2010年,重點(diǎn)是內容安全。那個(gè)時(shí)候SNS風(fēng)頭正盛,UGC(用戶(hù)生產(chǎn)內容)業(yè)態(tài)發(fā)展逐漸成熟,反垃圾需求也越來(lái)越強。
    • 2011-2012年,我們從網(wǎng)易的業(yè)務(wù)規劃,預感到有很多新業(yè)務(wù)要開(kāi)發(fā)、運維和管理,需要一個(gè)很好的基于虛擬化技術(shù)的云計算平臺來(lái)支撐,因為傳統的基于物理機的資源管理模式變得非常低效,尤其是對運維而言,所以我們構建了云計算平臺。
    • 2012-2013年,我們開(kāi)始做人工智能,這是人臉、語(yǔ)音等需求的促進(jìn)。
      基于這些技術(shù),杭研今年推出了網(wǎng)易云,根據網(wǎng)易對產(chǎn)品品質(zhì)的一貫要求,這表明了我們對技術(shù)積累較高的滿(mǎn)意度,那么能否說(shuō)我們目前的技術(shù)儲備已經(jīng)很完善了?
      汪源:技術(shù)體系其實(shí)永遠是不可能完善的,因為業(yè)務(wù)發(fā)展會(huì )不斷提出新的需求,而且一個(gè)龐大的技術(shù)體系中也會(huì )存在很多可以?xún)?yōu)化的地方。但是,有兩個(gè)事實(shí)表明我們整個(gè)技術(shù)體系是很成功的:
    1. 這套技術(shù)體系確實(shí)成為了一個(gè)統一的、標準化的平臺,承載網(wǎng)易的各個(gè)互聯(lián)網(wǎng)產(chǎn)品,無(wú)論是杭研還是非杭研的產(chǎn)品,所有的典型互聯(lián)網(wǎng)業(yè)務(wù),都在使用杭研構建的這套技術(shù)體系來(lái)支撐,網(wǎng)易內部不存在不同的技術(shù)體系。
    2. 2012-2013年,我們開(kāi)始做教育、音樂(lè )、易信,2014-2015年,我們做了電商、金融、手游等業(yè)務(wù)。這三四年,網(wǎng)易業(yè)務(wù)呈現爆發(fā)性增長(cháng)。但無(wú)論是業(yè)務(wù)范圍還是業(yè)務(wù)規模,這個(gè)技術(shù)體系都很好地完成了本職使命——在業(yè)務(wù)爆發(fā)式增長(cháng)的時(shí)候,它能夠及時(shí)地提供有力的支撐,沒(méi)有出現技術(shù)拖后腿的情況。
    \
     
      現在,我們將這個(gè)技術(shù)體系逐步產(chǎn)品化、商業(yè)化,對外提供網(wǎng)易云服務(wù),而我們的云服務(wù)也很好地支撐了很多外部客戶(hù)的業(yè)務(wù)。
      這套體系之所以能夠支撐整個(gè)網(wǎng)易互聯(lián)網(wǎng)業(yè)務(wù),您的主要經(jīng)驗是什么?
      汪源:這其中有兩個(gè)方面的原因。
    1.  技術(shù)原因:技術(shù)體系的能力可以支持各個(gè)業(yè)務(wù)的需要。例如,針對業(yè)務(wù)的高可用需求,云計算提供了基于虛擬化的集群調度能力,和很好的資源隔離機制,即多AZ(Availability Zone)機制,包括普通云主機和RDS之間相互隔離的機制,這些機制都是成規模的、可用性要求高的互聯(lián)網(wǎng)應用所需要的。不同AZ云主機一定在不同的交換機、不同的物理機下面,做到可用性隔離。我們在IaaS層設計上提供了很好的保障手段,云計算平臺可以支撐這種placement的需求。在性能方面,我們也針對網(wǎng)絡(luò )虛擬化做了很多優(yōu)化,能夠在萬(wàn)兆網(wǎng)絡(luò )條件下較好地榨干硬件的性能。所以,無(wú)論性能指標還是非功能性指標,我們都能很好地滿(mǎn)足業(yè)務(wù)的需求。
    2. 團隊原因:網(wǎng)易云計算平臺是杭研構建的,網(wǎng)易互聯(lián)網(wǎng)業(yè)務(wù)的運維也是杭研運維團隊承擔的。云計算團隊和運維團隊會(huì )聯(lián)合制定一些運維規范,除了某些特定的場(chǎng)景使用物理機之外,其他場(chǎng)景都使用標準化的網(wǎng)易云架構來(lái)部署應用。如果要把老業(yè)務(wù)從物理環(huán)境遷移到云環(huán)境,遷移工作也是杭研運維團隊來(lái)執行。所以,80%的工作只要運維團隊和云計算團隊合作就能推動(dòng),不需要和所有業(yè)務(wù)團隊去溝通,難度降低了很多。
      大數據,敏捷BI非常重要
      業(yè)界認為云計算為大數據的處理提供了基礎,對于杭研來(lái)說(shuō),云計算很好地支撐了網(wǎng)易的互聯(lián)網(wǎng)業(yè)務(wù),那么我們的大數據體系如何發(fā)揮作用?
      汪源:我們的技術(shù)通常都是幫助應用,在網(wǎng)易這樣的互聯(lián)網(wǎng)公司里面,大數據的應用層最主要的是兩種模式:
      一是服務(wù)的智能化,讓大數據實(shí)時(shí)參與業(yè)務(wù)流程,通過(guò)大數據,讓用戶(hù)體驗更好。個(gè)性化推薦是一個(gè)典型的案例,通過(guò)個(gè)性化推薦提供不同的服務(wù)內容給不同的用戶(hù);再如反垃圾技術(shù),用來(lái)給郵件自動(dòng)分類(lèi),準確分出是正常郵件、訂閱郵件還是垃圾郵件。
      二是決策的科學(xué)化。基于數據的決策、運營(yíng),如產(chǎn)品功能、模塊是否存在問(wèn)題,哪些模塊比較受歡迎,哪些模塊不太受歡迎,都根據數據結果做設計和調整;產(chǎn)品的用戶(hù)群有什么典型的特征,也可以通過(guò)大數據來(lái)做分析,得出用戶(hù)群的畫(huà)像、用戶(hù)群的行為分析結果,提供給產(chǎn)品經(jīng)理、產(chǎn)品策劃作為決策依據;在市場(chǎng)營(yíng)銷(xiāo)上,哪個(gè)渠道帶來(lái)的效果更好,也是根據數據的情況來(lái)調整。目前,網(wǎng)易的金融、教育、電商、游戲等業(yè)務(wù)都有大數據的支撐。
    \
      我們的技術(shù)如何支持這兩種模式?
      汪源:大數據應用需要優(yōu)秀的大數據系統的支持。我們圍繞Hadoop、Spark、Impala等大量開(kāi)源大數據的框架構建自己的大數據平臺,降低數據開(kāi)發(fā)的門(mén)檻,集中管理我們的數據資產(chǎn)。要降低數據開(kāi)發(fā)門(mén)檻,首先要做的是讓數據集成變的容易,一個(gè)業(yè)務(wù)的數據通常是分布在業(yè)務(wù)MySQL、Oracle等數據庫中、分散在成百上千臺的服務(wù)器的日志中,或者是存在于文件中。如何批量或者實(shí)時(shí)地把數據收集起來(lái),并同步到大數據系統里面,是大數據的第一步。所以杭研自己做了很多大數據平臺子產(chǎn)品,比如有一個(gè)產(chǎn)品叫做Data Stream,負責把海量的線(xiàn)上日志數據和MySQL、Oracle等數據庫的數據實(shí)時(shí)同步到大數據平臺的中。 其次,我們通過(guò)可視化界面和SQL簡(jiǎn)化數據處理過(guò)程, 使得普通的服務(wù)端開(kāi)發(fā)人員也能很快上手數據開(kāi)發(fā)。網(wǎng)易有很多大型產(chǎn)品,每個(gè)大型產(chǎn)品都有大量數據表,所以沒(méi)有一個(gè)人能完全知道每張數據表的作用,當然更不知道每個(gè)字段的含義,不知道數據表的計算過(guò)程。為管理這些數據資產(chǎn),首先,我們的平臺得提供好的數據組織方式,使得數據使用人員能夠找到高質(zhì)量的數據,促進(jìn)數據在產(chǎn)品間共享,推動(dòng)數據價(jià)值挖掘。其次,平臺還要提供細粒度的權限控制和操作審計,確保數據使用安全。
      企業(yè)利用大數據驅動(dòng)業(yè)務(wù)發(fā)展,您還有哪些比較好的經(jīng)驗可以分享?
      汪源:企業(yè)在實(shí)施大數據,第一步就是剛才說(shuō)的,要考慮數據集成問(wèn)題。第二步,應該要有很熟悉業(yè)務(wù)領(lǐng)域的人,梳理數據的模式,梳理數據倉庫的ETL、建模等工作,才能使后續的大數據應用有一個(gè)比較好的數據倉庫基礎。比如一個(gè)產(chǎn)品,原始數據是日志、數據庫的數據,通過(guò)數據集成技術(shù)集成到大數據平臺里面來(lái),都是可以訪(fǎng)問(wèn)的,假設這個(gè)產(chǎn)品要基于大數據做5件事情,這個(gè)時(shí)候不應該直接由5個(gè)人分頭做這五件事情,應該先由1-2個(gè)人針對這個(gè)數據做一個(gè)很好的數據倉庫的建模設計,把核心的主題、Feature梳理出來(lái),為后面的5個(gè)人提供幫助,不然這5個(gè)人需要做很多重復性的工作和很多重復性的計算。
      第三,敏捷BI是非常重要的。當前利用數據提升服務(wù)和決策能力的理念已經(jīng)深入人心,整個(gè)組織的不同角色都要從不同角度關(guān)注數據,老板、高層、中層甚至基層都有可能需要用數據來(lái)做工作的分析和決策,整個(gè)大數據的使用場(chǎng)景在組織中是分布式存在的,所以需要企業(yè)大數據分析能力很好地賦能,讓組織中的各個(gè)角色都能夠比較方便地獲得想要的大數據分析能力。大數據具有“3V”的特點(diǎn),并且數據往往是分散在不同的業(yè)務(wù)系統,傳統BI 使用門(mén)檻高,以IT人員為中心,業(yè)務(wù)人員要把需求提交給IT人員,IT人員排班、建立數據模型、制作報表,往往要幾天甚至幾周,無(wú)法做到實(shí)時(shí)指導決策;如果IT人員對需求理解錯誤,或者業(yè)務(wù)根據當前報表要做進(jìn)一步的分析,這個(gè)過(guò)程還要循環(huán),業(yè)務(wù)上錯失良機的概率就更大了。
      對于這樣的挑戰,網(wǎng)易已經(jīng)有了解決方案,我們研發(fā)的敏捷BI工具網(wǎng)易有數,具有數據可視化、實(shí)時(shí)多維分析的能力,在網(wǎng)易內部已經(jīng)有很多的應用。敏捷BI以業(yè)務(wù)人員為中心,更理解業(yè)務(wù)和需求的業(yè)務(wù)人員可以自助分析,結果是多贏(yíng)的:IT部門(mén)可以在管控權限的基礎上從大量枯燥的提數需求中解放出來(lái);業(yè)務(wù)部門(mén)可以根據業(yè)務(wù)情況進(jìn)行實(shí)時(shí)分析,根據分析結果調整業(yè)務(wù),再根據數據來(lái)驗證調整的結果;管理者可以隨時(shí)隨地了解經(jīng)營(yíng)數據狀況。這種結果也是傳統大中型企業(yè)數字化轉型所需要的,我們將會(huì )輸出這方面的能力,助力他們數字化轉型。
      未來(lái),共創(chuàng )云上精彩世界
      您如何看待杭研未來(lái)發(fā)展面臨的挑戰?
      汪源:杭研面臨的主要挑戰是商業(yè)化層面。杭研的基礎,主要在于工程技術(shù)方面,也有一些產(chǎn)品方面的技術(shù),但面向企業(yè)級市場(chǎng)的商業(yè)化能力是我們的弱項,這是我們面臨的一個(gè)很大的挑戰。應對這個(gè)挑戰有兩條路,一是仔細選擇特定的行業(yè)、領(lǐng)域,有針對性地構建比較強的面向企業(yè)的商業(yè)化團隊和能力,包括銷(xiāo)售、售前咨詢(xún)、交付實(shí)施、售后服務(wù)等方面的能力,但是我們不會(huì )鋪開(kāi)來(lái)做,只選擇一些網(wǎng)易比較擅長(cháng)的領(lǐng)域,或者自認為能夠聚焦、專(zhuān)注做的領(lǐng)域。其次,就是我們的產(chǎn)品要和第三方合作伙伴進(jìn)行開(kāi)放合作,共創(chuàng )云上精彩世界。
    \
      網(wǎng)易技術(shù)商業(yè)化最典型的是網(wǎng)易云,丁總說(shuō)網(wǎng)易云要解放程序員,您認為我們現在距離這個(gè)目標還有多遠?
      汪源:解放程序員,就是讓程序員從那些低級、繁瑣的工作中解脫出來(lái),做一些有價(jià)值、有創(chuàng )造力的工作。通過(guò)技術(shù)的手段,把底層基礎的重復性工作封裝成現成可用的解決方案,就達到解放程序員的目的。其實(shí)網(wǎng)易技術(shù)體系一直都在解放程序員,我們非常關(guān)注這件事情。比如我們在做一個(gè)大數據的Benchmark,傳統的Benchmark是比拼性能的,但我們是用來(lái)比較哪種大數據編程模型的編程效率最高,而不是運行效率最高,這就是典型的重視解放程序員的思路。
      至于說(shuō)解放到多大的程度,我們確實(shí)有一些統計數據。比如整個(gè)前端開(kāi)發(fā),使用網(wǎng)易大前端的技術(shù)框架,工作效率可以提高1倍;如果程序員不僅僅指開(kāi)發(fā),還包括運維,我們也針對云計算對運維效率的提升做過(guò)統計,包括創(chuàng )建主機、部署數據庫、發(fā)布上線(xiàn)等20多個(gè)常見(jiàn)工作,使用云計算平臺,相比之前使用物理環(huán)境,通常可以節約80%的工作量。這些側面不是主觀(guān)感知,是我們花了比較多的精力,從具體數據統計得到的結論,是可以說(shuō)明問(wèn)題的。但是解決了這些問(wèn)題之后,還有很多解放程序員的事情可以繼續做,而程序員會(huì )越來(lái)越走向更高附加值的工作,可以直接和業(yè)務(wù)掛鉤。
      從另一個(gè)角度來(lái)看,機器運行效率可以通過(guò)硬件升級、軟件優(yōu)化等方式解決,而硬件成本越來(lái)越低,但人力成本會(huì )越來(lái)越高,所以重點(diǎn)關(guān)注提高人的勞動(dòng)效率,而不是機器運算效率,也符合商業(yè)規律。所以我們不僅解放網(wǎng)易的程序員,也要通過(guò)網(wǎng)易云解放別人家的程序員。
      談到“共創(chuàng )云上精彩世界”,未來(lái)還要做哪些事情?
      汪源:網(wǎng)易云不同于一些典型的IaaS云,是有很多場(chǎng)景化的能力的。要把網(wǎng)易云做好,讓這些場(chǎng)景化的能力落到實(shí)處,更加需要和合作伙伴一起開(kāi)拓市場(chǎng)。這些典型的場(chǎng)景化能力,可以集成到合作伙伴面向某個(gè)業(yè)務(wù)的解決方案中去。通過(guò)場(chǎng)景化的能力跟合作伙伴之間有一個(gè)集成的關(guān)系,形成網(wǎng)易云的一個(gè)生態(tài)構建,最終獲得市場(chǎng)成功。生態(tài)不是我們獨家的想法,但我們更加強調生態(tài)中我們不尋求主導地位。我們的產(chǎn)品線(xiàn)和網(wǎng)易找業(yè)務(wù)場(chǎng)景、找應用的風(fēng)格一脈相承,自然而然形成一種格局,未來(lái)會(huì )越來(lái)越強調這種格局,通過(guò)比較擅長(cháng)的場(chǎng)景化能力輸出,來(lái)實(shí)現網(wǎng)易云業(yè)務(wù)的成長(cháng)。
      大數據方面也可以做類(lèi)似的事情。比如敏捷BI工具網(wǎng)易有數,我們正在致力于讓它能夠和不同行業(yè)的集成商、軟件提供商做一個(gè)很好的集成,讓數據可視化能力可以集成到各個(gè)面向業(yè)務(wù)的解決方案中去,因為網(wǎng)易不可能把所有行業(yè)解決方案都做出來(lái),也沒(méi)有必要做,關(guān)鍵是把核心敏捷BI平臺做好,之后就跟很多生態(tài)合作伙伴來(lái)合作。

    專(zhuān)題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 嘉禾县| 北流市| 堆龙德庆县| 砀山县| 宽甸| 贵南县| 和硕县| 安义县| 龙川县| 德江县| 汉中市| 和硕县| 黄平县| 桃江县| 内乡县| 长海县| 英超| 赤水市| 花垣县| 化德县| 中卫市| 清远市| 北川| 绵竹市| 三亚市| 宿州市| 禹州市| 贡山| 苏尼特右旗| 平定县| 民权县| 兴山县| 任丘市| 宿松县| 濮阳市| 泗水县| 吉林省| 五大连池市| 阳谷县| 高安市| 玛纳斯县| http://444 http://444 http://444 http://444 http://444 http://444