2月5日消息 美國硅谷,這個(gè)孕育全球互聯(lián)網(wǎng)公司的地方已經(jīng)誕生了包括Oracle、Facebook、LinkedIn、Apple這樣國際巨頭,還包括Yelp、Airbnb這樣的創(chuàng )新產(chǎn)品。
無(wú)論是市值過(guò)千億的公司,亦或是誕生數月的初創(chuàng )公司,創(chuàng )新無(wú)疑已經(jīng)成為了唯一的生存之道。
受百度之邀,DoNews記者探訪(fǎng)了位于硅谷腹地的百度美國研究中心,Microsoft、Google、Amazon近在咫尺。正如百度美研高級技術(shù)總監呂厚昌介紹,百度美國研究中心所擔負的任務(wù)是解決最富有挑戰的問(wèn)題。
那么,什么才是最富有挑戰的問(wèn)題呢?百度美研資深架構師James Peng透露,2014年百度頒發(fā)了6個(gè)百萬(wàn)美金大獎,其中有4個(gè)就被美研團隊拿到了,這可以解釋百度美研在百度整體架構的重要性,也完全有能力去解決最富有挑戰性的問(wèn)題。
數據與效能的平衡
百度美研資深架構師James Peng介紹稱(chēng),大數據是目前百度美研最重要的項目之一。通俗的講,大數據就是按照一定的規則將有效的數據中海量的數據中提取出來(lái)并加以處理和研究。
James Peng表示,目前百度已經(jīng)可以獲得基礎的數據,但是數據量驚人,而處理這些海量數據的工作量就變得異常驚人,即便是通過(guò)大規模服務(wù)器集群來(lái)計算時(shí)間也變得非常長(cháng)。
等計算機將有效的數據提取出來(lái)也早已失去了時(shí)效性,而百度美研正在處理這些棘手的問(wèn)題,將大數據處理的質(zhì)量和速度大幅度提升,從而真正的將大數據造福于用戶(hù)。
打造綠色的數據中心
對于百度、Google、Facebook這樣的巨頭互聯(lián)網(wǎng)公司,每天都會(huì )接受到全球數百億、數千億次的訪(fǎng)問(wèn)請求,而處理這些不同的服務(wù)請求就需要大規模的服務(wù)器集群來(lái)計算,簡(jiǎn)而言之,服務(wù)器數量越多,反饋給用戶(hù)的速度就會(huì )越快,那問(wèn)題也會(huì )隨之而來(lái),如何才能將大規模的服務(wù)器集群的計算效率變得更高?
百度美研高級技術(shù)總監呂厚昌表示,百度美研另一項最重要的工作就是打造全球最綠色的數據中心,百度位于山西陽(yáng)泉的數據中心就由百度美研所參與。
陽(yáng)泉數據中心是世界首個(gè)支持深度學(xué)習的GPU計算環(huán)境,中心擁有300萬(wàn)內核的計算能力以及4000PB的數據量。
最值得一提的就是PUE,陽(yáng)泉數據中心的PUE小于1.3,呂厚昌詳細解釋了PUE<1.3的意義,1.3度電進(jìn)入到機房,其中有1度電用戶(hù)數據計算,0.3用于散熱等基礎設施,呂厚昌稱(chēng),PUE<2在業(yè)內都在接受范圍之內,假設PUE=2就意味著(zhù)有50%的電能會(huì )被浪費掉。
深度學(xué)習的全球地位
Deep Text、Deep Image及Deep Speech是百度美研的三大深度學(xué)習項目,James Peng介紹道,目前全球的研究成果在Deep Text方面的差距都不大,Deep Image及Deep Speech由于收到客觀(guān)因素的影響,各公司的研究成果就會(huì )存在差異,而百度在這兩方面已經(jīng)站在了世界前列。
Deep Speech主要是針對語(yǔ)音識別的研究項目,在無(wú)噪音環(huán)境下,包括Apple、Google在內的研究項目基本都差不多,噪音環(huán)境下的識別能力才是關(guān)鍵。
James Peng介紹,目前百度Deep Speech在噪音環(huán)境中的測試成績(jì)已經(jīng)能夠超越同類(lèi)研究項目,將識別錯率降低到了20%以下。
人工智能的深度學(xué)習項目目前還處于實(shí)驗室研究階段,暫時(shí)還沒(méi)有進(jìn)入產(chǎn)品階段。