隨著大數(shù)據(jù)工具數(shù)量的增長和計算能力的飛躍，數(shù)據(jù)科學(xué)家越來越多地發(fā)現(xiàn)，如果他們想從自己的模型中獲得最佳性能，那就必須考慮所使用的數(shù)據(jù)管道。

　　數(shù)據(jù)科學(xué)工具的功能通常圍繞著預(yù)測建模，機(jī)器學(xué)習(xí)和數(shù)據(jù)可視化。但這些工具還應(yīng)該包括后端數(shù)據(jù)管道技術(shù)，因為這有助于加快分析的速度。

　　更強(qiáng)的計算能力

　　數(shù)據(jù)科學(xué)家們通常喜歡把后端技術(shù)扔給工程師來處理。當(dāng)你的主要關(guān)注點是提高模型的預(yù)測精度或發(fā)現(xiàn)一個數(shù)據(jù)集中的未知相關(guān)性時，文件系統(tǒng)和資源管理工具通常情況下并不十分友好。

　　但隨著大數(shù)據(jù)工具數(shù)量的增長和計算能力的飛躍，數(shù)據(jù)科學(xué)家越來越多地發(fā)現(xiàn)，如果他們想從自己的模型中獲得最佳性能，那就必須考慮所使用的數(shù)據(jù)管道。

　　“有了更強(qiáng)的計算能力，我們可以進(jìn)行多次回歸操作，這很讓人興奮，”Brendan Herger，銀行和金融服務(wù)公司Capital One的數(shù)據(jù)科學(xué)家表示。“這的確有助于快速發(fā)展，因為你有了更多的可用資源，讓一切變得容易。”

　　位于McLean, Va.的Capital One公司支持各種各樣的工具，但Herger表示，大部分的分析工作是通過Hadoop分布式文件系統(tǒng)和與其對應(yīng)的YARN資源管理器完成的。在Hadoop平臺之上，他使用H2O.ai提供的機(jī)器學(xué)習(xí)軟件做了很多建模。其他數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師使用不同的前端數(shù)據(jù)科學(xué)工具，例如GraphLab，Apache Zeppelin和Tableau。據(jù)Herger所述，一個強(qiáng)大、靈活的后端系統(tǒng)可以支持大數(shù)據(jù)集的快速訪問，無視前端工具的差異性。

　　不需要進(jìn)行數(shù)據(jù)采樣

　　Herger說，這種后臺計算能力讓他能夠?qū)ν暾臄?shù)據(jù)集進(jìn)行分析，不再需要進(jìn)行數(shù)據(jù)采樣。他認(rèn)為是否取樣這個問題“幾乎類似于一個宗教問題，”分析完整的數(shù)據(jù)集有幾個很大的好處。首先它保留了完整的數(shù)據(jù)，包括所有可能存在的信號。當(dāng)數(shù)據(jù)被劃分成多個樣本時，信號可能會丟失或變得并不那么明顯。

　　“不進(jìn)行采樣，這樣對數(shù)據(jù)科學(xué)家來說是非常有意義的”Herger 說。“計算能力的提升，讓人們得以在整個數(shù)據(jù)集上運行分析，這樣的分析將越來越普遍”。

　　對于San Francisco Macys.com 公司的高級分析主任Daqing Zhao來說，擁有強(qiáng)大的數(shù)據(jù)架構(gòu)，為他的團(tuán)隊帶來的主要好處就是速度。“我們希望進(jìn)行快速原型開發(fā)，”本月在Boston舉行的TDWI Accelerate會議上，Daqing Zhao說道。

　　趙的團(tuán)隊負(fù)責(zé)優(yōu)化Macys.com網(wǎng)站，該網(wǎng)站是Macy ‘ s Inc的零售門戶。優(yōu)化工作范圍很廣，例如設(shè)計變更，進(jìn)行A / B測試，構(gòu)建產(chǎn)品推薦引擎，為每個客戶提供個性化的推薦等。他的團(tuán)隊使用的主要大數(shù)據(jù)工具是以Hadoop和Spark系統(tǒng)為基礎(chǔ)構(gòu)建的，它支持一系列分析工具，既包括SAS Institute和IBM提供的商業(yè)化分析工具，也包括一些開源工具，像H2O，R和Mahout等。

　　數(shù)據(jù)沙盒有助于數(shù)據(jù)分析

　　Zhao 要求Macys.com的數(shù)據(jù)工程團(tuán)隊在公司數(shù)據(jù)倉庫中為他的團(tuán)隊構(gòu)建數(shù)據(jù)沙盒。這允許他團(tuán)隊中的數(shù)據(jù)科學(xué)家以一種實際相關(guān)性來轉(zhuǎn)換或連接數(shù)據(jù)，而不需要在數(shù)據(jù)記錄級別進(jìn)行任何數(shù)據(jù)變更。

　　對于所有這些工具，Zhao表示，H2O在進(jìn)行預(yù)測建模尤其有用。他第一次意識這一點是在最近的一次演示某個軟件的會議上。他說，在11秒內(nèi)，工具在一個有著一億行數(shù)據(jù)的數(shù)據(jù)集上執(zhí)行一次邏輯回歸。重要的是，這些工具能夠與公司的后端數(shù)據(jù)基礎(chǔ)設(shè)施完美集成，這使得它更具有吸引力。

　　Zhao說，他現(xiàn)在沉迷于那些數(shù)據(jù)科學(xué)家可用的開源數(shù)據(jù)工具。除了其對于大數(shù)據(jù)強(qiáng)大處理能力，這些工具的背后還有著廣受歡迎的大型社區(qū)支持，這使得它更容易找到相關(guān)問題的答案。集成開源工具和數(shù)據(jù)基礎(chǔ)設(shè)施通常會存在一定的問題，因為在出現(xiàn)問題時，并沒有專業(yè)的技術(shù)支持來幫你解決。但此類工具的日益普及逐漸削弱了這個問題產(chǎn)生的影響。

　　“因為開源軟件的逐漸流行，你可以使用谷歌或在論壇里找到答案，”Zhao說。“以前你遇到開源軟件的問題，可能會感到孤立無援，現(xiàn)在不會這樣了。”

　　從數(shù)據(jù)管理中解放出來

　　當(dāng)數(shù)據(jù)科學(xué)家在后端系統(tǒng)上運行一些任務(wù)時，他將會花費更少的時間在數(shù)據(jù)管理上。

　　Colin Borys遇到的情況大致如此，Colin是Riot Games Inc.公司的數(shù)據(jù)科學(xué)家，該公司就是大名鼎鼎的對戰(zhàn)游戲LOL的開發(fā)商。在6月舊金山舉行2016 Spark Summit峰會的一次演講中，Borys表示，他的團(tuán)隊會監(jiān)控網(wǎng)絡(luò)流量，以試圖發(fā)現(xiàn)是否有玩家正在遭遇網(wǎng)絡(luò)擁堵，是否可以通過網(wǎng)絡(luò)疏導(dǎo)來提高網(wǎng)絡(luò)連通性。數(shù)據(jù)科學(xué)團(tuán)隊還開發(fā)了一個推薦引擎，建議玩家選擇不同的服務(wù)器來均衡網(wǎng)絡(luò)負(fù)載。

　　在之前，大部分工作是基于Hive上運行的臨時查詢，但Borysr認(rèn)為這種方法并不高效，不具有較好的可伸縮性。Riot Games隨后引入了Spark技術(shù)，部分原因是它想讓數(shù)據(jù)科學(xué)家在Hadoop數(shù)據(jù)上執(zhí)行SQL查詢，對于SQL，他們已經(jīng)非常熟悉。這家位于Los Angeles的公司開始使用Databricks提供的云Spark平臺，這樣不需要有專門的人來花時間管理集群。

　　在引進(jìn)的Spark之前，Borys說，數(shù)據(jù)科學(xué)家會花費大量的時間在準(zhǔn)備數(shù)據(jù)上�，F(xiàn)在他們可以利用這些時間來完成實際的數(shù)據(jù)分析。

　　“我們想要解放分析師，”他說道。“使用Spark，進(jìn)行數(shù)據(jù)分析容易的多，它也讓分析變得更為有效。”

亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩,日本久久久久,日本-区二区三区免费精品,中文字幕日本亚洲欧美不卡

大數(shù)據(jù)工具，在數(shù)據(jù)科學(xué)家眼中是怎樣的存在？

評論排行

推薦閱讀

專題

亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩,日本久久久久,日本-区二区三区免费精品,中文字幕日本亚洲欧美不卡

大數(shù)據(jù)工具，在數(shù)據(jù)科學(xué)家眼中是怎樣的存在？

評論排行

推薦閱讀

專題

大數(shù)據(jù)工具，在數(shù)據(jù)科學(xué)家眼中是怎樣的存在？