
程式碼托管服務(wù)GitLab釋出數據科學(xué)團隊的解決方案Meltano,可用於處理數據的提取、載入和轉換等工作。Meltano并沒(méi)有與GitLab原本的服務(wù)綑綁在一起,而是成為一個(gè)單獨產(chǎn)品,目的在於填補通用數據應用在不同部門(mén)間的鴻溝,讓企業(yè)達成客戶(hù)支援、產(chǎn)品團隊、銷(xiāo)售與行銷(xiāo)等工作。
GitLab提到,他們遇到跟大多數企業(yè)一樣的問(wèn)題,在工程部門(mén)擁有大量的數據,但是要將這些數據應用在實(shí)際解決業(yè)務(wù)問(wèn)題,仍有一大段距離。於是GitLab開(kāi)發(fā)了Meltano來(lái)克服這個(gè)難題,Meltano解決方案提供建模、提取、載入、轉換、分析、筆記本與協(xié)作等功能,也就是說(shuō)整個(gè)數據科學(xué)的生命周期,都是Meltano的支援范圍。
GitLab數據分析團隊從外部資源取得了大量數據,并轉換成可用格式,提供給公司內的其他業(yè)務(wù)部門(mén)使用者,并最終根據數據進(jìn)行結果預測。GitLab表示,與多數數據團隊相同,他們目前還是透過(guò)一系列的步驟與各自獨立的工具來(lái)完成這個(gè)目標,整個(gè)流程并不順暢也沒(méi)有達到足夠穩定的水準。
他們希望可以使用最佳實(shí)踐的方法,來(lái)進(jìn)行數據分析的工作,所有工作都使用開(kāi)源工具,并能夠進(jìn)行版本控制,還可以對數據到視覺(jué)化的分析工作管線(xiàn)進(jìn)行追蹤。GitLab提到,Meltano的最終目標就是要讓企業(yè)內每個(gè)人都可以輕易上手,并著(zhù)手進(jìn)行數據分析,而不僅是數據科學(xué)家。
GitLab數據分析師Emilie Burke提到,許多中小型企業(yè)無(wú)法進(jìn)行數據分析的工作,是因為他們團隊中缺乏工程師,只能透過(guò)現存的工具產(chǎn)生報告,但是在依賴(lài)這些孤立的數據時(shí),也就代表無(wú)法進(jìn)行跨功能的分析。他舉例,像是店家進(jìn)行促銷(xiāo)活動(dòng),接收到了許多帳號申請的郵件,但是卻無(wú)法與Shopify的數據交叉比對,知道那些申請者有在Shopify購買(mǎi)商品,除非後端的數據能夠串接起來(lái)。
Meltano作為一個(gè)開(kāi)源工具,企業(yè)不需要投入太多的資源來(lái)建立數據分析團隊。目前Meltano還只支援Postgres,而Snowflake正在開(kāi)發(fā)中,但是Meltano需要能夠支援更多數據庫類(lèi)型,因此GitLab團隊邀請有意愿的貢獻者可以加入開(kāi)發(fā)Meltano的行列。