2大型科技公司對注釋數據的工作往往保持沉默,因為他們面臨著(zhù)隱私維權人士對他們存儲并與外部企業(yè)共享大量個(gè)人數據的擔憂(yōu)加劇。
3數以萬(wàn)計的上班族和通常在家里工作的獨立承包商,正通過(guò)AmazonMechanicalTurk等眾包服務(wù)對數據進(jìn)行注釋和貼標簽,每個(gè)標簽只能賺幾分錢(qián)。
騰訊科技訊8月17日消息,據外媒報道,在距離孟加拉灣約60公里遠的印度布巴內斯瓦爾市中心,納米塔·普拉丹(NamitaPradhan)坐在辦公桌前,盯著(zhù)世界另一端某家醫院錄制的視頻。
視頻顯示了某人結腸的內部,普拉丹正通過(guò)視頻尋找息肉,即大腸中可能導致癌癥的小腫塊,看起來(lái)有點(diǎn)兒像黏糊糊的痘痘。當她找到息肉時(shí),會(huì )用她的電腦鼠標和鍵盤(pán)標記,在這個(gè)小凸起周?chē)?huà)個(gè)數字圓圈。普拉丹沒(méi)有接受過(guò)專(zhuān)門(mén)的醫學(xué)培訓,但她正在幫助訓練一個(gè)人工智能(AI)系統,這個(gè)系統最終可以完成醫生的工作。

在一座小型辦公樓的四樓,數十名印度年輕男女在辦公桌前認真工作,普拉丹就是其中之一。他們接受的訓練是對各種數字圖像進(jìn)行注釋?zhuān)瑥慕值缊?chǎng)景中的停車(chē)標志和行人,再到衛星照片中的工廠(chǎng)和油罐車(chē),他們都能精確定位。
科技行業(yè)的大多數人都會(huì )告訴你,AI是他們行業(yè)的未來(lái),這項技術(shù)正在快速發(fā)展,這要歸功于一種叫做機器學(xué)習的東西。但科技公司的高管很少討論其創(chuàng )建過(guò)程中的勞動(dòng)密集型努力。AI正在向人類(lèi)學(xué)習,而且是向很多人類(lèi)學(xué)習。
但在A(yíng)I系統能夠學(xué)習之前,必須有人標記提供給它的數據。例如,人類(lèi)必須精確定位息肉。這項工作對自動(dòng)駕駛汽車(chē)、監控系統和自動(dòng)化醫療等AI的創(chuàng )造至關(guān)重要。然而,科技公司對這項工作保持沉默,因為他們面臨著(zhù)隱私維權人士對他們存儲并與外部企業(yè)共享大量個(gè)人數據的擔憂(yōu)加劇。
今年早些時(shí)候,資深科技編輯凱德·梅茨(CadeMetz)設法幫我們了解下AI培訓的幕后場(chǎng)景,這是硅谷奇才們很少會(huì )同意的。梅茨在印度進(jìn)行了一次漫步旅行,走訪(fǎng)了五個(gè)辦公室,那里的人們正在從事培訓AI系統所需的、幾乎沒(méi)有終點(diǎn)的重復工作,所有這些工作都由名為iMerit的公司運營(yíng)。
有像普拉丹女士這樣的腸道測量師和區分咳嗽好壞的專(zhuān)家,有語(yǔ)言專(zhuān)家和識別街景標識的專(zhuān)業(yè)人士。什么是行人?那是雙黃線(xiàn)還是虛白線(xiàn)?將來(lái),機器人汽車(chē)需要知道其中的區別。

圖2:iMerit員工必須為他們貼標簽的工作學(xué)習不同尋常的技能,比如在人體腸道上發(fā)現有問(wèn)題的息肉
梅茨所看到的場(chǎng)景看起來(lái)不太像我們想象中的未來(lái),或者至少是你可能想象的自動(dòng)化未來(lái)。辦公室可以是呼叫中心或支付處理中心,其中一個(gè)位于加爾各答西部低收入居民區中央的一棟舊式公寓樓中,那里擠滿(mǎn)了行人、汽車(chē)三輪車(chē)和街頭小販。在他參觀(guān)過(guò)的布巴內斯瓦爾以及印度、尼泊爾、菲律賓、東非和美國的其他城市,數以萬(wàn)計的上班族都在致力于訓練機器。
還有數萬(wàn)名工人,也就是通常在家里工作的獨立承包商,也通過(guò)AmazonMechanicalTurk等眾包服務(wù)對數據進(jìn)行注釋?zhuān)@種服務(wù)讓任何人都可以將數字任務(wù)分配給美國和其他國家的獨立工人,工人們每個(gè)標簽能掙幾分錢(qián)。
總部設在印度的iMerit,為科技和汽車(chē)行業(yè)的許多大牌公司貼數據標簽。該公司以保密協(xié)議為由,拒絕公開(kāi)這些客戶(hù)的名字。但該公司最近透露,其在全球九個(gè)辦事處的2000多名員工正在為亞馬遜的在線(xiàn)數據標簽服務(wù)Sage Maker Ground Truth做出貢獻。之前,它還將微軟列為客戶(hù)。

圖3:在印度加爾各答Metiabruz社區的iMerit辦公室展示的藝術(shù)品
可以肯定的是,AI將來(lái)可能會(huì )掏空就業(yè)市場(chǎng)。但就目前而言,它正在創(chuàng )造收入相對較低的工作崗位。根據研究公司Cognilytica的數據,2018年數據標簽市場(chǎng)價(jià)值超過(guò)5億美元,到2023年將達到12億美元。研究表明,這類(lèi)工作占建設AI技術(shù)所花費時(shí)間的80%。
這項工作是剝削性的嗎?這取決于你住在哪里,你在做什么。在印度,這是通往中產(chǎn)階級的門(mén)票。在美國新奧爾良,這是一份體面的工作。但對于作為獨立承包商的人來(lái)說(shuō),這往往是一條“不歸路”。
有些技能是必須學(xué)習的,比如在視頻或醫學(xué)掃描中發(fā)現疾病的跡象,或者在汽車(chē)或樹(shù)的圖像周?chē)?huà)數字套索時(shí)保持手部穩定。在某些情況下,當任務(wù)涉及醫療視頻、色情或暴力圖像時(shí),工作就會(huì )變得可怕。
克里斯蒂·米蘭德(Kristy Milland)說(shuō):“當你第一次看到這些東西時(shí),會(huì )深深地感到不安。你不想回去工作,你可能不會(huì )回去工作了。”米蘭德花了數年時(shí)間在A(yíng)mazon Mechanical Turk上做數據標簽工作,現在已經(jīng)成為代表這項服務(wù)的工人的勞工維權人士。她稱(chēng):“對于我們這些負擔不起失去工作的人來(lái)說(shuō),你就只能繼續忍受。”
在去印度之前,梅茨曾試著(zhù)在眾包服務(wù)上給圖片貼上標簽,在耐克標識周?chē)?huà)數字框,并識別“工作不安全”的圖片。他當時(shí)顯得非常笨拙。在開(kāi)始工作之前,他必須通過(guò)測試,但卻接連失敗了三次。給圖像貼上標簽以便人們可以立即在網(wǎng)站上搜索零售商品,更不用說(shuō)花時(shí)間將裸體女性和性玩具的粗糙圖像識別為“NSFW”,并不完全是鼓舞人心的。
AI研究人員希望他們能夠建立能從少量數據中學(xué)習的系統。但在可預見(jiàn)的未來(lái),人類(lèi)的勞動(dòng)依然是必不可少的。微軟的人類(lèi)學(xué)家瑪麗·格雷(MaryGray)說(shuō):“這是個(gè)隱藏在技術(shù)之下、不斷擴張的世界,很難將人類(lèi)排除在循環(huán)之外。”
寺廟之城

圖4:?jiǎn)T工離開(kāi)印度布巴內斯瓦爾的iMerit辦公室,這家私人公司是由Radha和DipakBasu創(chuàng )立的,他們都在硅谷工作過(guò)很長(cháng)時(shí)間
布巴內斯瓦爾又被稱(chēng)為“寺廟之城”。古老的印度教圣地矗立在城市西南端的路邊市場(chǎng)上,包括可以追溯到公元10世紀的巨型石塔。在市中心,許多街道沒(méi)有鋪設路面。奶牛和野狗在輕便摩托車(chē)、小汽車(chē)和卡車(chē)之間徘徊。
這座城市擁有83萬(wàn)人口,也是一個(gè)快速增長(cháng)的在線(xiàn)勞動(dòng)力中心。從寺廟出發(fā)大約15分鐘的車(chē)程,在市中心附近一條鋪好路面的路上,一座白色的四層建筑坐落在一堵石墻后面。里面有三個(gè)房間,房間里擺滿(mǎn)了長(cháng)長(cháng)的桌子,每個(gè)都有自己的寬屏電腦顯示屏。這就是普拉丹女士給視頻貼標簽的地方。
24歲的普拉丹在城外長(cháng)大,并從當地一所大學(xué)獲得了學(xué)位,在接受iMerit的工作之前,她在那里學(xué)習生物學(xué)和其他學(xué)科。這是她哥哥推薦的工作,他本人此前已經(jīng)在公司工作了。普拉丹在工作日時(shí)住在她辦公室附近的一家旅社,每個(gè)周末都乘公交車(chē)回家。
梅茨曾在今年1月份參觀(guān)了普拉丹的辦公室。許多身穿印度傳統服裝、帶著(zhù)長(cháng)長(cháng)金耳環(huán)的女士坐在長(cháng)長(cháng)的桌子旁,普拉丹女士穿著(zhù)一件綠色的長(cháng)袖襯衫、黑色的褲子和白色的系帶鞋,為美國的一位客戶(hù)注釋視頻。在通常每天8小時(shí)的工作中,這位害羞的女士觀(guān)看了十幾個(gè)結腸鏡檢查視頻,不斷地倒轉視頻,以便更近距離地查看各個(gè)幀。
每隔一段時(shí)間,普拉丹就會(huì )找到她想要的東西,她會(huì )用數字“包圍盒”套住它。她畫(huà)了數百個(gè)這樣的包圍盒,給息肉和其他疾病征兆貼上標簽,比如血塊和炎癥。

圖5:普拉丹(右二)在布巴內斯瓦爾的iMerit辦公室和同事們一起工作
普拉丹的客戶(hù)是美國的一家公司,iMerit不允許透露它的名字,它最終將把普拉丹的工作輸入給AI系統,這樣它就可以學(xué)會(huì )自己識別醫療狀況。結腸鏡的主人不一定知道視頻的存在,普拉丹女士也不知道這些視頻是從哪里來(lái)的,iMerit也是如此。
普拉丹女士在與一位非實(shí)習醫生進(jìn)行為期七天的在線(xiàn)視頻通話(huà)時(shí)學(xué)會(huì )了這項任務(wù)。這位醫生住在美國加州奧克蘭,幫助培訓許多iMerit辦公室的工作人員。但是有些人質(zhì)疑,是否應該由經(jīng)驗豐富的醫生和醫學(xué)生自己做這類(lèi)標簽。
威爾·康奈爾醫學(xué)(Weill Cornell Medicine)和紐約長(cháng)老會(huì )醫院(New York-Presbyterian)的放射學(xué)家、初創(chuàng )公司MD。ai。的聯(lián)合創(chuàng )始人喬治·施(GeorgeShih)博士說(shuō),這項工作需要“有醫學(xué)背景,并具備解剖學(xué)和病理學(xué)相關(guān)知識的人”。MD。ai。幫助企業(yè)為醫療保健構建AI。
在聊起普拉丹的工作時(shí),她說(shuō)那“很有趣”,但是很累。至于視頻的圖形化本質(zhì)?她承認:“一開(kāi)始很惡心,但后來(lái)你就習慣了。”
普拉丹標注的圖像很可怕,但沒(méi)有iMerit處理的其他圖像那么可怕。他們的客戶(hù)也在建立AI,可以識別和刪除社交網(wǎng)絡(luò )和其他在線(xiàn)服務(wù)上不想要的圖片。這意味著(zhù)需要標注色情、暴力和其他有害的圖像。
這項工作可能會(huì )讓從業(yè)者感到非常不安,iMerit試圖限制他們審查這類(lèi)內容的數量。在A(yíng)I初創(chuàng )企業(yè)Clarifai負責數據注釋工作的利茲·奧沙利文(LizO‘Sullivan)表示,色情和暴力與更無(wú)害的圖片混合在一起,那些貼上可怕標簽的圖片被隔離在不同的房間里,以保護其他員工。奧沙利文曾與iMerit在此類(lèi)項目上密切合作。
奧沙利文說(shuō),其他標簽公司將讓員工對這些圖片進(jìn)行無(wú)限數量的注釋。她指出:“如果這會(huì )導致創(chuàng )傷后應激障礙或者更糟情況,我不會(huì )感到驚訝。在道德上不受譴責的公司根本不愿意承擔這樣的責任。你必須用其他工作來(lái)填充色情和暴力,這樣工人就不必看色情和斬首等內容。”
iMerit在一份聲明中表示,它不會(huì )強迫員工查看色情或其他攻擊性?xún)热荩挥性谟兄诟纳票O控系統的情況下才會(huì )承擔這項工作。據一位公司高管透露,普拉丹和其他貼標員每月的收入在150美元到200美元之間,同時(shí)可為iMerit帶來(lái)800美元到1000美元的收入。
按照美國的標準,普拉丹的工資低得不像話(huà)。但對于她和這些辦公室的其他許多人來(lái)說(shuō),這大約與數據錄入工作的平均工資差不多。盡管工作單調乏味,但它能幫助付得起公寓的費用。

圖6:iMerit員工普拉森吉特·拜迪亞與妻子派克在西孟加拉邦工作,他很滿(mǎn)意當前的工作
普拉森吉特·拜迪亞(Prasenjit Baidya)在距離印度東海岸、西孟加拉邦最大城市加爾各答約50公里的農場(chǎng)長(cháng)大。他的父母和大家庭仍然住在他兒時(shí)的家中,那是19世紀初建造的磚房。他們在周?chē)奶锢锓N植水稻和向日葵,并在鋪滿(mǎn)屋頂的地毯上烘干種子。
他是家里第一個(gè)接受大學(xué)教育的人,其中包括電腦課。但是學(xué)校沒(méi)有教他那么多知識,教室里平均25個(gè)學(xué)生才能分配到一臺電腦。大學(xué)畢業(yè)后,他自學(xué)了計算機技能,當時(shí)他報名參加了名為Anudip的非營(yíng)利組織舉辦的培訓課程。這是一位朋友推薦的,每月的費用相當于5美元。
Anudip在印度各地開(kāi)設英語(yǔ)和計算機課程,每年培訓約22000人。這家機構直接將學(xué)生推薦給iMerit,它的創(chuàng )始人在2013年將iMerit作為姐妹業(yè)務(wù)建立起來(lái)。通過(guò)Anudip,拜迪亞在加爾各答的一家iMerit辦公室找到了工作,他的妻子巴納利·派克(BarnaliPaik)也是如此,她在附近的一個(gè)村莊長(cháng)大。
在過(guò)去的六年中,iMerit從Anudip雇傭了超過(guò)1600名學(xué)生。目前,該公司的員工總數約為2500人,其中超過(guò)80%的人來(lái)自月收入低于150美元的家庭。
iMerit成立于2012年,仍然是一家私人公司,它讓員工執行數字任務(wù),比如轉錄音頻文件或識別照片中的物體。全球各地的企業(yè)付錢(qián)給公司,而且越來(lái)越多地,他們在協(xié)助AI訓練方面的工作。與丈夫迪帕克(Dipak)共同創(chuàng )立了Anudip和iMerit的拉達·巴蘇(RadhaBasu)說(shuō):“我們想讓低收入背景的人進(jìn)入科技行業(yè)。”巴蘇和迪帕克在硅谷與科技巨頭思科、惠普等長(cháng)期合作。
這些工人的平均年齡是24歲。像拜迪亞一樣,他們中的大多數人來(lái)自農村。該公司最近在加爾各答西部以穆斯林為主的社區Metiabruz開(kāi)設了一家新的辦事處。在那里,它雇傭的大多是穆斯林婦女,她們的家人不愿意讓她們離開(kāi)這個(gè)熙熙攘攘的地區。他們沒(méi)有被要求看色情圖片或暴力材料。

圖7:iMerit員工在加爾各答Metiabruz的辦公室接受培訓
起初,iMerit專(zhuān)注于簡(jiǎn)單的任務(wù),為在線(xiàn)零售網(wǎng)站整理產(chǎn)品清單,審查社交媒體上的帖子,但它已經(jīng)轉移到了為AI提供支持的工作中。iMerit和類(lèi)似公司的增長(cháng)代表著(zhù)從像Mechanical Turk這樣的眾包服務(wù)的轉變。iMerit及其客戶(hù)可以更好地控制員工的培訓方式和工作完成方式。
拜迪亞現在是iMerit的經(jīng)理,他負責為美國一家大公司為培訓無(wú)人駕駛汽車(chē)所使用的街道場(chǎng)景貼上標簽的工作。他的團隊對數字照片以及激光雷達捕獲的三維圖像進(jìn)行分析和標記。他們整天都在汽車(chē)、行人、停車(chē)標志和電線(xiàn)周?chē)?huà)邊界框。
拜迪亞說(shuō)這份工作可能會(huì )很乏味,但它給了他一種他本來(lái)可能不會(huì )擁有的生活。他和妻子最近在加爾各答買(mǎi)了一套公寓,步行就可到達她工作的iMerit辦公室。拜迪亞說(shuō):“我的生活發(fā)生了夢(mèng)幻般的變化,無(wú)論是從我的財務(wù)狀況、個(gè)人經(jīng)歷以及英語(yǔ)技能等方面來(lái)看,都是如此。我獲得了一個(gè)機會(huì )!”
聽(tīng)人們咳嗽
圖8:在iMerit新奧爾良辦公室工作的奧斯卡·卡貝薩斯(OscarCabezas)。當公司開(kāi)始開(kāi)發(fā)西班牙語(yǔ)數字助理時(shí),他加入了公司
印度之行幾周后,梅茨乘坐Uber穿過(guò)新奧爾良市中心。大約18個(gè)月前,iMerit搬進(jìn)了Superdome街對面的一棟建筑。美國一家大科技公司需要一種為其家庭數字助理的西班牙語(yǔ)版本標記數據的方法。因此,它將數據發(fā)送到新奧爾良的新iMerit辦公室。

2005年卡特里娜颶風(fēng)過(guò)后,數百名建筑工人和他們的家人搬到新奧爾良幫助重建這座城市,很多人留了下來(lái)。許多會(huì )說(shuō)西班牙語(yǔ)的人隨這支新的員工隊伍而來(lái),公司開(kāi)始雇用他們。
23歲的奧斯卡·卡貝薩斯(Oscar Cabezas)和母親從哥倫比亞搬到了新奧爾良。他的繼父在建筑工地找到了工作,大學(xué)畢業(yè)后,卡貝薩斯加入iMerit,開(kāi)始開(kāi)發(fā)西班牙語(yǔ)數字助理。
他注釋了從推文到餐館評論的所有內容,識別人物和地點(diǎn),并找出含糊不清之處。例如,在危地馬拉,“pisto”意味著(zhù)錢(qián),但在墨西哥,它意味著(zhù)啤酒。他所:“每天都有新的項目。”
這個(gè)辦公室的工作已擴展到其他領(lǐng)域,為希望將數據保留在美國境內的企業(yè)提供服務(wù)。出于法律和安全目的,有些項目必須留在美國。
42歲的格倫達·赫爾南德斯(Glenda Hernandez)出生在危地馬拉,她說(shuō)她懷念以前在數字助理項目上的工作。她喜歡讀書(shū),曾為大型出版公司在網(wǎng)上評論書(shū)籍,這樣她就可以獲得免費的副本,她很享受用西班牙語(yǔ)進(jìn)行閱讀帶來(lái)的有償閱讀機會(huì )。

圖9:格倫達·赫爾南德斯(Glenda Hernandez)是新奧爾良iMerit的工作人員,她已經(jīng)學(xué)會(huì )了區分咳嗽好壞之間的區別
赫爾南德斯對圖像標記或類(lèi)似于對人們咳嗽的錄音進(jìn)行注釋的項目不那么感興趣,但這是建立AI的一種方式,可以通過(guò)電話(huà)識別疾病癥狀。她說(shuō):“整天聽(tīng)咳嗽有點(diǎn)兒讓人覺(jué)得惡心!”微軟人類(lèi)學(xué)家格雷說(shuō),這項工作很容易被誤解。整天聽(tīng)人們咳嗽可能令人惡心,但這也是醫生度過(guò)他們日子的方式。她說(shuō):“我們不認為這是苦差事。”
赫爾南德斯女士的工作是為了幫助醫生做好他們的工作,或者也許有一天,取代他們。她以此為榮。在抱怨了這個(gè)項目后不久,她指了指辦公室里的同事說(shuō):“我們都是咳嗽診斷大師。”
“我受夠了”

圖10:多倫多的克里斯蒂·米蘭德(KristyMilland)在A(yíng)mazon Mechanical Turk工作了14年,這是一家眾包數據注釋任務(wù)的公司,現在她試圖改善從事這些工作的人的工作條件
2005年,克里斯蒂·米蘭德(Kristy Milland)在A(yíng)mazon Mechanical Turk注冊了她的第一份工作。她當時(shí)26歲,和丈夫住在多倫多,丈夫管理著(zhù)當地的一家倉庫。Amazon Mechanical Turk是一種賺點(diǎn)兒外快的方式。
第一個(gè)項目是亞馬遜自己的。米蘭德的筆記本電腦上會(huì )彈出三張店面的照片,她會(huì )選擇顯示前門(mén)的那張。亞馬遜正在建立一個(gè)類(lèi)似谷歌街景(Google Street View)的在線(xiàn)服務(wù),該公司需要幫助挑選最好的照片。
她每點(diǎn)擊一次就能賺0.03美元,或者說(shuō)大約每分鐘0.18美元。2010年,米蘭德的丈夫失去了工作,Amazon Mechanical Turk成了她的全職工作。在兩年的時(shí)間里,她每周工作六七天,有時(shí)一天工作17個(gè)小時(shí)。她一年賺大約5萬(wàn)美元。米蘭德女士說(shuō):“那時(shí)候夠了,但現在卻不行。”
當時(shí)的工作并不真正涉及AI。對于另一個(gè)項目,米蘭德會(huì )從抵押貸款文件中提取信息,或者從名片照片中重新鍵入姓名和地址,有時(shí)每小時(shí)只能賺1美元。
大約在2010年,米蘭德開(kāi)始為AI項目貼標簽。她標記過(guò)各種各樣的數據,比如Twitter上出現的血淋淋圖片(這有助于建立AI,有助于從社交網(wǎng)絡(luò )上刪除血腥圖片),或者可能是在中東某處拍攝的空中鏡頭,想必是針對軍方及其合作伙伴正在建設的用于識別無(wú)人機目標的AI。
米蘭德說(shuō),來(lái)自美國科技巨頭的項目通常比普通工作的薪酬高,大約每小時(shí)15美元。但這份工作沒(méi)有醫療保健或帶薪假期,可能會(huì )讓人麻木或者令人深感不安。她稱(chēng)其為“可怕的剝削”,亞馬遜拒絕置評。
自2012年以來(lái),現年40歲的米蘭德始終待在名為T(mén)urker Nation的組織中,該組織旨在改善數千名從事這類(lèi)工作的人的工作條件。今年4月,在工作14年后,她辭職了。
米蘭德在讀法學(xué)院,她丈夫的收入比他們每個(gè)月支付的房租少600美元,這還不包括水電費。所以,他們正準備負債。但她不會(huì )回去給數據貼標簽。她說(shuō):“這是一個(gè)反烏托邦的未來(lái),我已經(jīng)受夠了!”