首页 国产 亚洲 小说图片,337p人体粉嫩胞高清视频,久久精品国产72国产精,国产乱理伦片在线观看

設(shè)為書簽 Ctrl+D將本頁(yè)面保存為書簽,全面了解最新資訊,方便快捷。 您也可下載桌面快捷方式。點(diǎn)擊下載 | 新浪科技 | 新浪首頁(yè) | 新浪導(dǎo)航

我在大廠訓(xùn)練AI:用鼠標(biāo)拉框,一次賺3分錢

2021-05-06 08:41:07    創(chuàng)事記 微博 作者: 刺猬公社   
何信在做數(shù)據(jù)標(biāo)注工作,何信供圖何信在做數(shù)據(jù)標(biāo)注工作,何信供圖

  歡迎關(guān)注“新浪科技”的微信訂閱號(hào):techsina

  文/劉鑫 編輯/園長(zhǎng)

  來(lái)源/刺猬公社(ID:ciweigongshe)

  刺猬公社和何信通話的時(shí)候,他正在做數(shù)據(jù)標(biāo)注的工作。

  電腦屏上的圖片里,三三兩兩的人在操場(chǎng)上,或是在跳繩,或是在圍觀。何信要做的是用鼠標(biāo)將正在跳繩的人框出來(lái)。“說(shuō)出來(lái)你可能都不相信,就是畫這一個(gè)框。”何信解釋道,“好比你現(xiàn)在打開(kāi)電腦,然后摁住鼠標(biāo)右鍵拉一下,在桌面上就是一個(gè)框就是3分錢。”

  何信做數(shù)據(jù)標(biāo)注的工作有一年多,他自己成立了一個(gè)創(chuàng)業(yè)小團(tuán)隊(duì),團(tuán)隊(duì)里有十幾個(gè)人。他們的項(xiàng)目涉及百度、網(wǎng)易、阿里等互聯(lián)網(wǎng)大廠,他也做細(xì)致的“打點(diǎn)”工作,類似一個(gè)鞋的邊框打點(diǎn)一周,二十幾個(gè)點(diǎn),掙一到兩角錢。

  “阿里眾包、京東微工、百度眾測(cè)、有道眾包……”市面上這樣的產(chǎn)品有很多,利用碎片化時(shí)間獲得收入、操作簡(jiǎn)單無(wú)門檻是它們最主要的賣點(diǎn)。這類互聯(lián)網(wǎng)大廠推出兼職平臺(tái),主要以眾包的形式給用戶分配任務(wù),用戶通過(guò)完成任務(wù)來(lái)獲得報(bào)酬。但相較這些大廠的知名產(chǎn)品而言,兼職平臺(tái)們的下載量并不高。

  刺猬公社查詢產(chǎn)品下載量統(tǒng)計(jì)平臺(tái)七麥數(shù)據(jù)后發(fā)現(xiàn),AppStore中阿里眾包、騰訊搜活幫、京東微工、百度眾包等四款產(chǎn)品,近30日日均下載量未超過(guò)2000。

圖源:七麥數(shù)據(jù) 查詢時(shí)間:2021年4月27日圖源:七麥數(shù)據(jù) 查詢時(shí)間:2021年4月27日

  從產(chǎn)品數(shù)據(jù)上看,互聯(lián)網(wǎng)大廠的兼職App只能說(shuō)不溫不火。在靈活用工、兼職經(jīng)濟(jì)高度發(fā)展的當(dāng)下,這類兼職App為什么沒(méi)做起來(lái)?都是誰(shuí)在做這份工作?

  收益太少,羊毛難薅

  互聯(lián)網(wǎng)大廠出品的兼職App中,運(yùn)作流程是:平臺(tái)發(fā)布任務(wù),用戶領(lǐng)取任務(wù)驗(yàn)收后獲得收益。綜合各平臺(tái)來(lái)看,主要有數(shù)據(jù)標(biāo)注、數(shù)據(jù)采集、數(shù)據(jù)轉(zhuǎn)寫工作。細(xì)分到具體領(lǐng)域,又分為文本、圖片、語(yǔ)音、視頻等部分的信息處理。任務(wù)的價(jià)格一般在0.1元到幾十元不等。

  在騰訊搜活幫里,李元接了十幾單任務(wù),賺了不到兩塊錢。

  放棄倒不是因?yàn)殄X少,而是因?yàn)檫@份工作過(guò)于機(jī)械化,重復(fù)性勞動(dòng)讓李元很不適應(yīng)。他大學(xué)讀的是電子信息工程專業(yè),畢業(yè)后工作也比較清閑。出于賺錢和打發(fā)時(shí)間的目的,李元下載了這款眾包類型的軟件。

  眾包,通俗來(lái)講,就是從大眾那里尋找資源。它本意是指一個(gè)公司或機(jī)構(gòu)把過(guò)去由員工執(zhí)行的工作任務(wù),以自由自愿的形式外包給非特定的(而且通常是大型的)大眾志愿者的做法。

  以京東微工的數(shù)據(jù)標(biāo)注為例,在最新一期的任務(wù)里要求對(duì)文本進(jìn)行情感判斷,根據(jù)自己的認(rèn)知選擇文本是正向、中性還是負(fù)面。該結(jié)算兩分一條,以10條為結(jié)算單位,要求正確率100%。

圖源:京東微工圖源:京東微工

  數(shù)據(jù)采集一般為音頻、圖片、視頻方面的采集,周舟熱衷于做數(shù)字采集方面的工作,2019年高中畢業(yè)后,他開(kāi)始嘗試這方面的兼職工作。兩年的時(shí)間,他陸陸續(xù)續(xù)賺了3000多。“我也沒(méi)有天天去看,阿里眾包在年終、年初、年底的任務(wù)很多。”

  在每個(gè)任務(wù)里,都有明確的要求,周舟認(rèn)為這樣很明確,可以很快地分辨哪些好做哪些不好做。

圖源:阿里眾包圖源:阿里眾包

  相比于數(shù)據(jù)標(biāo)注、采集方面的工作,數(shù)據(jù)轉(zhuǎn)寫的門檻稍微高些。所謂的數(shù)據(jù)轉(zhuǎn)寫,主要是各種語(yǔ)言轉(zhuǎn)譯工作,比如,在有道眾包的少兒英語(yǔ)段音頻轉(zhuǎn)寫里,要求口誤重復(fù)、語(yǔ)法錯(cuò)誤等如實(shí)轉(zhuǎn)寫,這對(duì)于答題者的英語(yǔ)水平要求不低。

圖源:有道眾包圖源:有道眾包

  為了確保用戶所提交產(chǎn)品的質(zhì)量,除了在提交內(nèi)容上有所要求,在用戶提交前也有所培訓(xùn)。在騰訊搜活幫里需要首先進(jìn)行考試,考試通過(guò)后方能進(jìn)行答題。周舟曾經(jīng)做過(guò)這類型的考題,做完20道題,正確11道,他得出了結(jié)論——裸考必掛。

  李元參加這種考試,也沒(méi)有一次就過(guò)的情況,“這種題目需要耐心和比較細(xì)膩的語(yǔ)感,而我是那種粗枝大葉的人,而且多次失敗之后帶來(lái)的挫敗感太糟糕了。”

圖源:騰訊搜活幫圖源:騰訊搜活幫

  等平臺(tái)發(fā)任務(wù)——做任務(wù)——等平臺(tái)審核是這類眾包軟件使用的常規(guī)流程,而在這些流程里有任何一個(gè)環(huán)節(jié)脫節(jié),都會(huì)帶來(lái)不好的用戶體驗(yàn)。

  下載軟件發(fā)現(xiàn)無(wú)任務(wù)可做,做任務(wù)時(shí)發(fā)現(xiàn)門檻過(guò)高,任務(wù)完成發(fā)現(xiàn)審核太久,審核后發(fā)現(xiàn)正確率不合格……在這條任務(wù)鏈里,用戶會(huì)遭遇各樣的問(wèn)題,有網(wǎng)友在五個(gè)任務(wù)都審核失敗后發(fā)文稱“費(fèi)力不討好。”

  部分平臺(tái)審核不合格后,價(jià)格會(huì)打折扣。但還是有人賺到錢了,在有道眾包的3月酬勞排行榜上,第一名酬勞1945.99元。周舟對(duì)于自己兩年多攢的3000多元表示滿意,“因?yàn)槟壳斑€是在校生,沒(méi)有工作。”

  “一小時(shí)10元吧。”何信評(píng)估了一下做眾包工作的平均報(bào)酬。

  用戶下沉,也在內(nèi)卷

  兼職眾包的平臺(tái)用戶,有一種團(tuán)隊(duì)化的趨勢(shì)。

  就目前市面上的眾包產(chǎn)品來(lái)看,任務(wù)很多是不定期推送的,新用戶注冊(cè)后平臺(tái)上有可能面臨無(wú)任務(wù)可領(lǐng)的情況,而相較于加公會(huì)做團(tuán)隊(duì)而言,普通用戶賺的錢是很少的。

  而這份工作的主力,互聯(lián)網(wǎng)巨頭們可能也并沒(méi)有瞄準(zhǔn)客戶端的普通用戶。據(jù)何信了解,向他這樣做團(tuán)隊(duì)接項(xiàng)目的同行有不少,在平臺(tái)活躍著的也有很大部分是像他們這樣的團(tuán)隊(duì)。

  相比于單獨(dú)個(gè)人當(dāng)兼職做,團(tuán)隊(duì)化容易的多。價(jià)格在近些年也有了不小的變化,以前價(jià)格很貴,現(xiàn)在的價(jià)格越來(lái)越低,由此帶來(lái)用戶的不斷往下沉淀。何信表示用戶下沉是要找便宜的勞動(dòng)力。

  2016左右,那時(shí)候做數(shù)據(jù)標(biāo)注的人還不是很多,何信說(shuō)那時(shí)候價(jià)格是目前兩到三倍,畫一個(gè)框大概七八分錢。

  “以前做的人少就掙錢,現(xiàn)在做的人多了就不值錢了,就這個(gè)意思。”兼職眾包的用戶們,也在不可避免地遭遇內(nèi)卷。

  在何信團(tuán)隊(duì)里,一個(gè)成熟的員工一小時(shí)能畫600個(gè)框,按照一個(gè)框3分的標(biāo)準(zhǔn),能賺18元。“但是這個(gè)價(jià)格是我完全不賺錢。”何信說(shuō)。而3分的價(jià)格在面向用戶的平臺(tái)里很少出現(xiàn),在用戶平臺(tái)端三分的價(jià)格算是很高的。何信找的熟人介紹做項(xiàng)目,一般接一個(gè)項(xiàng)目幾千上萬(wàn)的量,然后做上一個(gè)月。

  這個(gè)行業(yè)流動(dòng)性很大,重復(fù)性勞動(dòng)和越來(lái)越低的價(jià)格讓很多人止步于此。何信的團(tuán)隊(duì)不算大,上個(gè)月還是五六個(gè)人。來(lái)的員工一般都是學(xué)生,兼職在做這份工作。五六個(gè)兼職的同學(xué)才能留下一個(gè),何信對(duì)自己團(tuán)隊(duì)流動(dòng)習(xí)以為常。

  “一開(kāi)始不熟悉業(yè)務(wù),做不了那么快,幾乎就賺不了什么錢,完全看自己做的數(shù)量。”何信解釋團(tuán)隊(duì)流動(dòng)大的原因。

  除了數(shù)據(jù)標(biāo)注,何信的團(tuán)隊(duì)也做過(guò)涉及語(yǔ)音轉(zhuǎn)義、數(shù)據(jù)采集等方面的工作,兩三歲孩童的語(yǔ)音、粵語(yǔ)、陜西話的轉(zhuǎn)義他們都做過(guò)。語(yǔ)音轉(zhuǎn)義一般來(lái)說(shuō)三分鐘能給到七塊左右,數(shù)據(jù)采集工作相對(duì)來(lái)說(shuō)賺的更多,但過(guò)于費(fèi)時(shí)費(fèi)力,這塊業(yè)務(wù)也慢慢擱下了。

  “車道線、車、人臉,人體……”何信做的數(shù)據(jù)標(biāo)注類目有很多,但都是二維的。數(shù)據(jù)標(biāo)注的同行們有的在做三維標(biāo)注,這樣的工作日薪能達(dá)300元左右。

圖源:百度眾測(cè)圖源:百度眾測(cè)

  但這樣的薪資并不是普遍化的,簡(jiǎn)單重復(fù)性的二維圖片數(shù)據(jù)標(biāo)注工作薪資并沒(méi)那么可觀。

  小作坊的出現(xiàn),是數(shù)據(jù)標(biāo)注團(tuán)隊(duì)的一個(gè)大趨勢(shì)。何信對(duì)于這份工作的人有大概的畫像。在城鄉(xiāng)結(jié)合部,或者鄉(xiāng)村小作坊,有那么一批人,二三十歲,學(xué)歷不是很高,就在縣城做這樣的工作。而很多人也有投資這種數(shù)據(jù)小作坊的打算。

  “我就形容它是網(wǎng)絡(luò)時(shí)代的那種手工作坊。”何信對(duì)這種城鄉(xiāng)結(jié)合部的小作坊下了一個(gè)定義。

  “網(wǎng)絡(luò)時(shí)代的民工?”

  “完全就是民工了,這不是調(diào)侃。”

  互聯(lián)網(wǎng)大廠,為什么需要人兼職訓(xùn)練AI

  “訓(xùn)練AI啊。”

  何信很明確的知道自己所做的工作,電子信息工程專業(yè)的李元也知道這份工作的意義,“平臺(tái)給你提供的題目相當(dāng)于是一個(gè)訓(xùn)練的樣本。所有你做的題目就是AI的訓(xùn)練集,它會(huì)通過(guò)人類的這種思維判斷去訓(xùn)練AI。”

  “能知道的只有他(平臺(tái))告訴我的。具體數(shù)據(jù)去哪了,用于什么了,沒(méi)有去深究。”周舟只知道平臺(tái)告知的信息,在阿里眾包的一個(gè)任務(wù)中顯示,您接受的任務(wù)中涉及對(duì)個(gè)人信息的收集,任務(wù)發(fā)布者承諾在此任務(wù)中收集到的個(gè)人信息將會(huì)用于“算法訓(xùn)練——牙齒病種識(shí)別”的目的,并僅限于任務(wù)發(fā)布者使用,并不向任何第三方轉(zhuǎn)讓、共享以及披露,匿名化或去標(biāo)識(shí)化的除外。

圖源:阿里眾包圖源:阿里眾包

  “我們要教機(jī)器認(rèn)識(shí)一個(gè)蘋果,你直接給它一張?zhí)O果的圖片,它是完全不知道這是個(gè)什么東西的,需要現(xiàn)有蘋果的圖片,上面標(biāo)注著“蘋果”兩個(gè)字,然后機(jī)器通過(guò)學(xué)習(xí)了大量的這類圖片,才能認(rèn)識(shí)蘋果,其中將圖片表示為“蘋果”的工作就是數(shù)據(jù)標(biāo)注。”

  騰訊搜活幫用上述例子,說(shuō)明了數(shù)據(jù)標(biāo)注的意義。數(shù)據(jù)標(biāo)注員的工作就是在教機(jī)器學(xué)習(xí)。

  人工智能包含著機(jī)器學(xué)習(xí),而監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種訓(xùn)練方式,通俗來(lái)講,是要給機(jī)器一種標(biāo)準(zhǔn)答案來(lái)不斷進(jìn)行訓(xùn)練,以此來(lái)達(dá)到人類一些識(shí)別認(rèn)知的能力,這也是深度學(xué)習(xí)的一個(gè)目標(biāo)。深度學(xué)習(xí)的成功所依賴的既不是算法,也不是計(jì)算能力,而是訓(xùn)練和驗(yàn)證數(shù)據(jù)的可用性,這些數(shù)據(jù)最終是通過(guò)人的參與獲得的。

  這是一個(gè)非常重復(fù)性的勞動(dòng),因?yàn)闄C(jī)器學(xué)習(xí)需要大量的樣本,大量的樣本是由無(wú)數(shù)重復(fù)性勞動(dòng)所造就的。

  而這種重復(fù)性勞動(dòng)在很早之前就有了。2003年,一款“ESP游戲”就用了這種勞動(dòng),它的目的是通過(guò)互聯(lián)網(wǎng)上人們的自由參與來(lái)獲得描述圖像的標(biāo)簽。在一個(gè)游戲中,兩個(gè)玩家在屏幕上看到相同的圖像,并被提示輸入描述該圖像的關(guān)鍵字。他們看不到對(duì)方正在鍵入什么,但如果兩人輸入相同的關(guān)鍵字足夠快(“匹配”),他們就會(huì)得到分?jǐn)?shù)。實(shí)際上,這些關(guān)鍵字可以用作圖像的精確標(biāo)簽。“ESP游戲”后來(lái)被谷歌收購(gòu),被稱為谷歌圖像標(biāo)簽。

  不止人工的重復(fù)性勞動(dòng),驗(yàn)證碼也是訓(xùn)練機(jī)器的一種方式。驗(yàn)證碼本身是在人機(jī)交互中構(gòu)建,以驗(yàn)證用戶實(shí)際上是“人工用戶”的工具。reCAPTCHA公司擴(kuò)展了這一原則,將人類用戶的反應(yīng)重新用作工業(yè)深度學(xué)習(xí)項(xiàng)目的培訓(xùn)數(shù)據(jù)。為此,用戶需要解決一個(gè)小任務(wù),如圖像識(shí)別或文本識(shí)別,這對(duì)人類來(lái)說(shuō)是一個(gè)低的障礙,但對(duì)計(jì)算機(jī)機(jī)器人來(lái)說(shuō)是一個(gè)高的障礙。而reCAPTCHA也被谷歌收購(gòu)了。

  科技自媒體“品玩”曾報(bào)道過(guò)類似的現(xiàn)象,驗(yàn)證碼越來(lái)越有內(nèi)容,比如標(biāo)注門牌路牌,讓用戶幫分類數(shù)據(jù)庫(kù)等。“品玩”也指出在 reCAPTCHA 官網(wǎng)上,Google 公開(kāi)說(shuō)明了 reCAPTCHA 集眾人之力標(biāo)注數(shù)據(jù),訓(xùn)練 AI 的“眾包”模式。

網(wǎng)絡(luò)中識(shí)別圖片的驗(yàn)證碼網(wǎng)絡(luò)中識(shí)別圖片的驗(yàn)證碼

  捕獲人類的認(rèn)知的方式已經(jīng)不再局限于眾包中的重復(fù)性勞動(dòng),將人類的認(rèn)知嵌入到計(jì)算機(jī)網(wǎng)絡(luò)中,讓人和機(jī)器的關(guān)系更加密切,而這種隱性的認(rèn)知捕獲在互聯(lián)網(wǎng)的各個(gè)角落都在發(fā)生著。

  在重復(fù)性勞動(dòng)不斷減少的當(dāng)下,何信準(zhǔn)備謀求新的出路。他的同行朋友們已經(jīng)開(kāi)始在做簡(jiǎn)單的數(shù)據(jù)AI,讓簡(jiǎn)單型的數(shù)據(jù)標(biāo)注工作交給機(jī)器來(lái)操作。

  用機(jī)器做出來(lái)的訓(xùn)練集來(lái)訓(xùn)練機(jī)器,是一個(gè)有意思的事情。

  在城鄉(xiāng)結(jié)合部,一批二三十歲的人正在批量生產(chǎn)著AI訓(xùn)練集,重復(fù)是他們工作的常態(tài)。也正是因?yàn)槿绱耍ぷ骺菰铩?bào)酬微薄,充斥著“訓(xùn)練AI”任務(wù)的眾包兼職平臺(tái)相當(dāng)乏味,勸退了不少被兼職平臺(tái)大廠背景所吸引的用戶。

  而隨著AI和機(jī)器的不斷自我訓(xùn)練和進(jìn)化,AI訓(xùn)練AI就在不遠(yuǎn)的未來(lái),這類平臺(tái)的未來(lái)可能性將會(huì)更小。

  備注:以上何信、李元、周舟均為化名

  參考資料:

  《Human-aided artificial intelligence: Or, how to run large computations in human brains? Toward a media sociology of machine learning》,Rainer Mühlhoff

 

(聲明:本文僅代表作者觀點(diǎn),不代表新浪網(wǎng)立場(chǎng)。)

分享到:
保存   |   打印   |   關(guān)閉