国产视频一二三,中文一区在线观看,国产高清网址,av在线网址网站观看,国产精品一区二区x88av,久久精品中文字幕一区,骚片在线观看

2025年度未來銀行科技服務商TOP100
全世界各行各業(yè)聯(lián)合起來,internet一定要實現!

2020數據標注公司排行

2020-04-08 eNet&Ciweek/2020數據標注公司排行

2020數據標注公司排行
排名簡稱全稱
1Testin云測北京云測信息技術有限公司
2數據堂數據堂(北京)科技股份有限公司
3龍貓數據北京安捷智合科技有限公司
4星塵紀元北京星塵紀元智能科技有限公司
5文德數慧北京文德數慧科技發(fā)展有限責任公司
6倍賽BasicFinder北京深度搜索科技有限公司
7標貝科技標貝(北京)科技有限公司
8愛數智慧北京愛數智慧科技有限公司
9夢動科技貴州夢動科技有限公司
10曼孚科技杭州曼孚科技有限公司
11點我科技鄭州點我科技有限公司
12翊澳數據河南翊澳信息科技有限公司
13薈萃上海丁火智能科技有限公司
14智成長宿州市智成長科技有限公司
15笑貓科技天津笑貓科技有限公司
2020《互聯(lián)網周刊》&eNet研究院選擇排行
2020數據標注眾包平臺排行
排名平臺企業(yè)
1京東眾智京東數字科技控股有限公司
2百度眾測百度在線網絡技術(北京)有限公司
3數據堂數據堂(北京)科技股份有限公司
4龍貓眾包北京安捷智合科技有限公司
5格物鈦格物鈦(上海)智能科技有限公司
6MBH莫比嗨客大連莫比嗨客智能科技有限公司
7有道眾包網易有道信息技術(北京)有限公司
8倍賽BasicFinder北京深度搜索科技有限公司
9淘金云四川淘金你我信息技術有限公司
10點我科技鄭州點我科技有限公司
2020《互聯(lián)網周刊》&eNet研究院選擇排行
人工智能燃料機

回想一下你的小時候,是如何學習認識蘋果的?只需要有人拿一個蘋果在你面前展示一遍,告訴你這是蘋果,你就能舉一反三,認識不同形態(tài),不同顏色的蘋果。這是人類特有的學習能力。

但是,如何教機器識別蘋果呢?我們要教它認識一個蘋果,直接給它一張?zhí)O果的照片,它是完全不知道這是什么東西的。我們必須先給它學習大量蘋果的圖片,通過學習各種顏色、各種大小、各種形狀、各種成熟程度和各種光線明亮程度下的蘋果,掌握大量的圖片中的特征,這時候再給機器任意一張?zhí)O果的圖片,它才能認出來這是蘋果。

人工智能在被投喂了大量數據之后,才能認出三歲小孩子都能認出的東西,學會“黑貓白貓都是貓”。

那么,這些供給機器學習的材料從哪里來呢?這就是我們今天要說的一個因為人工智能崛起而新興的行業(yè)——數據標注行業(yè)。所謂數據標注,就是人工為圖片、音頻和語音內容做標記,打標簽,把大量非結構性數據加工成機器可以識別的數據,標注好的數據會被人工智能公司用來訓練算法模型,然后運用到圖像識別、語音識別、自動駕駛等不同領域。

在整個人工智能體系中,算力、算法和數據是人工智能進化的三大元素,分別承擔著人工智能基礎設施能力、工作指導方法和算法進化依據的角色。這三大元素相輔相成,共同推動人工智能的智慧化進化水平。在人工智能運行模式中,“數據”作為至關重要的參與元素,從本質上決定了人工智能的進化水平。因為通常來說,數據標注得越準確,數量越多,模型效果越好,最后的產品效果就越好。換句話說,“數據”作為人工智能系統(tǒng)中的算法依據,就是人工智能學習的教材,是人工智能的燃料機。

數據標注的三種市場結構

一個完整的數據標注流程需要經過任務分配、標記程序設計、進度跟蹤和質量跟蹤等幾個環(huán)節(jié),環(huán)節(jié)中涉及到標注員、審核員和管理員幾個角色,這些是任何一個數據標注團隊都具備的基本要素,不同的是組織工作的方式。

大多數AI實驗室、初創(chuàng)型AI公司在發(fā)展初期,都需要大量的數據來訓練模型,但如果雇傭大量的人力進行數據標注,就不得不面臨這樣的處境:一是管理方面的挑戰(zhàn),在研發(fā)產品的同時還要把大量精力放在管理標注人員身上;二是成本的挑戰(zhàn),大量全職標注人員的薪酬對于初創(chuàng)型公司和研究實驗室都是一筆不小的支出。

于是,數據標注公司隨著發(fā)展如火如荼的人工智能行業(yè)也發(fā)展起來。為了適應人工智能公司對數據標注不同程度的需求,當前,我國數據標注行業(yè)的市場結構也分化為了幾種。

最開始興起的是眾包結構,在眾包平臺上,一端對接需求公司,一端對接大量有空余時間的志愿者(兼職人員)。眾包結構的優(yōu)點是可以組織社會上的大量兼職人員進行標注,節(jié)省公司的運營成本,但缺點也很明顯,就是眾多分散的兼職人員之間合力完成一個大型標注任務,他們的專業(yè)背景和工作能力參差不齊,溝通成本高昂,數據保密也相對困難,一旦需求公司要調整原有標注需求,兼職人員流動性大,無法給與需求公司靈活服務。意識到自身的缺點,近年來一些眾包平臺也開始對入駐的數據標注團隊進行測評,以及采取末尾淘汰等措施,提升平臺整體的競爭能力。當前,市場上典型的數據眾包平臺有京東眾智、百度眾測等。

另外一種就是工廠結構,即成立專門的數據標注公司,有穩(wěn)定的標注人員。相對于眾包結構,數據工廠的優(yōu)勢是標注人員穩(wěn)定,需求方和數據標注方能即時溝通,溝通成本降低,同時,數據傳遞也有源可溯,降低了數據泄露的可能性。但工廠結構的公司也有它的煩惱?,F在市場上工廠結構的數據公司兩極分化明顯,較大的長期員工可以達到上千人;而較小的,只有幾個人,很多小團隊還存在有項目時成立,沒項目時解散的現象。由于人工成本風險較高,兩極分化下的工廠結構市場還衍生出了這樣的現象:大公司很少去對接短期且數據量較少的項目,小的公司可以承接這樣的項目但是有大批量數據任務到來時,數據標注能力又會顯得捉襟見肘。目前,市場上規(guī)模較大的專業(yè)的數據標注公司有Testin云測、星塵紀元、夢動科技等。

也有一些將眾包和工廠結構融合的企業(yè),能夠根據項目大小和數據保密要求靈活部署,例如數據堂和龍貓數據,都有自己的標團隊,同時也運營數據標注眾包平臺。

這三種數據標注的市場結構都有各自的優(yōu)勢和局限性,結合眾包+工廠模式的第三種結構是否會成為未來數據標注行業(yè)的主流形式,還有待實踐的檢驗。因為除了市場結構,準確率和靈活性在數據標注中的重要性正在變得越發(fā)突出。

準確率是核心競爭力

無論是工廠、眾包還是將兩者結合的市場結構,都是在成本、準確率和靈活性上做選擇,隨著越來越多數據喂養(yǎng)給了人工智能算法,人工智能公司必須想辦法積累更多更準確、符合自身應用的數據。某種程度上來說,高質量的標注數據,決定了人工智能公司的競爭力。

隨著AI應用的加速落地,壓低報價和提交更多的數據標注結果顯得不再那么重要,準確率成為脫穎而出的命脈。在大型人工智能公司面前,數據標注企業(yè)的準確率提升一個百分點,競爭力將躍遷幾個層級。

任何一個行業(yè),在經歷了早期的瘋狂生長后,最終一定會經歷一番洗牌,變得更為規(guī)范化、透明化。屆時質量會取代成本,成為需求方最優(yōu)先考慮的變量。

當AI完成初級識別,要進行深度學習訓練后,甲方的人工智能公司對數據質量和效率的要求將超越對成本的顧慮。往金字塔的高層發(fā)展,這個行業(yè)的缺口仍然非常巨大。

大浪淘沙,不妨大膽預測,數據標注行業(yè)有兩類機構最終會發(fā)展較好:一是注重質量及服務的中小型數據標注公司,二是自有整套數據技術,能依靠人工智能增加準確率的平臺。

人工智能背后的“人工”

形形色色的數據標注公司、眾包平臺之下,不能忽視的是數據標注員。

盡管對數據標注的要求越來越高、越來越精準是大勢所趨,但是,一個不容忽視的事實是,數據標注行業(yè)現在還是勞動密集型產業(yè)。

重復的拉框、標點,一個個數據標注員通過大量重復勞動為AI輸送了幾十億甚至幾百億的喂養(yǎng)數據,這些數據標注員有一個被圈內人默認的外號:AI民工。

在中國廣袤的三四線城市、鄉(xiāng)鎮(zhèn),無數年輕人正成為“數據貼標人”,他們每天坐在電腦前工作8小時以上,為AI公司的算法提供和處理大量數據。他們中的大多數人教育水平不高,重復的機械勞動為他們帶來了微薄的工資,全然不知自己正在參與“價值上億”的項目。

他們是“人工智能背后的人工”。當前,人工智能行業(yè)依賴于大量的這種廉價的人工,因為算法和“機器學習”在很多情況下都是由真人訓練。

這些類似富士康工廠的流水線工人,卻有著自己的夢想故事。從大眾的視角,他們是被忽視的一群人;在大眾關注不到的地方,數據標注公司不僅僅是為人工智能賦能,也在賦能“人工”。

貴州夢動科技有限公司是少有的產教融合的數據標注公司。公司緊鄰著一家扶貧高職“盛華職業(yè)學院”,此處的學生大多來自貧困山區(qū),該公司近一半的數據標注員也來自與此。公司的一些工作人員,同時兼任著學校的老師。學校的學生在公司實習,賺來的錢不僅足夠生活,有時還能拿出一些補貼家用。這份數據標注的工作幫助他們改變了自己和家庭的命運,有時,一些優(yōu)秀的學生還能成為人工智能公司的專業(yè)標注員,完成職業(yè)升級。

同樣賦能“人工”的還有京東眾智。京東眾智上有一千多名聾啞人數據標注員,京東為他們成立專門的“靜公會”,項目上優(yōu)先照顧。

這些曾經在社會上的邊緣人物,終于在“數據標注”領域成了“有用的人”。一位京東眾智平臺的培訓講師說:“想當把英雄,承擔更多的責任。”聾啞人培訓相對來說會費勁些,但是他們的優(yōu)點是專注、認真、對視覺信號敏銳,數據標注行業(yè)對他們來說是機會。

事實上,除了數據標注員的職業(yè)升級野望,數據標注行業(yè)還承載著很多創(chuàng)業(yè)者的人工智能夢。

一位小型數據標注公司創(chuàng)始人曾說:“雖然標注是相當低級別的工作,但進入門檻相對較低,而且仍屬于人工智能行業(yè)?!彼f,“所以我們認為,如果我們可以從這里開始,也有可能慢慢地、一步一步地走向更高價值的領域。”

機器會代替人類嗎?

數據標注員也有一些擔憂,他們的工作是幫機器更好的學習,促進人工智能行業(yè)的發(fā)展,而當行業(yè)發(fā)展到一定階段,那還需要人工嗎?數據標注員所做的工作就是在加速自己失去這份工作。

開發(fā)一款能夠實現自動化數據標注的工具,既是在解放人力,又是行業(yè)發(fā)展的必然結果。一旦智能化的數據標注工具能夠替代人工,即使是能部分替代,數據量和質量都會快速提升,進而推動算法成熟得更快。而市場上已有企業(yè)在開發(fā)自動化數據標注工具,嘗試用AI取代“AI民工”。

機器會代替人類嗎?或許,馬云先生在2018世界人工智能大會上所說的話,至今仍有啟發(fā)意義:“蒸汽機釋放了人的體力,但是蒸汽機并不是模仿人的體力,汽車比人跑得快,但是汽車并不是模仿人的雙腿。未來的計算會釋放人的腦力,但是計算機不是按照人腦一樣去思考,機器必須要有自己的方式去思考?!?/p>

讓計算機擁有自己的思考方式,是一個復雜的過程,在這個復雜的架構中,數據標注是滋養(yǎng)這個系統(tǒng)運轉的燃料,通過不斷升級改變的標注內容來適應不斷強大的人工智能。

汽車的出現,讓馬夫失業(yè)了,但是馬夫并沒有活不下去,而是去做更高級的工作,比如司機、汽修人員。19世紀紡織業(yè)突飛猛進發(fā)展,一些任務變得自動化,大量紡織工人下崗,但機器降低了制作衣服的成本,人們對布料的需求也在增長。服裝需求的增長又帶來了新的就業(yè)機會,工廠不得不雇傭新一代的工人,學習操作復雜的機械。

當一些需求被滿足時,又會產生新的需求。新技術、新科技,從來都不是人類的限制,而是人類一種認識和思考世界的方式,我們借助新技術為自己的未來確定一種生活方式。

結語

在探討數據標注這個行業(yè)存在的合理性與是否能長久發(fā)展之前,能帶給從業(yè)者的改變和對人工智能的推動就已足夠振奮人心。

現在就已經很有意義,未來會更有意義。

相關頻道: eNews 排行

您對本文或本站有任何意見,請在下方提交,謝謝!

投稿信箱:tougao@enet16.com