• 感謝贊賞!給好友秀一下吧

    內容棒,掃碼分享給好友

  • 評論
  • 收藏
  • 點贊
    點贊

幫百度AI干臟活累活的公司,都死了-幸運快樂8

幫百度AI干臟活累活的公司,都死了

本文來自微信公眾號:黑智(ID:VR-2014),作者: 李夜


在接觸數據采標行業過程中,黑智聽到一個陸奇和河南標注工廠的故事。


據悉,大部分河南標注工廠用的是百度的標注工具,干的是百度的活。陸奇掌旗百度時,放出了大量采標需求。當時,活不難(準確率只有90%),標注的利潤空間可以達到60%—70%。有些企業盲目擴張,一下子招了幾百人;陸奇離開后,百度需求恰也減少。2018年下半年,準確率又普遍提高至95%-96%,活難干了。這些工廠只會百度的標注工具,很難接別家的業務,因此死了一批。沒有死的工廠不得不裁員,目前處于艱難轉型中。


當河南標注工廠艱難轉型時,張三的標注公司卻正式營業。公司初建,百事繁雜,前幾天,黑智才在中午空閑時間,聯系上他。他告訴黑智,兩個年前的單子需要返工,一直在忙。對于初建公司,忙比閑好。如果有一天空閑下來,張三說他晚上都會睡不著覺,“一天沒活干,幾千塊錢就打水漂了。一個月得支出15萬(注:目前,公司有65名員工)。”


在他看來,標注行業是一個苦行業,“前半年,一定會賠錢的,你要做好一個人賠一萬塊錢的準備。”他笑著告訴黑智,“如果你和誰有仇,就勸他干標注吧。”這是標注圈有名的段子。


標注圈說大不大,說小也不小,分了四個梯隊。張三說,他的公司屬于第三梯隊。第一梯隊,比如百度眾測、京東眾智等。第二梯隊,比如龍貓數據、Testin云測、倍賽 BasicFinder、數據堂等。他將第二梯隊和第三梯隊的關系,比做小房地產開放商和搬磚工人。第三梯隊之下,是數量巨大的小作坊,團隊規模在3-5人之間。



標注行業又是一個有前景的新生行業。


新生意味著不確定與無限可能,“干標注就像將水倒進一個水桶里,每拉一個框就是添一碗水。目前,誰也不知道還能添多久,只有水溢出來時,才知道。”這并不妨礙張三設計未來,“第一步,現階段先服務好第二梯隊,以后搞一個平臺,把公司做成第二梯隊。”


300億市場與轉折點


幸运快乐8數據采集、標注市場有多大?300億元。


1984年前后,這個市場就出現了。欣博友的公司是眾多公司中的一家。當時,這些公司更像一個“錄入公司”——將紙質內容電子化,而不是標注公司。“錄入”是一個勞動密集型的工作,一家公司需要雇傭很多人來做這件事。智聯招聘顯示,欣博友在公司人數項上,勾選的是“1000—9999”。


和欣博友不同,海天瑞聲成立于1998年,做的是語音標注,自建了很多語音庫,業內人士告訴i黑馬&黑智,重復銷售以前做的語音庫是海天瑞聲比較大一塊業務。數據堂成立于2011年,通常外界對其最深印象是“它是國內最大的數據交易平臺”。這和其起家業務相關。


2015年前后,隨著以榜單中的人工智能公司TOP50的強勢崛起,數據標注和采集需求逐漸多了起來。這個市場才真正意義上形成,也即前面提到的四個梯隊。他們作為乙方,進入到這個日益擴大的市場,為估值超10億美金的AI獨角獸服務,教能夠改變世界的人工智能產品學習。


01 得數據者得AI的天下


數據是AI公司的必需品。就像人每天需要一日三餐,而AI模型也每天需要數據的喂養。數據和AI模型的關系,倍賽 BasicFinder創始人兼CEO杜霖理解深刻。高中期間,他開始研究計算機視覺,高三發表了論文。大學期間,他也一直在做相關的研究。他知道數據對于AI模型的重要性,并得出“AI建模沒有門檻,數據才是門檻”的結論。


在他看來,現階段的人工智能是簡單的認知智能。“認知智能就是幫你去識別、分類這個世界。分類器的構造是個數學問題,就是由數據堆起來的。”“深度學習本質上是個數學問題,是由大量的樣本空間數據反向構造分類器的系數空間的過程。你要有很多樣本,什么叫樣本?知道正確答案的才叫樣本。這跟我們小時候求多樣式、求系數式是一個道理。我們要有很多空間中的已知點,才能擬合成一個多樣式。同理,深度學習也是這個模式,也需要大量樣本,也即標定好的數據。”


于是,杜霖認準了“在現階段工業界的AI應用研發,標數據是一定跳不過去的,可能10年之內都要依賴于標數據。”數據對于AI的重要性如斯,但數據的標注和采集公司并沒有學界、業界、資本甚至是媒體的認可,光環一開始便屬于那些做模型研發的AI公司,比如商湯科技、曠視科技等。


“一個公司做成了很好的人工智能產品,大家都會說人工智能算法牛或者科學家牛,但從沒見人說數據收集得好的。”Testin云測VP賈宇航說。賈宇航告訴i黑馬&黑智,不但鎂光燈照不到,數據采標還是個“苦活”。苦到沒有人想去做。它很像移動互聯網,產品好,沒人想到軍功章有APP測試者一份。一旦出了問題,第一個被責備的一定是做測試的部門。


02 300億元數據采標市場


數據對于AI公司的重要性不言而喻。據悉,AI公司投入10%—15%的經費用于數據采標。也有人提到,這一比例為20%—30%。


2018年,中國AI公司的總融資規模達到千億元以上,數據采標的市場約為100億元—300億元。其中,有三分之一是AI公司內部的標注部門之間消化的,有一些會被商務流程外包公司瓜分,剩下的25%—33%流向專門做數據采標的第三方公司。目前,AI融資規模約以每年25%的速度在增長。



隨著AI技術門檻的降低,越來越多的公司開源了自己的框架,把數據喂進去就能出來一個模型。越來越多的頭部垂直公司開始建立AI部門,之前它們多會把業務交給做AI模型的公司來做,這兩年,龍貓數據、Testin云測、倍賽 BasicFinder的很多客戶不是來自AI行業的客戶,而是傳統公司的AI業務部門。龍貓數據創始人兼CEO昝智認為從這個角度來看,市場規模并不好算,BAT、小米、京東、TMD等互聯網公司和傳統行業里的傳統企業,它們會拿出多少預算做AI,不得而知。唯一可以肯定的是,這兩三年,數據采標的市場規模越來越大。


這兩三年,AI模型對數據采標的復雜度和精細度要求也越來越高了。比如說,現在,做一個人臉拉框,人臉的拉框精度要求在五像素以內或者三像素以內;又或是,整批數據精確度需在97%或者99%以上。賈宇航認為,精度的提高是AI行業發展的必然結果。對于AI行業,有一句話叫 Garbage in, Garbage out,低精度的標注數據對于算法沒有任何意義。只有能持續輸出高精度采標數據,才是一個能持續保持競爭優勢的服務商。


第二,更龐大、更多樣的數據規模。龐大在于數據量會更大,以傳感器為例,隨著傳感器成本下降,并被大量應用,將有更多大量的數據需要被標記;更多樣指的是更豐富的數據維度,在今年的CES展上,松下推出的智能家居解決方案,不僅僅通過電視上的攝像頭觀測人臉的疲勞度,還通過椅子上的電容傳感器,去檢測人的心跳。而之前,疲勞檢測只是通過攝像頭捕捉人臉。將來,更多維度的數據將被收集,不單單是2D的圖象、聲音,3D的激光雷達以及心跳數據等也將被納入到采標的范圍內。


03 轉折點


需求側的變化,不可避免地在供給側引起不小的地震。供給側開始從密集勞動型行業向新產業、新模式——工具+眾包轉型。洗牌開始了,數據采標迎來了下半場。


幸运快乐8受負面影響最大的第四梯隊。無論是采標的復雜還是要求愈高的精度,對于它們來說都不是好消息。去年中旬以來,每天十幾、二十幾家小作坊要求掛靠在倍賽 BasicFinder旗下,這說明小作坊已經失去業務的來源。“他們靠低質量數據和低價搶市場的模式,已經不能持續了。因為AI工程師不能接受低質量的數據,也不能接受不靠譜的交期。”杜霖說。


張三認為,第四梯隊壞了規矩。他們先靠低價四處搶單子,而后內測什么樣的項目能夠在單位時間內產出最多,再去做這個項目。其它項目,則被分包給更小的團隊去做。質量難以保證。“他們不算房租、管理等,只核算人工費用。他們的邏輯是一個人一天50塊錢,高于這個價就是賺的。于是他們就報100元的單價。而第三梯隊需要承擔房租,稅收、管理費用以及每天的喝水吃飯等亂七八糟的消耗,至少報200元的單價,才可以做。”


早期,第四梯隊靠著這種方式,賺了一些錢,回收了硬件成本,并有結余。但2018年初,第二梯隊開始做店測,“看看你有多少人,看看你的場地。你不專業,行業正在慢慢把你淘汰掉。”淘汰,意味著沒有業務來源,那么多人需要吃飯、拿工資,不專業的第四梯隊危機便出現了。即便能夠找到項目,采標項目的要求提高,比如準確度要達到95%甚至是99%以上,小作坊必須從團隊中抽出一部分人脫產質檢和最后的抽檢,成本也會上升。


壓力,對于行業中的每一個參與者都是同樣的。對于龍貓數據、Testin云測、倍賽 BasicFinder等第二梯隊公司來說,他們需要幸運快樂8迭代,他們需要想清楚在這個過程中如何突破自我,不斷創新,走出自己的舒適區。他們找到了一個抓手起步,需要思考的是未來怎么才能取得全勝。


業界認為,第四梯隊危機的出現,有利于實力強大的第二梯隊靠著服務質量與效率搶占退出的小作坊留下的市場空白。


新階段與新競爭


數據標注和采集是一個技術活。


需求來到,采標公司做兩個方面的工作,一,調配和研發模塊,二,進行試標,并嘗試總結規則,并培訓。做完了這兩方面的工作,公司會向需求方報價,報價過程中,采標公司回去準備相關應標材料或者應答材料。


中標之后,采標公司開始傳輸數據,上傳到平臺上,并開始配置生產和標注業務。據悉,數據標注業務的配置是一個復雜的數學模型。比如,有些任務需要串并聯的工作流,并聯的工作流是多人協同的工作。串聯的工作流是后一個結果是基于前一個結果進行處理的,串并聯的工作流需要平臺來實現業務工作流的配置。比如一些NLP型的文本標注作業,需要多個人來標,最后N選一或者投票。串并聯配置涉及到底層數據流的分發等。


標注過程中,質量的協同管理和績效的統計非常關鍵。平臺需及時統計到每個人的準確率、穩定性以及效率。標注完了之后,客戶驗收前,采標公司還需要抽檢。最后,公司按照與客戶約定的格式進行交付,這又涉及到格式轉化的問題。


以上過程包含了整個標注系統所有的技術核心點。標注和采集服務并不是堆人就能夠干出來的。對于依靠人力的第三、第四梯隊來說,賈宇航認為,如果它們想轉型眾包+工具的新生產方式,“局限性比較大”。理由有二:


一、數據行業的領頭者會通過這3年的持續服務,在客戶圈贏得口碑,品牌效應會給其帶來一定的商業積累。一些更在意質量、更在意投入產出比的公司會逐漸向領頭者們傾斜。


二、技術優勢。頭部標記公司有資金去優化自己的工具和應對客戶的定制化需求,并通過管理經驗優化對應的服務體系和流程。而對于小團隊想要快速建立已有工具和流程化體系去覆蓋一個或多個行業是有局限性的。有兩條路可供它們選擇,第一,精簡團隊,專營一個或幾個AI公司的業務,做一個小而美的生意;第二,與精英合作,使用精英提供的工具,做平臺分配過來的任務。


幸运快乐8對于尚未入場的后來者來說,如果后來者一開始便立志做一個眾包+工具的平臺,除了克服商務壁壘外,在眾包方面,眾包平臺需要強運營能力,需要足夠多的人在平臺上。平臺方需要考慮如何拉新,如何保留日活、月活等。在工具方面,只有一個可采標的APP也是不夠的,沒有便捷的溝通方式減少誤差的傳遞,也是很難做成的。這就像木桶理論一樣,缺一塊板都裝不了水。換言之,留給新進入者的窗口期逐漸關閉。


業內人士認為,采標市場將進入戰國爭霸期。實力強大的第二梯隊之間不可避免地面臨著一場混戰。數據采標市場開始趨于統一。第一梯隊注定不會成為爭霸期的主角。因為行業競爭等方面的考量,采標需求方不會將數據交給百度、京東的眾包平臺來做。做人力資源外包的上市公司會在下半場拿到一定比例的市場份額,會對五家標采公司造成一定的威脅,但該威脅不大。


下半場,第二梯隊將如何競爭?通過與第二梯隊中的三家公司深入交流,黑智發現它們對未來和競爭理解各異,布局也不盡相同。這些差異在它們誕生的那一刻起,便被注定。



01 做輕還是做重?


在回答“做輕還是做重”這個問題上,龍貓數據、Testin云測、倍賽 BasicFinder給出了不同的答案。Testin云測、倍賽 BasicFinder都建有自己的標注團隊,而龍貓數據則堅持用眾包的形式來做標注。


不同選擇的背后,是各家不同的基因。Testin云測成立于2011年,以App兼容性測試作為切入點,進入企業服務,后衍生出功能測試、自動化測試、安全測試、性能測試等服務,成為一站式測試平臺。2017年,Testin云測積累了大量客戶。一些AI公司找到云測,希望通過云測的眾測平臺做數據采集。這是Testin云測采標業務的起點。


Testin云測的采標業務做得很重,比如除了眾包采集外,它還會做定制化場景采集,甚至和橫店影視基地合作,利用橫店群演資源,搭建專屬場景,完成客戶的定制化場景采集。在標注方面,Testin云測又自建標注基地,與房山市政府合作用于數據標注。賈宇航表示,Testin云測所做的一切都是為了客戶需求,“通過工具研發驅動保障標注的效率、精度,以及安全性。并通過項目管理、風控管理等方式,確保標注精度達到客戶標準,以滿足客戶對于準確度的要求。”


從倍賽BasicFinder的產品基因上來看,倍賽的工具偏向于團隊模式的管理工具,而不是眾包模式。2018年12月,倍賽并購了欣博友,前面提到欣博友是一家運營了30年的北京數據處理公司。該公司提需求,倍賽做技術支持。“我們迭代了很多次,每個工具、快捷鍵、每個設置的優化,都是我們在數據生產中磨合起來的。倍賽接業務比別的公司都晚,2016年基本沒接業務,2017年才開始接。我們的工具做得很扎實。”


除了欣博友,倍賽BasicFinder一直在積極拓展產能,杜霖說,目前,倍賽BasicFinder又拓展了將近3000多個人的子工廠。“通過拓展自有產能,實現最專業的服務。”2018年9月,倍賽BasicFinder收購丁火智能100%股權。丁火智能旗下“薈萃APP”已積累數十萬活躍眾包用戶。“我們搭建了一套自主采集系統,再搭配薈萃APP實現數據采集,完成更多樣性的任務。”


和Testin云測、倍賽BasicFinder不同,龍貓數據沒有自己的標注團隊,工具偏向眾包模式。昝智和聯創,出身于互聯網公司,他們更希望用互聯網平臺化的方式去做采標,而不是“做一個純的數據工廠”。昝智既往經驗告訴他,應該讓系統做這些復雜的數據處理,而不是靠人對人的管理。因為人對人的管理非常低效。


幸运快乐8據昝智介紹,龍貓數據是較早使用眾包模式做數據采標的,“我們用眾包把事情做成了,很多跟進者也開始用眾包去做。”昝智認為,龍貓數據打造出了“倚天劍”。他不覺得學龍貓數據的人能夠做好眾包,“早進入這個行業的玩家,有一把寶刀,他們用這把寶刀獲得了利益,然后看到別人拿了倚天劍獲得了更大利益,為了造倚天劍,他不可能把寶刀丟了。刀丟了,他們可能啥都沒了。但不丟刀,他們又很難造出倚天劍。因為人的精力是有限的,思維是局限的,他們不可能一邊把精力放在寶刀上,又一邊造倚天劍,而且造倚天劍還比我們造得好,這不科學。”


昝智認為,龍貓數據沒有寶刀,“接到客戶需求,我們只能優化系統,才能保證準確產出數據。對于他們來說,接到客戶需求,他們還有退一步的路可以走,那就當場監督大家認真去干。他們是有退路的,我們也沒有退路,我們必須把它搞定。有退路的時候,人一急了,就容易選退路了。”據了解,目前,龍貓眾包平臺有400多萬用戶,其中只有一千多是做標注的。龍貓數據的標注業務主要由一千多個渠道商團隊承擔。


02 建模還是不建模?


賈宇航提到數據標注的產業鏈可分為三個部分:人員、工具以及算法。而Testin云測堅持做好人員+工具,不做算法。“數據具有可復制性這一特點,如果采集標注公司會算法,這有點像一個算法公司找另一個算法公司做標注,這一份數據到底是否用于乙方的提升,這中間存在一定的爭議。”“我們是在數據領域服務的企業,而不是賣算法的公司。我們只負責完成企業的數據采標需求就可以了,完成了交付,我們將徹底清除客戶數據。”


杜霖或許不會同意賈宇航的觀點,因為倍賽 BasicFinder正在打造一款傻瓜式建模系統——用戶只需要輸入數據,便可以得到一個AI模型。“如果客戶想成立AI部門,只需要部署上倍賽的系統上,然后再找兩三個AI工程師調參,就可以自己出模型了。如此,標注、采集、建模就會變成一個大閉環了,因為客戶懂業務,他知道業務數據應該是什么樣子。”杜霖說。 


現在,倍賽BasicFinder避免直接建模,杜霖強調,“我們將我們自主研發的私有化標注系統及主流的深度學習框架,統一封裝進倍賽的AI基礎系統BasicAI,實現AI數據及模型的整個生命周期管理。倍賽不建模,我們只給客戶提供一套底層工具,讓客戶自己去建模。”杜霖解釋說,“Tensorflow、Keras及Pytorch這些深度學習庫的出現,讓建模沒有門檻,未來甚至高中生都能夠建模。”


如果一個汽車公司讓倍賽BasicFinder幫忙做一個自動駕駛系統,杜霖表示做不了。但他也說,“我們的BasicAI實現從標注到建模的高效流程管理。客戶在倍賽標數據,數據流到建模平臺,客戶在Tensorflow里調點參數,模型就出來了。” 今年,倍賽將推出3.0新版本,同時提供SaaS化標注工具服務,幫助客戶實現數據標注管理。杜霖提到,為團隊打造的采標及建模流程化工具,可以提高倍賽的業務延展性,提高競爭中的優勢。


選擇無優劣,但市場會給所有選擇一個清晰的答案。而戰國混戰,或在接下來的幾年見分曉。不過,客戶并不希望一家獨大,大樹之下,寸草不生的局面。未來,數強并立的局面或將長期存在。


走向終局


一個場景,一個市場,一個產業,一個江湖。


熙熙攘攘被裹挾著進場的人,有的主動選擇,有的則是被動,但一旦進入,市場和資本的邏輯發揮作用,他們你我都變成生產鏈上的生產要素,被挑選,被進步,亦或被淘汰。


各個產業參與者的位置,從誕生起或已被注定。從產生的那一刻起,它按著既有邏輯在走,從不以個人意志轉移。上半場,草根英雄輩出,拼價格,下半場拼品牌、服務與效率。精英開始清場,草根離場或者重新站隊。而資本,加速整個產業迭代。


現在,下半場剛開啟,談終局似乎有些為時過早。有太多的不確定將在接下來幾年的競爭中,變得確定。但更多的不確定性,可能又會出現。城頭變幻大王旗,只在一瞬之間。


黑智認為接下來幾年,不確定性雖是主流,但仍有幾件事是確定的:


1。 下半場仍將是性價比之爭。客戶永遠希望用最小的成本獲得更高質量的數據。為了生存和在競爭中脫穎而出,供給側不得不迎合性價比需求,他們不得不通過技術來獲得降價空間和利潤空間。賈宇航覺得,技術永遠是最重要的。“通過技術的方式倒逼自己不要賺太多錢。如此,價格才能降下來,競爭力則提了上去。”


幸运快乐82. 不要忽視傳統公司的AI需求。毫無疑問,接下來幾年,傳統企業的AI需求將會出現井噴,如何抓住他們,并服務好他們,這是所有采標公司亟需思考的。當然,也不能忽視AI行業的新數據,比如3D的激光雷達以及心跳數據等。


3. 不能忽視商務能力。不強的商務能力,或將成為采標公司的新短板。現階段,它們的產品和商業模式已基本經過市場的驗證。他們需要通過放大商務杠桿擴大產品的覆蓋范圍。


幸运快乐84. 建立第二條增長曲線。接下來幾年,有人離開,有人留下。每個人都有所歸屬,在產業鏈上,支配或者被支配。所有留下的公司都應該尋找第二條增長曲線,如此才能突破現有成本收益的限制。另外,張三的夢仍需要做,仍需要努力實現。夢想總是要有的,萬一實現了呢。


本文來自微信公眾號:黑智(ID:VR-2014),作者: 李夜。(注:張三為化名)

*文章為作者獨立觀點,不代表幸運快樂8立場
本文由 黑智? 授權 幸運快樂8 發表,并經幸運快樂8編輯。轉載此文請于文首標明作者姓名,保持文章完整性(包括虎嗅注及其余作者身份信息),并請附上出處(幸運快樂8)及本頁鏈接。原文鏈接:http://www.yypai.com.cn/article/289255.html
未按照規范轉載者,虎嗅保留追究相應責任的權利
未來面前,你我還都是孩子,還不去下載 虎嗅App 猛嗅創新!
+1
30
說點什么