
好,咱们今天聊聊“标注公司”这个行当。你可能没听过这个名字,但你手机里的导航、语音助手、人脸识别,甚至短视频推荐,背后都离不开它们。说白了,标注公司就是一群帮 AI 看世界的“老师”。AI 刚出生时就像个婴儿,给它看一张猫的照片,它认不出那是猫。标注公司干的事,就是把成千上万张照片里猫的耳朵、眼睛、尾巴用框框圈出来,然后告诉 AI:“记住,这个形状就是猫。”这活儿听着简单,做起来却能把人逼疯。我有个朋友在成都的标注公司干过,他说每天盯着屏幕画框,一天能画上千个,眼睛酸得想哭,但工资就几千块。这就是标注公司的真实面貌——技术含量不高,但 AI 进步的每一步都离不开它们。

标注公司最早火起来,是因为自动驾驶。2015 年左右,百度、谷歌开始搞无人车,需要海量的道路数据。一辆车装上摄像头和激光雷达,跑一小时能产生几十 GB 的数据,里面全是路况、行人、交通标志。AI 自己看不懂,得靠人工一帧一帧地标出来。比如,把每个行人框起来,标上“行人”,把每个红绿灯框起来,标上“红灯”或“绿灯”。这活儿有多细?我听说有个项目,要求把路面上每一片树叶的影子都标出来,因为阴影会影响 AI 判断。当时做这行的公司大多开在二三线城市,比如贵阳、西安、长沙,人工成本低,房租便宜。有个老板告诉我,他雇了 200 个员工,月流水能到 300 万,利润率超过 30%。听着风光,但竞争残酷,价格战打得凶。2018 年一个框还能卖 5 毛钱,2020 年就降到 1 毛。
但标注公司不只会干苦力,它们也在进化。2019 年我采访过一家叫“云测”的公司,创始人是个从百度出来的工程师。他说,标注行业最怕的就是“数据污染”——标错了,AI 学歪了,整个模型就得推倒重来。所以他们的做法是搞“标注员+质检员”的双重审核机制。比如,一个标注员标完 100 张图,系统随机抽 20 张给质检员复查,如果错误率超过 5%,整批退回重做。这听起来像流水线,但确实管用。更高级的标注公司已经开始用 AI 辅助标注了。比如,先让 AI 自动识别出猫的轮廓,标注员只需要微调。这样一来,效率能提高 3 倍,成本降一半。我认识一个在青岛开标注公司的哥们,他专门接医疗影像的单子,帮医院标 CT 片里的肿瘤位置。他说,这活儿比标猫狗难十倍,但单价也高,一个病人数据能卖到 200 块。他靠这个,去年挣了 500 万。
标注公司的客户不仅是科技巨头,还有政府机构。2020 年疫情期间,很多地方政府搞健康码和人脸识别,需要标注大量的人脸数据。比如,口罩戴了没戴、人脸角度偏了多少度,都得标出来。一家在深圳的标注公司接了政府的单子,标了 50 万张人脸照片,每张收费 8 毛。老板跟我说,这活儿最麻烦的是隐私问题——数据不能外泄,员工签保密协议,电脑不能联网,U 盘都不能插。他们甚至专门雇了保安盯着,上厕所都得报备。这种单子利润高,但风险也大。2021 年有家标注公司因为员工把数据偷偷卖给第三方,直接被罚了 200 万,老板还差点进去。所以现在,很多标注公司都把数据存在加密服务器上,员工只接触脱敏数据,人脸直接打码处理。
标注公司的生存状态其实挺分裂的。一边是头部公司,比如“海天瑞声”“标贝科技”,已经上市,估值几十亿。它们专接大客户,一年营收能过 5 亿。另一边是无数小作坊,可能就三四个人,窝在居民楼里接散单。我刷抖音时看到过那种“兼职标注员”的广告,说一天能赚 300 块,点进去发现是骗局——先交 200 块“培训费”,然后给你一堆垃圾数据,标完不给钱。真实的标注员收入远没那么高。2022 年我在郑州见过一个女孩,她在家带娃,闲时做标注兼职,一个月能挣 1500 块。她说,最怕遇到那种“大单”,比如标 10 万张图,甲方要求 48 小时交工,她得熬夜到凌晨三点,眼睛都快瞎了。这种故事在标注行业比比皆是。
标注公司还有一个意想不到的竞争对手——AI 本身。2023 年 ChatGPT 火了之后,很多 AI 公司开始用大模型自动生成标注数据。比如,让 GPT‑4 写一段对话,然后自动标出情感倾向、意图分类。这样一来,人工标注的需求就少了。我有个在字节跳动做 AI 的朋友说,他们内部已经开始用“自监督学习”来减少人工标注,准确率已经接近 90%。这意味着,未来标注公司可能面临萎缩。但标注行业的人不这么看,他们觉得 AI 永远替代不了人。比如,标一张医疗影像里的肿瘤边界,AI 可能漏掉一个 2 毫米的病灶,但人眼能看出来。这种“边缘案例”就是标注公司的护城河。2024 年我在北京参加一个 AI 大会上,一个标注公司的老板在台上说:“AI 是学生,我们是老师。老师永远不会失业,因为学生总有问题要问。”
我想说,标注公司这个行业其实是数字时代的一个缩影。它既是 AI 的“燃料”,也是苦活累活。没有标注公司,就没有今天能聊天、能开车、能看病的 AI。但从业者大多默默无闻,拿着微薄薪水,在电脑前画着成千上万个框。这让我想起一句话:科技的光鲜,从来都是建立在无数人的汗水和重复劳动之上。标注公司就是那个“无名英雄”,它们存在感不强,但缺了它们,AI 的世界就会崩塌。至于未来,标注公司会变成什么样?可能会被 AI 取代一部分,但那些需要“人类判断力”的标注——比如医疗、法律、艺术——还会留给真人。毕竟,有些东西,机器永远学不会。