去年成都入选全国数据标注基地建设任务城市名单,一年过去产业发展如何?川观智库对此进行调查——
问趋势问现状问潜力 三问在蓉数据标注产业
-
□川观智库研究员 熊筱伟
数据标注产业,属于少数有大意义的“小产业”。
说它小,是因为全国市场规模预计今年也到不了300亿元,业内仅有几家上市企业,且其年营收都不超过5亿元。但就是以这般小体量,它却能吸引到国家多部委发专文支持。原因很简单:AI大模型训练亟需高质量数据,而数据标注是高质量数据供给的一个关键环节。
数据标注本质上是将人类知识转化为机器可识别的语言,为AI大模型学习提供“教材”。去年,国家数据局公布了首批7个承担全国数据标注基地建设任务的城市名单,四川省成都市入选。如今试点基地建设已满一年,产业在蓉发展如何?川观智库在专题调研过程中发现了一些值得关注的新情况、新变化。而要深入了解它们,可以从对三个新现象的追问开始。
调研企业名单
四川淘金你我信息技术有限公司
澳鹏数据科技(上海)有限公司
四川乐为科技有限公司
成都向己科技有限公司
成都市汇众天智科技有限责任公司
成都优易智数科技有限公司
成都小咖邦智能科技有限公司
路米科技(成都)有限公司
四川智成云逸信息技术服务有限公司
成都数据集团
成都与睿创新科技有限公司
以及5家不愿公布名称的公司
(以上排名不分先后)
一问趋势
印象中的劳动密集型产业,今年招聘为何要求本科起步?
一线调研期间,不断有数据标注企业负责人提起同一件事:今年开始只招本科生了。对数据标注产业来说,这件事确实算得上新鲜。毕竟这一行长期被看作是劳动密集型产业,从业者也以大专和中专学历为主。为什么今年招聘学历门槛突然抬高?这背后蕴含了怎样的产业发展新趋势?
现象背后的新趋势是什么?
●下游AI大模型产业的重心转移,使上游数据标注业务发生结构性变化
多名企业负责人告诉川观智库研究员,抬高学历要求主要是针对标注员团队。
成都市汇众天智科技有限责任公司总经理骆靖元说,去年招聘标注员还是大专学历起步,今年把门槛提到了本科。成都小咖邦智能科技有限公司总经理马欣伟谈到,如今新员工要求至少本科学历。澳鹏数据科技(上海)有限公司市场及政府关系副总裁项蔚表示,全国员工中有78%是本科及以上学历,而在今年成立的成都子公司,这个数字达到了99%。
这样的现象如今并不鲜见。中国信息通信研究院人工智能研究所等单位今年8月发布的《数据标注产业发展研究报告(2025年)》提出,数据标注行业对从业者的专业素养要求越来越高,高学历背景和多学科融合成为从业者的基本特征。
专业素养要求为什么会越来越高?今年为何开始强调高学历?
对此,企业负责人的回答基本一致:因为业务需要。“以前业务相对简单,基本都是常识类、生活类信息。图片上有一只猫,你把猫的轮廓标出来就行。”骆靖元表示,如今甲方项目的难度明显增加,比如看图片变成了看CT片,标注猫变成了标注人体骨肿瘤位置,这当然会对标注员专业性和学习能力提出更高要求。成都优易智数科技有限公司总经理金守超提到,下半年要招聘一批汉语言文学专业的大学生,“因为接了相关项目,需要有文学底蕴。”
综合受访企业反馈,大体能勾勒出当前数据标注需求正在发生的结构性变化:一方面,语音、人脸标注等传统需求增长开始减速甚至停滞;另一方面,聚焦垂类领域的数据标注需求出现快速增长,尤其智能驾驶、具身智能两个领域最多,医疗、美学、文学等领域次之。
这些变化的根源,是下游AI大模型产业的重心转移。根据亿欧智库《2024中国“百模大战”竞争格局分析报告》,2025年至2028年通用大模型格局逐渐趋于稳定,垂类大模型赛道将成为大模型产业激烈竞争的领域——相对于通用大模型,垂类大模型聚焦特定领域或行业,对数据标注的专业性自然会提出更高要求。
趋势带来的新变局是什么?
●从数据标注产业视角看,地方和企业的比较优势都在被重新定义
上述趋势的发展,会给数据标注产业带来什么变局?
马欣伟的经历,直观反映了其中一类变化。他所属母公司2015年在上海市成立,但直到去年他才受命来成都组建子公司。为什么不更早来蓉?马欣伟的回答很有意思:以前没必要来成都。
至于原因,他说得很坦诚:因为成都人力成本相对较高。这一点也得到受访企业广泛认同。四川淘金你我信息技术有限公司总监杨志发坦言,企业把全部约200名标注员都搬到了山西、湖南两省,在成都仅保留管理运营团队。这样做的主要理由就是节约人力成本,“山西、湖南(普通标注员)人均工资差不多,都是每月3000多元。但成都周边区市县现在没有4000元就招不到人,市区更贵。”此外,受访者谈到即便是省内其他市州,目前和部分已经形成产业集聚的省份(如河南、山西)相比,仍然缺乏人力成本优势。
但上述事实和看法,都是基于数据标注是劳动密集型产业的大前提。而马欣伟和同事如今选择落地成都,反映了这一判断前提正在发生改变——随着AI和垂类大模型进一步发展,数据标注产业将逐步从“劳动密集”向“知识密集”转变,“人才储备”也将逐步替代“人力成本”,成为企业更看重的地方资源。多位受访者都谈到,这或许也是国家级数据标注试点基地之所以落地在高校云集的成都,而非其他人力成本更低城市的重要原因。
川观智库研究员注意到去年至今,一批头部数据标注企业已经或正在考虑落地成都。澳鹏数据科技(上海)有限公司于今年5月、路米科技(江苏)有限公司于去年9月均在成都设立新公司。京东云西区业务负责人谈到,目前正在和成都接洽数据标注业务落地事宜。至于落地理由,受访者普遍提到看重成都人才梯队相对完整且数量庞大。
地方的比较优势正在被重新定义,而同样的事也发生在企业身上。
根据受访企业反馈,卷价格等传统竞争方式的有效性将逐步减弱,数据标注企业之间的竞争焦点将转向构建专业团队和相关能力。而这一变革的出现,又催生了AI大模型风口中的以下新现象。
二问现状
站上AI大模型风口,为何不少数据标注企业没能“飞起来”?
科技圈有句话:站在风口上,谁都能飞起来。当前,研究机构普遍判断“中国AI大模型正处于爆发式发展阶段”,川观智库研究员在蓉调研数据标注产业期间,却发现一个怪现象:少数企业营收的确实现了快速增长,但也有相当一部分企业的相关营收不增不减。
作为AI大模型上游的服务供应商,数据标注企业不应该是订单接到手软吗?为什么部分企业没能借助风口“飞起来”?
为什么有的企业没“飞起来”?
●客观上行业“内卷”导致营收上不去,主观上没紧跟甲方需求转型步伐
川观智库研究员采访的9家在蓉数据标注企业均为行业组织和从业者推荐。在这个有限的样本池中,超过半数企业尚未从风口上“起飞”。
除去成立不足一年的企业外,有7家在蓉数据标注企业向川观智库透露了近年数据标注业务营收变动情况,其中5家没有明显增长。四川淘金你我信息技术有限公司负责人表示,今年该公司的数据标注业务营收预计和去年、前年基本持平。成都小咖邦智能科技有限公司、四川智成云逸信息技术服务有限公司负责人预计今年营收和去年同比没有增长。金守超表示,今年营收和2023年的规模大体相当。骆靖元表示,自2023年以来业务量一直保持平稳,“几乎零增减”。
然而,就在过去几年,ChatGPT发布并于国内掀起AI大模型产业发展浪潮。下游蓬勃发展,为啥上游这些企业的营收没能跟着增加?川观智库研究员调研后发现,除个别企业有自身转型的特殊情况外,主要涉及两个原因——
原因一是行业“内卷”导致营收上不去。受访者普遍反映目前行业竞争太过激烈,以至于出现“甲方有项目,乙方不敢接”的极端情况。路米科技(成都)有限公司、成都优易智数科技有限公司、成都市汇众天智科技有限责任公司负责人都向川观智库研究员提到,现在市面上很多项目都不敢承接,因为竞争导致利润太低、账期太长且存在亏损风险。
综合受访者反馈,“内卷”重灾区主要集中在传统业务以及部分门槛不高的垂类业务(如智能驾驶领域)。金守超表示,企业一度主要从事智能驾驶领域的数据标注,但现在已基本放弃涉足该领域,“(智能驾驶)单子太不好做了。利润率能有5%都算不错了,而且还要项目质量管控很严格才行。一旦没管控好,对方验收不合格就要返工,而一旦返工就可能亏损。”此外,他和多位受访者都谈到,目前甲方结算周期较长,回款时间动辄半年,导致乙方资金压力和经营风险陡增。
原因二是没跟上甲方需求转型步伐。前文提到当前数据标注需求正在发生结构性变化:主要依靠常识的传统需求增长乏力,需要一定专业知识的垂类领域需求则快速增长。对此半数以上的受访企业(5家)表示,目前完全没有或很少承接需要专业知识的垂类领域项目(占年营收10%以内)。与之相应的是,它们当中除1家刚成立不足一年外,其余4家中有3家的近年业务没有明显增长。
为什么有的企业能“飞起来”?
●在发力垂类业务、避免行业“内卷”方面探索出了应对之道
借着风口托举,也有企业实现了高速发展。成都向己科技有限公司CEO谭浩宇谈到,今年企业营收预计约为去年的三倍,而去年营收又是2023年的三倍。项蔚表示,目前成都子公司成立不足半年,但澳鹏数据中国业务今年上半年同比增长77%,过去五年的年均复合增长率达到90%。
这些企业为什么能够“飞起来”?从跟上甲方需求转型步伐的角度出发,它们的确都在发力垂类业务。例如,谭浩宇表示,公司主要专注具身智能、医疗两个垂类领域。从应对“内卷式”竞争的角度出发,它们都在通过加强标注工具研发、团队建设等方式来强化企业护城河。又如,项蔚谈到,会持续布局公司智能化数据生产平台,储备覆盖10大垂类的专业人才网络。
在川观智库追问下,受访者进一步谈到了实现目标的一些方法论。
如今业内对垂类业务的重要性已有共识,难点在如何跨过专业门槛——简单靠人才招聘并不能解决所有问题。随着垂类业务走向深入,出现大量对口本科生都无法胜任的任务,必须要更高阶人才参与。但这类人才往往有较好职业前景,不愿转行。即便愿意,数据标注企业也很难承受大量雇佣他们的高额薪酬。
如何破局?除了聘请专家兼职外,有不愿具名的企业家谈到可通过任务拆解和培训来降低专业门槛。他谈到一个真实案例:某医疗项目有大量拍摄人体病变器官的医疗影像,需要标注出其中病变位置、类型等信息以供AI大模型学习。正常情况下,这需要大量有经验的医生来完成。但该企业的做法是和少数医疗专家一起,将这个复杂的大问题拆成很多小问题。例如“某个器官某一种病变的主要表现形式有哪几种”,每位标注员就盯着一个小问题进行反复强化训练。“原理类似流水线分工,只要拆解得够细,就把原来需要专家才能干的工作变成让本科生也能完成。”他认为,这样做甚至可以降低对学科背景的要求,但对标注员的学习能力要求很高。
至于应对“内卷式”竞争,有受访企业选择“不卷了”——直接退出竞争激烈的标注环节,而集中发展门槛和收益更高的业务环节。
一家企业负责人坦言,目前内部一位标注员都没有,现有团队主要就干三件事:第一件事是做项目顶层设计,帮助甲方明确到底需要什么、有什么要求,“现在很多客户不太懂(数据标注),他们知道场景需求是什么,但到底需要乙方标注哪些数据、怎么去标注这些数据,就不太能说得清楚。”他提到智能驾驶领域的一个典型需求——标注道路上的汽车。不专业的客户往往只要求把形状类似的车都标成同一类,等工作干到一半才发现应该把校车、消防车等需要特殊应对的车辆分别进行单独标注。顶层设计就是为避免类似情况发生,帮甲方提前明确和完善项目需求、标注规则等,以确保后续工作的效率和效果。第二件事是前文提到的任务拆解。第三件事是根据项目特定需要,定制化开发标注工具——三件事做完后,具体标注工作就外包给第三方执行,“现在市面上不缺能干活的(标注)团队。”他表示经过上述转型,企业营收得以快速增长。
此外,多家企业负责人提到在探索延长产业链条,包括从单纯卖标注服务转向卖高质量数据集,下场开发垂类大模型、智能体产品(如机器人客服),等等。
三问潜力
省内需求潜力巨大,但本地企业为何找不到本地客户?
川观智库研究员一线走访时发现,多数受访数据标注企业的省内客户数量是“零”或“极少”。综合受访者观点,“客户多来自省外”这个现象本身不是问题,它反映出四川在挖掘省内数据标注需求方面仍有巨大潜力,在推动数据标注服务人工智能产业发展方面仍有不少工作可做。为此,川观智库研究员从现象出发进行了调查。
为什么感觉缺本地客户?
●省内需求相对较小,供需对接缺乏渠道
受访9家在蓉数据标注企业当中,4家省内客户数量为零;3家有少量省内客户,但占年营收比例均不超过20%;仅2家有半数或以上相关客户来自省内。
四川乐为科技有限公司负责人表示,客户全部来自省外,他也为之纳闷,“我们去参加全国(数据标注)行业会议,现场客户都是省外的。”同样没有省内客户的成都小咖邦智能科技有限公司负责人说,去年和今年他参加了不少省内活动,“相互一问,发现大家都是乙方,现场愣是一个甲方都没有。”
为什么会缺省内客户?受访者观点主要集中在以下两点:
一是认为省内需求小。有受访者谈到,数据标注需求遵循“二八原则”——约80%需求来自头部企业,20%需求来自创业公司。而和沿海省市相比,四川缺乏人工智能和互联网巨头,所以数据标注需求相对较少。
综合受访企业反馈情况,绝大部分客户是来自北上广深的头部互联网和人工智能企业。一家头部数据标注企业表示,目前国内客户约81%来自互联网和人工智能行业,7%来自汽车,6%来自智能手机,2%来自机器人,其他则来自半导体等行业。多位受访者表示和商汤、搜狗等头部企业在川机构谈过合作,对方均提出供应商选择要由总部决定。
二是认为省内客户少,供需对接不足。骆靖元认为目前缺乏信息渠道和对接渠道,“我们也不知道往哪儿去找(省内)客户。”多数受访企业也提到类似观点。
如何更好释放省内需求?
●加快对公共数据的开发利用,解决申请难、流程较长等问题
该如何看待“省内需求小”这一观点?川观智库研究员了解到四川3家人工智能链主企业的情况(今年首批公布共9家),其中2家表示,由于所处研发阶段等原因,暂无大量数据标注需求;成都考拉悠然科技有限公司则是自建团队。此外,从事人工智能辅助外科手术相关系统研发的成都与睿创新科技有限公司也自建了约30人的全职数据标注团队。该公司首席科学家秦典提到,一是考虑数据安全问题,二是对团队专业性和稳定性有较高要求,如果能有长期稳定服务的外部专业团队,未来也可以洽谈合作。
此外,前述省内客户过半的2家企业分别是成都优易智数科技有限公司、四川智成云逸信息技术服务有限公司。前者总经理金守超表示,公司深耕四川市场时间较长(2017年在蓉成立),目前年营收约一半来自省内,主要来自成都做大模型算法的科技公司,“客户多,但单子都不大,像每个月一两万元、连续做几个月(的订单)这样。”
但与此同时,受访企业普遍谈到,当前四川数据标注需求的潜力巨大。一方面,在人工智能时代,各行各业包括传统制造业都可能产生数据标注需求。要激发这一潜力,需要加大智改数转工作力度。另一方面,对公共数据的开发利用,尤其是交通、医疗等公共数据如向社会开放,将迅速催生出众多应用场景,进而释放巨大的数据标注需求。
对于后者,四川智成云逸信息技术服务有限公司的数据标注客户几乎全部来自四川。其负责人表示,目前主要与省内运营商合作,承接地方政府项目中的数据标注业务。
然而受访者也普遍反映,目前公共数据开放仍较为有限。川观智库研究员了解到的一份成都市相关研究材料显示:在“数据不出城”的政策限制下,面向市场化的应用场景难以获取原始数据资源开展标注。
即便是经过脱敏等处理、允许向社会开放的公共数据,目前也存在申请难、流程较长等问题。有企业表示,申请智慧城市场景相关数据流程走了约3个月,直接导致项目延期交付。受访者建议由相关部门牵头疏通相关堵点。
至于“供需对接不足”,成都数据集团相关负责人建议,希望有关部门牵头建立供需撮合官方渠道,组织全市层面数据标注供需对接会等活动,并表示由该集团牵头建设的市级数据标注公共服务平台“蓉数·智能数据标注生成管理平台”将进一步强化“线上+线下”供需对接功能。另有受访者建议,探索制定并定期向社会发布数据标注的需求清单。


