本站报道(文/梁浩斌)数据标注岗位又要崛起了? 特斯拉近日在社交平台上发布了一则 招聘信息,表示正在招聘数据标注员,为Op timus 机器人和 自动驾驶系统标注图像和视频,以提供给现实场景中的机器人训练 AI模型。
在特斯拉官网挂出的岗位中,数据标注管理岗年薪最高可达13.8万美元(人民币94万元),加上岗位描述中提及的现金奖励、股票奖励以及各种福利待遇,妥妥的年薪百万!
早在十年前,大欧美科技巨头的数据标注工作就已经大规模外包到非洲、印度等地,数据标注由于入门门槛非常低,在AI产业链中处于“鄙视链最底层”。
而随着合成数据的兴起,人工标注行业也受到非常大的冲击。去年9月,马斯克的xAI公司将Grok数据标注团队员工解雇三分之一;硅谷数据标注独角兽Scale AI宣布裁员约200名员工,另终止了500名全球合同工的合作;去年11月,AI数据标注公司Mercor更是一夜解雇5000名数据标注员。
所以为什么特斯拉在今年反而重新启动了数据标注员招聘?数据标注行业会翻身吗?
数据标注:整个AI产业赖以生存的基石
简单来说,数据标注是通过人工对不同内容进行分类标注,给AI灌输规则、让AI认识现实世界。因为对于AI而言,包括图像、文本、语音、视频、激光点云等数据,都是毫无意义的内容,AI无法直接理解这些数据。
而数据标注就是人工按照场景规则,比如自动驾驶需要大模型认识不同的路标,那么就需要人工对大量路标的图像原始数据进行打 标签、画轮廓、定分类、标关键点等工作,赋予数据语义信息和现实含义;再比如文本标注,给文章、评论分类正面、负面、中性等情绪,或是归类
新闻、科技、
娱乐等内容,另外还有给文字内容中的人名、时间、专业术语、地名等进行分类等等。
前提是,标注员需要非常熟悉相关场景的“规则”,比如自动驾驶数据标注员要熟悉交通规则;尽管这有点像是在“蒸馏”数据标注员的知识...
经过标注后的海量数据输入 算法模型,AI 才能不断学习规律、识别特征,最终具备感知、判断、决策的能力,这就是数据标注最核心的作用。
随着 AI技术的发展,数据标注行业也在不断升级,早已不是简单的“画框打标签”。如今行业普遍采用人机协同模式,采用合成数据的模式,同时AI 先完成基础预标注,标注人员只负责审核、修正复杂样本和疑难场景。
当然,在一些细分专业的场景,依然需要有经验的专业人员对数据进行标注,比如医疗影像、自动驾驶决策、工业缺陷、法律文书等需要确保可用性和真实性的领域。
据公开资料,目前中国数据标注行业薪资也存在巨大的薪资差异,一些基础的重复性标注岗位月薪可能在三到五千,而具备医疗、金融、交通法规等专业背景的高级标注师,年薪可高达50万元。
特斯拉目前放出的数据标注员岗位描述显示,该职位的职责是负责对图片和视频进行标注,这些标注数据将用于特斯拉的 深度学习系统,需要使用公司内部的工具来处理从车辆及Optimus数据采集设备中获取的数据,但无需具备AI或数据标注方面的经验。
岗位描述中也提到候选人需要掌握基本的 计算机视觉和 机器学习知识,从而更深入地理解各种标签是如何被公司的学习算法所利用,当然还要掌握与道路交通相关的法律法规知识。特斯拉还表示团队会提供全面的培训,帮助候选人胜任这一岗位。但数据标注员岗位未有公开薪酬福利情况。
而年薪百万的管理岗位门槛自然更高,主要是需要具备管理中型团队的经验,以及与 工程师和AI团队协作吗,制定兼顾技术层面和运营层面各种限制条件的标注规范等。
值得一提的是,目前特斯拉开放的岗位数量中,管理层占多数,而数据标注员只有两个。行业中这种人员需求组成一般意味着目前仍处于团队建设的初期阶段。
人形机器人即将量产,数据成为新的护城河
过去AI数据标注往往采用外包的模式,但在算法与算力日益 商品化的当下,AI 企业的竞争壁垒正从技术架构转向数据资产。
通用大模型能力趋同、开源工具普及,让技术门槛快速降低,而高质量、专属化、可持续积累的数据,成为无法复制的核心资产。无论是自动驾驶的路测数据还是医疗 AI 的病历影像,
这些数据兼具专有性、累积性、场景化特征,既是模型训练的核心,也是企业构建差异化优势的关键,企业需要数据来构成 AI 时代的新护城河。
这在自动驾驶行业有非常显性的表现。车辆使用辅助驾驶行驶的里程数据,是驱动辅助驾驶能力跃升的关键之一,从过去的L4 robotaxi规控到现在的端到端大模型,两种技术路线的发展背后,方案能力的高低往往关系到路测里程数据的长度。
人形机器人的数据则更为稀缺。今年以来,人形机器人的量产进度不断加速,近日有消息称,特斯拉optimus V3已通过工程验证,预计将在5月试产,8月实现规模化生产;Figure在4月声称过去120天内生产效率提升24倍,单周可制造55台机器人;小米、超维动力、魔法原子等都发布了全新的人形机器人,都意味着人形机器人的大规模量产节点正在不断逼近。
但与此同时,人形机器人数据及其稀缺。与自动驾驶不同,当前无论是互联网上、车端的行车记录仪,以及存量的带有辅助驾驶能力的智能网联
汽车,都能够提供大量的图像数据,以及驾驶逻辑的数据可供模型训练。
而大语言模型则更是可以利用互联网上随处可见的文本,无论是新闻、书籍、社交媒体、评论等,都有大量数据,可获取成本较低。
但人形机器人所需的数据则是第一人称人类视角进行工作,需要的是物理世界的具身数据,每一个动作都要同步记录关节角度、扭矩、触觉、力控反馈、视觉、惯性等信息。比如怎样教会AI抓取一个鸡蛋?你需要视频数据的同时,还要获取抓取鸡蛋的合适力度、手掌压力分布、重心变化等数据,以向 电机输出相应的力来完成这个任务。而这些数据都需要从0开始构建和获取。
因此近年来物理AI数据采集也成为了一个新的风向。比如智元机器人在上海建立了数据采集 中心,覆盖家居、餐饮、工业、商超和办公五大类真实场景,数据采集员需要重复完成不同场景的任务来采集数据,而这些数据也需要进行精细化的标注,最终为机器人提供训练数据。
今年3月,地瓜机器人携手地平线、无问智科发起1万小时开源数据集计划,基于地瓜机器人具身大算力平台 地平线 Foundation Model 无问智科数据训练场采集的具身智能数据,助力全球 开发者优化模型算法。
小结:
物理AI正迎来产业从实验室走向规模化落地的关键拐点,数据采集与标注不再是边缘配套,而是产业链最核心的刚需赛道。而未来这些数据也将会成为各大物理AI企业的护城河,掌握高质量数据与标注能力的玩家,将主导产业话语权。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com