文章主题:复旦大学邱锡鹏教授团队, 大型语言模型, MOSS, 公众参与内测

666AI工具大全,助力做AI时代先行者!

本文来自微信公众号:新周刊 (ID:new-weekly),作者:徐倩影,题图来自:视觉中国

2023年第一季度,国内多家互联网企业相继推出类ChatGPT产品。

在我国的AI领域,一系列的突破性进展正在不断发生,这无疑预示着未来科技的发展方向。首先,复旦大学邱锡鹏教授团队成功发布了我国首个对话式大型语言模型MOSS,并对其进行内测,这一举措无疑开启了一个新的篇章。同时,百度公司也推出了其类似ChatGPT的产品“文心一言”,展示出了我国AI技术的实力。紧接着,阿里云在4月初公布了他们自研的大模型“通义千问”,并已经开始邀请用户进行测试体验。这一举动显示出阿里云对于AI技术的重视,同时也反映出我国AI企业在技术研发上的决心和勇气。最后,腾讯公司在4月21日对外披露了他们的混元AI大模型的研发进展,这一消息无疑让人眼前一亮。尽管这些大模型的体验感尚未公布,但它们的推出已经明确地向世界宣告,我国AI企业正在加速前进,积极应对未来的挑战。总的来说,这些进展表明我国AI企业在技术研发上已经取得了显著的成果,同时也展现出了他们对未来科技发展的无限可能。然而,这仅仅是开始,随着这些大模型的逐步成熟,我们期待我国AI企业在技术创新上能够取得更大的突破,推动我国科技事业的发展。

在众多互联网巨头纷纷寻求ChatGPT风口的新的商机时,身为一家人工智能下游数据标注行业的从业者的杨科琪,无疑也感受到了公司业务量的短期内的显著提升。然而,这种增长是否能够持续下去,他却无法做出准确的预测。目前,尽管国内有许多从事AI领域的工作室,但真正能够实现盈利的企业却寥寥无几。

早在2017年,伴随无人驾驶与阿尔法围棋(AlphaGo)带来的AI浪潮,数据标注行业逐渐进入大众视野。同年,国务院发布《新一代人工智能发展规划》,明确新一代人工智能发展三步走战略目标,人工智能上升为国家战略层面。

在2019年,也就是我国将人工智能训练师列入国家职业分类目录的前夕,一项新的创业计划在我国西北部的一个小型县城悄然启动。这个计划由杨科琪和他的朋友们共同发起,他们希望在这个相对欠发达的地区,利用人工智能技术提供数据服务,从而创造出一项新的商业模式。杨科琪认为,虽然数据标注这份工作门槛较低,但需要的用心和努力程度却很高。他解释道:“实际上,数据标注所需的技能并不复杂,只要用心学习和练习,一周的时间就能掌握。”尽管这样的工作可能听起来单调,但在当前我国一些县城地区,数据标注已经逐渐成为一种时尚和热门的职业选择之一。

在2020年,杨科琪从初创公司中离职,并加入了专注于AI数据服务领域的一家专业公司。他认为,数据标注行业未来的发展趋势必然是朝着专业化和职业化的方向迈进。

以下为杨科琪的自述。

是安逸还是无趣?

在这座宽敞的办公环境中,共有1000个工位和1000台高性能电脑。目前,这里聚集着800名专业的人工智能训练师,他们每天都在各自的岗位上辛勤工作。他们的主要任务是通过对大量数据进行分析,优化算法,确保人工智能系统的稳定性和准确性。在这个舒适的环境中,每位员工都拥有不到2平方米的办公空间。虽然空间有限,但这里的空调和网络设施都非常完善,以确保员工们的工作效率和舒适度。此外,为了提高工作效率,每个工位都配备了先进的电脑设备,以便员工们能够更加专注地完成任务。在这里,人工智能训练师们日以继夜地努力工作,为我国的人工智能事业做出巨大的贡献。他们用自己的专业知识和技能,推动着人工智能技术的不断进步,为实现科技强国的目标而努力奋斗。

当前,我们的主要业务领域为自动驾驶项目。在这一过程中,标注团队遵循系统提供的方框,借助鼠标精确定位车辆的大致轮廓,随后将其放大以便更准确地调整车辆边界的框线。完成这些步骤后,他们会选择屏幕左上角的车辆属性并仔细核对。

作为一名具备专业素养的人工智能训练师,其核心职责在于使汽车能够在行驶过程中,自动地识别并理解马路状况。然而,这并非易事,仅通过传递视频给计算机是无法实现这一目标的。为此,我们需要大量的标注员来参与工作,他们需仔细地在视频中标注出道路的位置,然后将这些信息提供给计算机。当计算机接收到如此多关于道路的信息后,它才能够逐步掌握在视频和照片中识别道路的技能。

在今年的三月,我国知名的专业服务机构德勤中国发布了一份名为《人工智能基础数据服务白皮书》的研究报告。该报告揭示,在人工智能基础数据服务的下游应用领域中,自动驾驶技术的占比高达52%,这无疑是一项显著的成果。随着自动驾驶AI算法的不断升级、迭代以及模型训练数据量的指数级增长,我们可以预见,这将引发一场数据需求的“大爆炸”。值得注意的是,相较于其他的项目,自动驾驶业务的持续性表现更为出色,且其服务周期的长度也相对较长。这一点足以证明,自动驾驶技术在未来将发挥更大的作用,并在未来的发展中占据更为重要的地位。

人工智能的三大基石是数据、算力与算法。我们数过羊、数过木头,还数过铁块,涉及的行业有医学类、安防类、现在的自动驾驶等,还接过看手相的一个项目,甲方要求我们给手掌上的各种手纹进行标注,很多员工都开始研究手相,挺好玩的。一般而言,视觉类的内容要做到机器准确识别,至少需要10万张图片。对于AI产品,数量越多、质量越高的数据,往往越能够训练出更“聪明”的模型。

标注员一天的工作内容就是画框线,根据项目的难易程度,一个框3分至8分钱,工作日8小时要画2000个框以上,人均月收入在3000元至4000元。

以我们公司为例,人员流动率在30%至40%,因为工作比较简单,每天8小时坐在电脑前,做着重复性工作,对于有的人而言是一份还算安逸的工作,但对另一些人而言就显得非常枯燥和无趣。

一个AI产品的诞生一般需要经历数据准备、模型训练与优化、模型管理、推理应用等4个模块,在国内已经形成了非常成熟的全产业链。目前,我所在的公司在做的就是数据准备,包括数据生产、数据清洗、数据标注三大方面。像我们这种布局在县城的数据标注公司,一般主要负责数据清洗和数据标注。清除模糊的图片、噪声太多的语音、错误的文本内容后,我们再进行画框线和数据标注,根据甲方的不同需求进行操作。

技能等级认定中的初级工

根据《人工智能训练师国家职业技能标准(2021年版)》的定义,人工智能训练师是使用智能训练软件,在人工智能产品使用过程中进行数据库管理、算法参数设置、人机交互设计、性能测试跟踪及其他辅助作业的人员。

在我看来,虽然标注员也被称为人工智能训练师,但如果按照去年发布的《关于开展新职业技能等级认定工作的通知》的内容,标注行业内的人工智能训练师在技能等级认定中应该属于初级工,在其之上还有4个更高的职业技能等级。

其实,拿证和做业务真是两回事。考取职业证书,按照职业教育的要求需要上满60个课时,课程中会系统学习人工智能的概念、未来的发展方向,以及相对完整的知识构架逻辑。但是在标注行业,在数据标注公司,聪明、用功的人学习一周就能上手,只要会使用标注工具就能胜任。

标注行业作为劳动密集型产业,运作模式主要有两种。一种是专业AI数据服务提供商自己雇人自己做;另一种是他们接到业务后发包出去,使用更具性价比的人员或公司。我所在的公司也属于后者,“层层发包”在标注行业比较常见。

数据标注发展初期,就是由“众包”模式而兴起,当时有很多众包平台,需求方项目要求有大量兼职人员接单,和目前的美团模式差不多。当年,我们的初创公司也是利用信息差,从数据标注平台接单,在市场上找更便宜的人力资源完成任务,但随着数据标注从野蛮生长阶段进入规范化发展阶段,市场上的兼职人员正在减少。越来越多的兼职业务正在被像我们这样的县城标注公司替代。

2019年,我刚刚创业时,知道数据标注的人不多,这行属于刚刚兴起。现在,这行的入门门槛变高了,参与的人也越来越多,市场压价现象很普遍,与刚入行时相比,价格下降了30%左右,我个人觉得数据标注市场已经有点“红海”了。

目前,大部分互联网企业都在自建基地,比如百度、阿里巴巴、京东等互联网大厂在全国都建立了基地,从而获得政策扶持、租金减免等条件。

人工智能的下一站是县城

人工智能训练师流行于县城?我觉得很正常。目前,国内标注行业的价格战愈演愈烈,在质量、效率不断提高的情况下,各大公司拼的无疑就是价格。随着行业的发展,甲方需要不断寻求价格更低的生产力区域,所以各大AI数据服务企业转战县城非常正常。

在县城办公,房租、人力成本相对较低,同时互联网企业确实可以解决一部分人的就业和收入问题。目前,百度拥有行业内最大的自建标注团队,在山东济南、山西临汾、重庆奉节、四川达州、甘肃酒泉、江西新余等10个地区有自建标注基地。

除此之外,政府补贴也是相关企业选择县城的主要原因。2023年1月,贵阳市人民政府网发布的《贵阳鼓励企业吸纳就业政策》中提到,贵阳市符合条件的小微企业、民营经济组织和社会组织吸纳高校毕业生就业的,给予800元/人的一次性吸纳就业补贴及一定额度的创业担保贷款。

数据标注作为劳动密集型产业,当企业更多地选在三四线城市落地,当地政府看重的则是产业化的基地建成后,带动当地就业、促进当地经济发展。智研咨询发布的《2022—2028年中国数据标注与审核行业投资策略探讨及市场规模预测报告》中提到,随着人工智能成为国家发展战略,其势头锐不可当,预计2028年我国数据标注与审核行业市场规模将达262.74亿元。

不久前,Meta发布了史上首个图像分割基础模型——SAM(Segment Anything Model)。有人认为,这代表着计算机视觉领域的GPT-3时刻已经到来。有人说这一模型会替代大量的标注员,我个人认为在数据处理的精度方面,人类无法被替代,至少目前不会,毕竟对于AI产品而言,数据越精准,模型才会越精准。

ChatGPT在社交媒体上引起了巨大的话题度后,国内多家互联网企业相继推出类ChatGPT产品。对我们而言,短期内AI企业对数据标注的需求量还会增加,毕竟数据标注在整个前期产品开发的过程中时间占比可能在全周期的20%至30%,目前这一块的数据确实需要大量的人去做。但是,随着平台标注自动化和预识别的发展,未来一部分标注员可能会被淘汰。

未来,数据标注这行一定会向着规范化和职业化发展,因为需求方的类型和要求会增多,也会涉及各个领域的专业性方面。比如医疗,如果没有医学常识很难做好标注;金融数据也是如此,看不懂财报,就没办法做标注。

(应受访者要求,文中杨科琪为化名)

本文来自微信公众号:新周刊 (ID:new-weekly),作者:徐倩影

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com

如对本稿件有异议或投诉,请联系tougao@huxiu.com

End

为何关注半导体?半导体下跌两年,股价处于低位;复盘上一波半导体行情,一季报后实现爆发;市场预计23下半年半导体周期反转,提前布局!本课带你全面梳理一季报,读懂先行指标,抓住个股α机会!

复旦大学邱锡鹏教授团队, 大型语言模型, MOSS, 公众参与内测

aigc666aigc999_0.jpg

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

Leave a Reply

Your email address will not be published. Required fields are marked *