给文心一言做标注,一个月4000元

“有多少智能,就有多少人工”。


(资料图片)

戏谑的话藏在人工智能背面,目前为止依然成立。刚从大学里走出来的丁洋,前途暂时踩在这后半句上。

丁洋大学时学的轻化工程,毕业后系里同学的去向大多是三班倒的造纸厂,他不想去工厂。今年6月份毕业后,丁洋从回到海口,8月初拿着一本电子版训练题库,两天后成为文心一言的“新手”数据标注员。

海口市秀英区的招商局大厦,文新一言的数据标注员们习惯把这里叫做“基地”。两百多人在这个基地进出,分布于这桩写字楼的其中三层,入职前要签保密协议,进门要刷脸,一人一台电脑,不少电脑还是老板从山西租了运过来的,因为在当地租这些设备熟人不多。

“这电脑买来500块钱都不用,我有次把主机拿去闲鱼上搜——就值60块钱。500块我能装一个比这好得多的。”

丁洋高考时候报的计算机,后来被调剂到了轻化工程,但他感兴趣的不是这个,反而在大学时看了很多计算机和软件工程的东西,这也让他在去年年底很快听说了ChatGPT的出现。

12月,他注册了个ChatGPT账号,然后“能力比较超出我的预知”,他说。

图源:品玩

我在基地的工位碰到丁洋的时候,他眼前电脑屏幕上的问题是:“成功人士的标准是什么?”

这可能是某位文心一言用户的真实问题,也可能是凭空生成的一个测试题,但摆到屏幕前了,需要被标注。

标注并不容易。

一个这样的问题下面会有五个文心一言给出的不同回答。数据标注员要看完,然后把每个回答里所有的瑕疵都找出来。

比如回答中的错别字或者“因为”“所以”之类的逻辑词错用,但更多是答非所问,或者某段话里出现了完全没有事实依据的所谓“幻觉”。

他要给这五个答案按回答质量打分,满分5分,一共五档,最低1分。3分及以下的回答,丁洋需要把每处错误各自划分到标注系统给出的不同错误类型里。

这复杂的纠错过程是在训练生成合适的奖励模型RM(reward model,也叫偏好模型),打分和排序的动作会让模型进一步与人类的偏好对齐。

这也是ChatGPT的取胜钥匙,OpenAI的论文中曾描述过这个在指令微调(Instruction tuning)过程中让人工智能向人类想法对齐的过程。

在数据标注员的工作之前,需要一些更专业的人员把发散的语料变成具体的问答对,然后像例题一样喂给大模型,后者在大量问答对的数据训练之后得到优化后,开始自己答题。

数据标注员在这一阶段为大模型生成的答案质量从安全性、准确性、相关程度等角度做出评价,这些评价数据进一步训练出一个奖励模型。最终这个奖励模型会代替人工标注的工作。

OpenAI超过300亿美元的估值背后,是大量时薪不到2美元的肯尼亚数据标注劳工,要不然它在去年12月也到不了丁洋面前。

但丁洋并不知道RM或是SFT之类的定义,他说上手前的培训中没有这些过于理论的内容,这里甚至有人不知道自己为之工作的文新一言是什么。但这不要紧,要紧的是把事情做完。

这份早九晚六,做六休一的工作,底薪1800元。一个月下来,如果平均每天能标注够40道题,底薪就拿到了。底薪按完成率算,提成则要把正确率也考虑进去。多来一段时间的“老手”的稳定工作量是一天7、80个,遇到的问题难度也高些。平均下来,一个月可以拿到4000元,如果努力一点,比如每天标注100道题左右的话,一个月可以拿到7000元。

对于丁洋这样刚毕业的学生来说,4000元算是一份起步不低的工作。海口人平均月工资只有3000元出头,甚至10个人里有6个人一个月拿不到3000元。本地有名的后安粉要卖11元,ChatGPT的标注员干一个小时能买一碗。相比之下,粉算贵的。按他的话说,海口人钱赚的不多,但在吃东西上舍得下手。“股票是最难的,或是汽车”,丁洋说。碰到这方面的问题一道可能就要花20分钟。

“比如会有人问是该买宝马3系还是奔驰C系”,这时候大模型会把关于两款车的80多个参数统统列出来去给用户比较,他就得跟在屁股后头去一一核实每个参数的真实性。

工作半个月也标注了大几百道题了,但他说自己印象里能拿到3分就已经不错,鲜有4分的。

他记得一道拿到4分的题,题目是“林黛玉为什么要打白骨精?”

文心一言没顺着竿爬,反应过来打白骨精的不是林黛玉,然后再介绍了林黛玉和白骨精各自的人物背景。从回答质量的各个维度来看,这都几乎无可挑剔。

我把这个问题提给了Claude 2,它说:“白骨精化身为王熙凤多次羞辱林黛玉,林黛玉对白骨精的戕害感到愤怒。”——幻觉这件事确实够麻烦的。

图源:品玩

2020年初,“人工智能训练师”正式成为职业并纳入国家职业分类目录,两年后大模型的浪潮突然在这个目录上划开一个更大的口子。

眼看着人工智能拿走人类的旧工种,然后寄希望于它会创造出新的。就像那个马车被汽车取代,新工业会给马车车夫一个劳动致富新世界的笼统比喻,大把揣着钱找标的的投资人对这个说法买账,也有人不买,比如曾经奠定深度学习基础,现在却忧心忡忡的英国人杰弗里·辛顿。

但眼下最直接的创造就是丁洋这样的大模型数据标注员。

在2022年之前,那个人工智能前沿阵地仍然被驾驭不了自己的自动驾驶所定义的时期,对于数据标注员有一个冷冰冰的比喻:

“如果你把AI看成动物的话,数据标注员的工作大致就相当于准备饲料。”

这个工作便宜,重复——甚至够不上是个喂饲料的。

一个传统的数据标注员,每天的工作仅仅是仔细地观察每张接收到的图像,圈出一辆汽车或者一只狗的轮廓,打上标签,拖放到不同的文件夹里;或者用点阵工具将一段行驶录像中每一帧画面里的障碍物标记出来,留出一个完整的“可行驶区域”。

这样的动作一位数据标注员一天可能要做2000次。

只有经过标注的数据才能被人工智能学习。一家自动驾驶数据供应商曾表示,数据标注发展至今,自动化的程度仍然只有5%,另外95%的标注工作仍是以人工完成。

大模型来了之后,数据标注这个工种本身也开始变化。不只是对着屏幕简单的拉框、描点或者划线,大模型数据标注员主要的工作变成对生成内容的评估、排序和打分,如果涉及多轮对话或是多模态的内容生成,难度又陡增。

如果说传统CV和NLP时代的模型标注更倾向于按照客观规则行事,大模型的标注规则要主观的多,也更考验标注人员的素质。也因为这样,百度在海口和山西的大模型标注团队里全是本科以上的。

海口基地里的普通标注员有机会晋升为质检员,再往上可以做培训师,再做主管,最后则是项目经理。这是一条几个月内建立起来的通道。一位在海口为文心一言做数据标注的代理商表示,过了试用期后,内部有岗位就可以晋升,没有时间线。

这是个极速成型的新行业。“每一个环节上都是新人”,丁洋说。

质检员做完第一道审核后,会把题库交给第二道审核。第二道审核是百度内部来审,这些训练数据也就脱了丁洋所在标注团队的手。

为文新一言工作的丁洋和整个基地的200多人,算不上是百度的员工。

海口基地里的标注人员归属于四个不同的代理商。他们的劳务合同是和这些第三方数据标注公司签的。这是这个岗位的惯例,百度从搜索到自动驾驶到大模型的漫长人工智能历史,背后是全国超过600多个代理商,遍布300多个城市的20万数据标注人员。

百度给自己大模型专职团队的规模预设接近万人,这个计划将会兑现成未来全国十多个城市的新的“基地”。

百度智能云数据标注基地业务产品负责人胡驰相信,大模型数据标注员将会是一个长期的职业。随着大模型能力在各个场景深入,新的问题会出现,也意味着新的标注需求会出现,人类永远需要这样一种勤勉的对齐方式。

丁洋说,他会离开这儿的。

和他同一时间进来的新手数据标注员有20多人,很快已走了大半——多半是主动离开。工作内容的枯燥、计件工资的赚钱方式、对人的消耗,不难想象这会是个高流动性的岗位。而且不管再怎么有人叫好,人被机器取代的不安全感就在那里,这是所有人喜闻乐见的。

丁洋把这里看作一个能跟着这个产业一起成长的机会。“试试看能不能做到主管”,他说,然后去找一个离这场人工智能浪潮更近的位置。

(文中丁洋为化名)

关键词: