国产ChatGPT还没火,数据标注公司已经涨了几轮。
创业邦(ID:ichuangyebang)原创
作者丨洪雨晗
(资料图)
编辑丨昝立永
题图丨unsplash
国内又一AI领域的大牛宣布进军大模型领域创业。
3月19日晚,创新工场董事长兼CEO李开复在朋友圈发布消息称其正在亲自筹组 Project AI 2.0,一个致力打造 AI 2.0 全新平台和 AI-first 生产力应用的全球化公司。李开复认为目前的人工智能应用,仅仅是AI 2.0 能力的开端,而在他的计划中,Project AI 2.0 不仅仅要做中文版 ChatGPT,更要去引领全球的人工智能浪潮。
李开复表示:“AI 2.0带来的平台型机会将比移动互联网大十倍,这也是中国第一次迎来平台竞逐的机会。新平台上所有用户入口和界面都将被重写,能够建立下一代平台的公司将会取得巨大的优势和话语权。”
上周是人工智能领域有史以来最疯狂的一个星期,从GPT-4、Microsoft 365 Copilot、Midjourney V5、Google PaLM API、文心一言,再到周末晚李开复朋友圈发布“英雄帖”,人工智能领域的一枚枚重磅炸弹让人应接不暇。
在大模型以及ChatGPT的消息刷屏,各AI领域的大牛集结向国产大模型发起冲击之时,其实有一家公司在数月前ChatGPT火热之时已经赚麻了。
站上风口,老天喂饭
从上周微软正式宣布,将Microsoft 365服务全面接入聊天机器人技术AI Copilot,以海天瑞声为代表的数据标注企业涨幅就已超过15%,如果将时间线延长至今年1月份,海天瑞声的股价已从当时的每股60元上下暴涨至每股近200元,股价翻了三倍多。
即便海天瑞声紧急发布公告作出风险提示:“自然语言业务对公司整体贡献大约在10%左右”“公司尚未与OpenAI开展合作,其ChatGPT的产品和服务尚未给公司带来业务收入”,但资本市场的热情仍然不减,公司的股价一直在高位徘徊。
资本市场对以海天瑞声为代表的数据标注企业的偏爱不难理解,有投资人打趣道:“有实际产品就是不一样,AI这三个月的热度超过了元宇宙三年间积攒的热度。”在ChatGPT火热之时,相关概念股自然也是水涨船高,更何况根据海天瑞声的招股书显示,其主要客户名单中有Open AI背后的投资公司微软的身影。
也就是说海天瑞声虽然没有给ChatGPT母公司Open AI提供相关数据标注服务,但其在投资者互动平台表示微软一直是公司多年合作的头部客户,而且除了微软外,百度、腾讯、阿里、字节等国内有实力做中文大模型的互联网大厂几乎都是海天瑞声的重要客户。
海天瑞声可以说非常幸运,虽然没有去刻意追寻时代的风口,但其自2005年成立以来却数次乘上人工智能爆发的东风,实现了迅猛发展,当然,这和海天瑞声创始人贺琳的专业技术背景密不可分。
据公开资料显示,海天瑞声创始人贺琳是68年生人,从北京大学毕业后就一直在中国科学院声学研究所,从事语音识别、语音合成、汉语语言理解、语音心理测试等方面的研究工作,先后参与了“汉语人机语音对话系统工程”、“汉语语音参数合成”等国家自然科学基金重点项目。
贺琳35岁创立海天瑞声的原因在于基础训练数据的缺乏:“当时我认为这是未来的一个方向,因为大家在工作中都会遇到这样的瓶颈。一些企业的研究员更想专注于做算法,但又缺乏数据。”
海天瑞声成立初期主要从事语音采集及利用方面的业务,很明显,凭借贺琳的专业技术底蕴对采集的开源语音进行加工处理,也因此海天瑞声在智能语音方面积累了深厚的研究成果。
随着人工智能行业的迅猛发展,数据标注训练的市场需求开始涌现,海天瑞声拓展了业务范围,在训练数据方面进行了技术研发,并在此期间拿下了微软、百度、三星等大客户。
“我们的许多客户都是全球性的大型科技公司和头部人工智能企业,他们的产品需要推广到世界各个角落,所以产品中的语种/语言功能也需要能够匹配其所布局的地方区域。”贺琳表示,随着人工智能行业的进一步发展,海天瑞声的业务量猛增,根据海天瑞声2022年半年报,其在国内市场占有率达12.9%。
还能火多久?
贺琳曾对外表示:“数据是算法发展和演进的‘燃料’,算法、算力、数据这三个要素一定要互相作用,才能使AI行业得以发展。”
AI数据标注是训练AI大模型过程中不可或缺的一环,AI数据的处理过程包括对数据的收集、原始数据的清洗以及对数据进行标注,数据标注通常被视为没有什么技术含量的“dirty work(脏活累活)”,因为数据标注仅仅是工人对文本、图像、视频进行分类划分,把数据转化为机器模型可以理解的信息。
海天瑞声的NLP数据标注服务,图源:海天瑞声官网
早期的AI模型训练有一个广为流传的说法——“有多少人工,就有多少智能”。举一个简单的例子,一个AI模型想要学会识别狼和狗的图像,那么一种方法就是先用人工识别标注好的数据进行分类,喂给AI模型进行学习,AI模型的能力越强,背后人工的付出就越多。
因而这项工作对劳动力几乎没有要求,所以不少企业把这项工作外包给第三方。像Open AI就将部分数据标注工作外包给肯尼亚劳工,但因工作环境糟糕,加之低廉的薪水,从而被不少媒体报道批评。
Meta首席人工智能科学家Yann LeCun就曾评论ChatGPT称:“(它)并不具有创新性,也不具有革命性……它只是个巧妙的组合”。
其实不仅是Open AI,国内不少专门的数据标注公司也是设立在十八线的乡镇城市,国内媒体《三联生活周刊》就有一篇报道专门讲述了黄土高原县城里的一群宝妈成了AI训练师。就连海天瑞声也不例外的将其最基础的数据分类、标注公司外包给了第三方。
可以说,很长一段时间以来,AI数据的处理和标注其实就是一个简单的人力“内卷”的生意。谁的人工更便宜,谁就能接到更多的订单,谁的劳动力更多,谁就能接到更大的数据包标注工作。
然而,随着行业对ChatGPT研究越多,发现传统的数据标注工作已难以支撑起GPT-4这样的人工智能模型,GPT-4可以根据人工标注的反馈结果来不断优化自身模型,专业的标注、评估和反馈相当于ChatGPT进化过程中的奖励函数。
海天瑞声CV标注,图源:海天瑞声官网
不少有志于自身打造中文世界大模型的公司已开始意识到这件事情,不再外包数据标注的工作。不少标注师的工作也从图像是猫还是狗变成了一些涉及意识形态和价值观判断的工作,在一些专业细分领域还涉及了行业的Know-How,工作门槛已开始提高,普通标注师进行简单的图像、文字划分已难以完成这部分工作。
这些变化已开始对现在的AI数据标注行业造成了冲击,虽然在人工智能迅猛发展的今天,部分初始阶段的普通数据标注需求依然存在,但数据标注公司想要长久发展,就需要在无监督(含自监督)、半监督的机器学习技术上有投入和积累,还需要不断提高数据标注师的素质能力,升级自己的人才梯队,而不是简单的外包给人力成本更低的第三方。
从“dirty work”到有一定技术门槛的工作,没有人能躺着挣到钱,海天瑞声想要继续站在风口,必须开始行动起来了。