作为当前人工智能发展的重要方向,预训练大模型已成为AI领域的技术新高地。12月8日,鹏城实验室与百度发布双方共同研发的全球首个知识增强千亿大模型——鹏城-百度·文心。该模型参数规模达到2600亿,是目前全球最大中文单体模型。
国产算力+深度学习开源平台联合
当人工智能的需求呈现出碎片化、多样化的特点,人工智能模型却存在很多挑战,通用性低是首要问题。也就是说,A模型往往专用于特定A领域,应用到B领域便差强人意。
百度首席技术官王海峰介绍,百度知识增强大模型从大规模知识和海量数据中融合学习,效率更高,效果更好。从2019年3月发布文心ERNIE 1.0,到最新的产业级知识增强大模型文心全景图,既包含基础通用的大模型,也包含面向重点领域、重点任务的大模型,以及丰富的工具与平台,有助于促进技术创新和产业发展。
此次发布的鹏城-百度·文心是“全球首个知识增强千亿大模型”,可在机器阅读理解、文本分类、语义相似度计算等60多项任务取得良好效果,并在30余项小样本和零样本任务上刷新基准。该模型将进一步解决AI技术在产业应用中缺乏场景化数据等关键难题。据分析,60多项不同的任务,说明大模型的通用性很强,30余项小样本和零样本任务刷新基准,则意味着大模型泛化能力更强,对支撑各行各业非常重要。
本着“开源开放”的理念,该模型代码近期会在OpenI启智社区开源,依托鹏城云脑Ⅱ对外开放,积极联合“产学研协”各方,充分挖掘AI大模型的赋能能力,助力科技创新,推动产业发展。
据悉,鹏城实验室的算力系统“鹏城云脑Ⅱ”和飞桨深度学习平台的联手,解决了超大模型训练的多个公认技术难题。“鹏城云脑Ⅱ”是国产自主的首个E级AI算力平台,曾在多个国际性能测试上获得冠军。飞桨是我国首个自主研发的深度学习开源开放平台,研制了端到端自适应分布式训练框架,实现多硬件支持,并行效率高达90%,有效支持鹏城-百度·文心千亿大模型高效、稳定地训练。
从“大炼模型”到“炼大模型”
通常被简称为“大模型”的“超大规模预训练模型”成了最近AI产学研界“出镜率”颇高的词汇。从国外的谷歌、OpenAI,到国内的百度、智源、华为,布局大模型已成为世界性趋势。大模型究竟有何魔力?
“预训练模型对整个科学的发展、社会的发展、创新的发展都是非常重要的工具。运用这个工具,可以帮助做很多人工智能的赋能,不局限于某个领域,这对人工智能的发展都是一个福音。”中国工程院院士、鹏城实验室主任高文说。
智源研究院认为,超大规模预训练模型的出现,很可能改变信息产业格局,即基于数据的互联网时代、基于算力的云计算时代之后,接下来可能将进入基于大模型的AI时代。“让人工智能像供水供电一样流向终端,流向用户、流向企业。谁能先做到这点,谁就会在AI产业发展中占据中心地位。”智源研究院院长黄铁军说。
为了提高机器学习算法的效率,改变传统的行业布局,过去几年,大家拼命做人工智能模型,导致模型越做越多。然而,一般的模型训练效果并不如人意,花了大量财力精力却达不到理想的训练效果,“为了优化效果、提高精度,模型越来越复杂,数据越来越大,很多公司的能力不足以应对这种状况,效率越来越低。”智源研究院院长唐杰此前曾举例道,小炼钢厂往往条件简陋,能炼钢,但质量不好。大炼钢厂买得起设备、花得起电费,炼出的钢质量就好,大模型就是大炼钢厂,它可以获得大量数据,并把数据清洗干净,提升算力,满足要求。与此同时,“小模型可能只需要几个老师和学生就能完成算法的设计,但是大模型的每一层都要找专人来做,这样可以把模型的设计和训练精细化,模型设计也从单打独斗变成了众人拾柴。”唐杰说。
“大模型就是把社会的各种数据资源、最强的算法以及算力整合在一起,变成公共基础平台。”黄铁军说。
新型研发机构、企业界纷纷布局大模型,是否会造成“过热”问题?黄铁军认为,无需担心这一点,他呼吁产学研共同努力发展大模型,使其更好地服务于各种应用、各行各业。