- 100天的突破:阶跃星辰大模型“全家桶”首次亮相,万亿参数性能逼近GPT-4
- 2024年07月06日来源:中国厦门网
提要:姜大昕在今年3月对钛媒体AGI表示:“我将模型和产品的关系比喻为灵魂和皮囊。大家一定听过一句话:好看的皮囊千篇一律,有趣的灵魂万里挑一。我们希望通过有趣的灵魂来展示产品的不同。
如果给你100天的时间,你能学会什么?根据AI效率工具“跃问”的说法,你可以利用这段时间学习一门新的语言,如法语、西班牙语或日语;或者掌握一门编程语言,如Python;你还可以学会演奏吉他、钢琴或小提琴等乐器;甚至可以学习绘画、摄影、视频制作或烹饪等技能。而“跃问”背后的创造者——阶跃星辰,给出的答案是:从万亿参数规模和多模态技术,到实际应用的大模型“全家桶”系列。
在7月4日举行的2024世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2024)上,首次参展的阶跃星辰发布了万亿级参数MoE(混合专家)大语言模型Step-2正式版、Step-1.5V多模态大模型以及Step-1X图像生成大模型。不仅展示了模型技术能力,还在WAIC 2024期间首次展示了与上影合作的AI互动体验,全面展示了AI大模型的应用落地效果。
阶跃星辰创始人兼CEO姜大昕认为,多模态理解和生成的统一是通往AGI(通用人工智能)的必经之路。模型的参数量决定了其能力上限,根据Scaling Law理论,全面进入万亿参数级别是通往AGI的核心之一。通用大模型的能力也决定了垂直领域大模型的上限。
随着新一轮AI技术革新浪潮席卷全球,越来越多的人认识到AI在推动社会和经济发展方面的巨大潜力。作为国内领先的AGI公司,阶跃星辰正利用大模型技术和应用,推动中国在全球AI领域的持续领先。
从首次亮相到现在仅100天,阶跃星辰就“暴力”地推出了万亿大模型——Step-2正式版。具体来说,阶跃星辰的Step-2万亿参数语言大模型正式版采用了MoE混合专家模型架构,在数理逻辑、编程、中文知识、英文知识和指令遵循等方面,用户体验全面逼近GPT-4。
阶跃星辰透露,其团队在设计Step-2 MoE架构时选择了自主研发的创新算法架构,并决定从头开始训练MoE模型。虽然训练难度较高,但能够获得更高的模型上限。通过部分专家共享参数、异构化专家设计等创新的MoE架构设计,Step-2中的每个“专家模型”都得到了充分的训练,不仅总参数量达到了万亿级别,而且每次训练或推理所激活的参数量也超过了市面上大部分普通Dense模型。
姜大昕告诉钛媒体App:“千亿参数的GPT-3.5模型是一个重要的分水岭。要达到GPT-4的万亿规模参数,各个维度的要求都上了一个台阶。训练万亿模型需要强大的算力集群、高效稳定的训练、高质量的数据,以及驾驭新颖的MoE架构。任何一个短板都可能导致Scaling Law难以攀登。”
因此,万亿参数的大模型需要大量的数据和算力进行训练。在Step-2的训练过程中,阶跃星辰系统团队突破了6D并行、极致显存管理和完全自动化运维等关键技术。
此外,阶跃星辰还发布了全新的Step-1.5V多模态大模型,在多模理解和生成统一的技术路线上取得了快速突破。相比之前的Step-1V,新的1.5V在感知能力、推理能力和视频理解能力等方面都有了大幅升级。而Step-1X图像生成大模型支持全链路自研的DiT模型架构,包括600M、2B、8B(80亿)三种不同的参数量版本,为客户提供了差异化和性价比的选择。
例如,这张具有中国元素的“上海东方明珠电视塔”图像就是由Step-1X生成的。
值得一提的是,基于阶跃星辰Step系列通用大模型的技术创新和广泛的落地应用实力,阶跃星辰的Step系列通用大模型荣获了WAIC 2024 SAIL之星。
在应用落地层面,阶跃星辰也在持续扩大商业化。如果说ChatGPT引爆的2023年是世界发现生成式AI的一年,那么2024年已经成为企业真正使用AI大模型和生成式AI技术并从中获得商业价值的一年。
作为新的生产工具,AI正在融入社会生产的各个方面。在制造、医疗、教育、交通、农业等多个领域,人工智能已经得到了广泛的应用,推动了传统行业的转型升级和社会经济结构的变革。
数据显示,中国已经建成的2500多个数字化车间和智能工厂中,经过AI改造的工厂研发周期缩短了约20.7%,生产效率提升了约34.8%,大大提升了制造效率。根据世界经济论坛《2023年未来就业报告》的估计,到2025年,自动化技术和AI将在全球范围内影响近40%的工作岗位。
今年3月,阶跃星辰团队公布了两款面向消费端的自研大模型产品——效率工具跃问和AI开放世界平台冒泡鸭,目前都已经全面开放使用。其中,钛媒体AGI使用跃问提问“钛媒体是一家怎样的公司”或“上海有哪些标志性建筑”等问题,都可以得到逻辑清晰的回答。它不仅可以提供信息查询、语言学习、创意写作、图文解读等多样化服务,还能够结合联网搜索、代码分析增强(POT)等能力,高效地理解和回应用户的查询,提供连贯且相关的对话,帮助用户在工作、学习、生活等各种场景下解决问题。而冒泡鸭则提供了探索故事、创作角色,沉浸在属于自己的开放世界中的产品。
此外,在今年的WAIC期间,正值《大闹天宫》制作完成60周年,阶跃星辰与上影联合推出了一款AI互动体验,将最先进的AIGC和大模型技术与《大闹天宫》的情境深度融合,用当代全新的视角领略中国传统文化的魅力,回顾经典动画作品的艺术成就,同时也为广大创作者打开了无限的想象空间。
姜大昕在今年3月对钛媒体AGI表示:“我将模型和产品的关系比喻为灵魂和皮囊。大家一定听过一句话:好看的皮囊千篇一律,有趣的灵魂万里挑一。我们希望通过有趣的灵魂来展示产品的不同。”
同时,阶跃星辰还在内容创作、金融财经等领域与合作伙伴达成了深度合作,共同探索面向C端用户的创新应用。此外,阶跃星辰还推出了开放平台“繁星计划”,面向行业优秀企业和开发团队开放API,共同加速AI在行业场景的应用落地与繁荣。
当前,中国拥有万亿级的AI产业规模和13亿人的参与,并且中国政府全面鼓励AI+产业发展,这将促使中国在To C端的AI应用比To B端有更大规模的效应。而阶跃星辰顺势而为,利用从头自研的万亿大模型技术实力,推动了中国AI产业的蓬勃发展。
无论是大模型技术、研发、人才,还是大模型落地应用、规模化回报,从3月首次亮相到现在,Step系列模型矩阵在万亿参数和多模能力上取得了全面进展。围绕阶跃大模型,逐渐形成了丰富的产业应用生态圈,重点行业领先落地。
因此,阶跃星辰已经成为“中国大模型创业公司第一梯队”。姜大昕曾向钛媒体AGI等坦言,ChatGPT是一个划时代的技术变革,大模型创业之路非常长。他说:“我一定要自己下场,以最快速、最灵活、最全面的方式投身到变革中去。”