必一运动谈大模型发展、具身智能、原始创新……解密智源“AI春晚”背后的故事

  新闻资讯     |      2024-06-16 05:55

  必一运动算力消耗高、幻觉问题棘手、多模态原生统一难……大模型轰轰烈烈发展至今,仍然面临技术上的诸多挑战。瞄准这些痛点,智源研究院放了个大招。

  6月14日的北京智源大会上,涵盖大语言模型、多模态大模型、具身智能大模型以及生物计算大模型的智源大模型全家桶面世。瞄准打造大模型时代的Linux,面向异构芯片、支持多种框架的大模型全栈开源技术基座FlagOpen 2.0也应运而生。

  智源研究院院长王仲远曾给智源的研究作出过一个高度概括——各家企业都在尝试的、已经相对成熟的技术路线,智源不做。智源要做的是攻克大模型的核心关键痛点,是解决行业前沿的技术难题。

  2024年初,围绕着大模型的算力消耗,一个新的问题成为焦点——能源消耗问题日益突出,以至于特斯拉首席执行官马斯克和OpenAI首席执行官山姆·奥特曼纷纷发声预警电力的短缺和能源突破的紧迫。

  而这一切也建立在一个不可避免的场景上,大模型约等于大算力,过往席卷全球的算力荒情况足以说明一二。

  为解决这一问题,6月14日,智源研究院和中国电信人工智能研究院(TeleAI)基于模型生长和损失预测等关键技术,联合研发并推出全球首个低碳单体稠密万亿语言模型Tele-FLM-1T。该模型与百亿级的52B版本、千亿级的102B版本共同构成Tele-FLM系列模型。

  据了解,Tele-FLM系列模型实现了低碳生长,仅以业界普通训练方案9%的算力资源,基于112台A800服务器,用4个月完成3个模型总计2.3Ttokens的训练,成功训练出万亿稠密模型Tele-FLM-1T。模型训练全程做到了零调整零重试,算力能效高且模型收敛性和稳定性好。

  在接受北京商报等媒体采访时,王仲远说:Tele-FLM-1T虽然还在训练当中,但它证明了我们的生长技术能够使用很少的算力就达到一个相对不错的结果。另一方面,我们也希望这样一个万亿稠密模型能够促进整个开源社区的发展,让大家不需要从头开始训练万亿参数模型,也就不需要从头解决收敛的问题。

  胡说八道的幻觉则是大模型的另一个致命缺陷。针对这一情况,智源研究院自主研发了通用语义向量模型BGE系列,基于检索增强RAG技术,实现数据之间精准的语义匹配,支持大模型调用外部知识。目前,BGE模型系列下载总量位列国产AI模型首位。

  而在多模态模型方面,智源研究院则推出了Emu3原生多模态世界模型。目前行业现有的多模态大模型多为对于不同任务而训练的专用模型,每类模型都有对应的架构和方法,而不具有原生的统一能力,例如目前Sora还做不到图像和视频的理解。

  Emu3瞄准的正是这一问题。据了解,Emu3采用智源自研的多模态自回归技术路径,在图像、视频、文字上联合训练,使模型具备原生多模态能力,实现了图像、视频、文字的统一输入和输出。

  简单来说,Emu3既统一了视频、图像、文字,也统一了生成和理解。据悉,Emu3在持续训练中,经过安全评估之后将逐步开源。

  此外,智源研究院还探索了生成式人工智能应用于分子生物学中的应用。在生物计算大模型方面,智源研究院研发的全原子生物分子模型OpenComplex 2,是世界领先的大分子结构预测模型,能有效预测蛋白质、RNA、DNA、糖类、小分子等复合物。智源研究院还构建了全球首个实时孪生心脏计算模型,可实现高精度的前提下生物时间/仿线,位于国际领先水平。

  调整你的时间表,这将是疯狂的2024年!今年初,谷歌DeepMind研究院在预测人形机器人发展趋势时作出了这样一个判断。在大模型炙手可热的当下,具身智能作为人工智能发展的另一条分支,硬生生杀出了大模型的重围,成为新的热钱涌入地。

  今年4月,首届中国人形机器人产业大会发布的《人形机器人产业研究报告》预测,2024年,中国人形机器人市场规模约27.6亿元;到2035年,市场规模有望达3000亿元。另有媒体统计,2023年中国一级市场机器人行业融资金额达240亿元,其中十亿元量级以上的投资事件数量在4起左右必一运动。

  得益于大模型的通用能力,机器人有了注入灵魂的可能。王仲远提到,智能体很可能会成为大模型出现爆款应用的一个方向。因为大模型的通用能力意味着可能出现真正意义上的智能助理,如果未来每个人都能拥有这样一个助理,并且足够智能且好用的话,就会催生巨大的产业变革。

  但具身智能也面临着实时性、敏捷性等方面的具体挑战。在北京智源大会上,智源研究院具身智能创新中心也分享了在机器人泛化动作执行和智能大小脑决策控制等方面取得的多项世界级突破性成果。

  例如在具身智能通用抓取能力方面,针对跨任意形状和材质的泛化难题,智源率先突破95%的真机实验成功率,从而实现了全球领先的商业级动作执行水平。

  据悉,借助这项技术,即使在复杂光线透射、反射的情况下,机器人依然能够准确感知包括透明、高反光物体的形状和姿态,并预测出高成功率的抓取位姿。

  而在分级具身大模型系统方面,智源研究院则研发了能够从失败中重思考、再尝试的铰接物体操作大模型系统SAGE。该系统有效结合了三维视觉小模型对空间几何的精确感知能力和通用图文大模型的通用物体操作知识,使大模型驱动的机器人能够在任务执行失败时重新思考并再次尝试新的交互方式,实现了传统机器人技术无法企及的智能性和鲁棒性。

  具身智能泛指人工智能技术尤其是大模型技术与物理世界不同硬件的结合,人形机器人只是具身智能的一种表现形态,即承载具身智能的本体是人形机器人。近来备受资本市场关注的也是这一内涵的人形机器人。

  但王仲远也提到,人形机器人的线年,从全球范围来看,每个月几乎都可以看到5—10个有影响力的大模型发布,但硬件的迭代周期通常还是按年计算的。此外,包括数据、大小脑的模型、应用的场景等也都处于非常零散的状态,比如数据方面缺乏ImageNet这样的一个数据集。所以我们可能也要接受具身智能以及人形机器人在未来几年进入低谷的可能性。

  为此,智源研究院依托在大模型特别是多模态大模型方面的技术优势,逐步将其与具身智能结合,进行技术突破的探索。同时也会联合高校、企业等打造具身智能创新平台,联合上下游供应链企业,通过具身智能创新平台解决数据、模型、场景等方面的问题,推动具身智能发展。这也是我们下半年和明年的重要工作之一,王仲远说。

  接受媒体采访时,王仲远常强调的一件事就是,智源研究院要做企业没做过的事,要做不可能,要做真正的技术突破和原始创新,王仲远说,这是智源的一个重要使命。

  对原始创新的追求贯穿于研究始终。比如智源研究院推出的Emu3原生多模态世界模型,就没有采用业界常用的DiT架构,而是采用智源自研的多模态自回归技术路径。

  仅从技术上判断,未来DiT一定可以达到一个可用的产品级模型,但如果瞄准真正的多模态大模型,瞄准AGI时代的多模态大模型,那么DiT就不是终极的技术路线,我们认为这个终极路线是自回归路线必一运动,即能够将不同模态进行真正的融合,王仲远说。

  事实上,目前即使是谷歌的Gemini和OpenAI的GPT-4o,也没能实现真正意义上的多模态必一运动。比如前者能够实现文字、图像、视频以及音频的输入,但输出的只能是图像和文字,后者虽然最新集成了音频能力,但也没有实现到视频的完整的生成和理解的能力。

  原始创新意味着孤注一掷的押注,也意味着极大的挑战和可能存在的失败风险。王仲远说,原始创新同样遵循科学规律,这就说明存在着失败的可能,呼吁社会能够给原始创新一个更宽容、更宽松的环境,创新不一定会成功,但即使失败也是非常有意义的失败。

  据王仲远介绍,自回归路线的每一个环节都很难,比如数据处理方面,文字、图像必一运动、视频、声音等不同的模态应该怎样表达成为一个统一的token,训练这些token的时候要用什么样的数据配比必一运动,模型先训练什么后训练什么,能否形成有效的算力支持训练,最终实际达到的效果能否看到Scaling Law……这些都是亟待被突破、验证和解决的问题。

  在王仲远看来,国产大模型在过去一年有了长足进步,去年还在追赶GPT-3.5,今年平均水平就已经超过GPT-3.5,并且无限逼近GPT-4,某些能力例如中文语境下甚至超过GPT-4。而当国产大模型达到GPT-4的能力后,中国最擅长的场景和数据优势就会得以发挥,变成真正可以赋能千行百业的新质生产力。

  但大模型自身的发展和外界尤其是普通用户的感知又常常存在着一定的温差。对此,王仲远对北京商报记者说:我们不能高估一次技术的速度,也不能低估一次技术的深度和广度。几年前我觉得AGI离我们还有四五十年的距离,但现在我觉得这个距离只有四五年,很多时候突破就是一瞬间的事情。而且最后不管是B端的爆发还是C端的杀手级应用,都是一定会到来的,而当绝大部分用户感知到的时候,已经是爆发之后的事情了。