存储系统如何支持大模型生成式AI

发布时间: 2023-08-28 信息来源: 浏览:682次

   “跟着AIGC时期的到来,海潮信息作为最早结构AIGC年夜模子的企业之一,延续环绕"新存储之道"的理念,延续打造平台型存储产物,应对智能时期、AIGC时期的存储挑战。

冬瓜哥前次进修AI和ML,仍是在2019年头。那时实际上是卷积神经收集和深度神经收集蓬勃成长期,其首要目标是分类辨认。那时冬瓜哥还做了一个4小时的视频,那真是我见过的最小白的白也能轻松入门,理清晰最根基的名词概念关系的视频了,没有之一。那时辰操纵AI生成一些艺术作品已初见雏形,可是很是不成熟,根基上都是仅供文娱。我记得曾最少有两部科幻片子描写过(好比《机械公敌》,《Finch》),或许做梦对一个机械人来说,是一种超等进化的初步。生成式AI,AI2.0明日黄花。短短几年内,新的分歧在传统分类器的模子Transformer,让AI再一次改革。以往的RNN在天然说话处置练习方面的并行度不是很好,需要太多通讯,处置长句子时效力比力低。而Transformer模子重新的维度上解决了这个问题,高并行度让GPU练习效力年夜幅晋升。这个进程,感受像极了昔时散布式系统鼓起的时辰,大师也是拿着几篇经典论文翻来覆去的研读,然后最先用开源软件,最后逐步成长出本身的手艺。当AI冲破了人类说话这道关卡,后续就有点一望无际的感受了。由于人类常识今朝首要贮存在各类说话文本傍边。再连系对图片、声音等各类信息的数字化映照和阐发,让AI可以或许运行在多模态模式下,可以或许更好的理解字里行间的信息,更邃密化的生成对应的内容,走进了实际。多模态生成式AI(AI Generated Content,AIGC)是指经由过程生成和阐发多种模态的数据,如文本、图象、音频、视频等,以实现加倍丰硕和精准的智能利用。与传统机械进修方式比拟,多模态生成式AI可以或许充实操纵多种数据之间的联系关系性,提高模子的泛化能力和鲁棒性。出产式AI是人工智能从1.0时期进入2.0时期的主要标记,其具有壮大的认知智能,在搜刮引擎、艺术创作、影音游戏、文本生成、语音生成、图片生成、视频生成、代码生成、虚拟人生成和金融、教育、医疗、工业等范畴有着广漠的利用前景。Gartner猜测,到2023年将有20%的内容被AIGC所建立;到2025 年人工智能生成数据占比将到达10%。据阐发师猜测,到2032年,生成式人工智能市场范围将到达2,000亿美元,占有人工智能支出总额的约20%,显著超出跨越当前的5%。换言之,将来十年市场范围可能每两年就会翻一番。生成式AI的背后是基在行业上下流对数据进行收集、标注、练习、推理、归档,其特点是数据量年夜、多元数据类型复杂、办事和谈多样、机能要求刻薄、要求办事延续在线。因为多模态数据具有复杂性和多样性,是以多模态生成式AI需要具有以下特点: 跨模态数据融会:可以或许将分歧模态的数据进行有用的融会,以提取更丰硕的信息。 跨说话理解:可以或许理解分歧说话之间的语义差别,提高跨说话利用的正确性。 上下文感知:可以或许按照上下文信息进行智能揣度和猜测,提高利用的场景顺应能力。 常识暗示:可以或许将常识和信息进行有用的暗示,以撑持更高级此外认知和决议计划。改革带来的新挑战,现有存储系统还能不克不及打?多模态生成式AI系统自己是一个年夜范围集群,不管是集中式存储仍是当地直连存储,都早已没法知足该系统对存储机能和容量的根基需求。别的,以机械硬盘构建的任何存储系统,也底子没法承当生成式AI对存储系统带宽和时延的要求。总的来说,生成式AI在存储方面所面对的挑战以下:年夜型数据集:跟着数据和模子范围的增加,自力存储没法知足利用需求。是以,解决这些问题的散布式存储解决方案势在必行。汗青数据的完全归档:在某些场景下,AI集群天天城市发生年夜量新的数据集,必需将其归档为汗青数据。这在主动驾驶范畴尤其主要,道路测试车辆搜集的数据(例如雷达和摄像头数据)对公司来讲长短常有价值的资产。在这些环境下,自力存储被证实是不敷的,是以散布式存储成为需要的斟酌身分。小文件和非布局化数据过量:传统散布式文件系统难以治理年夜量小文件,致使元数据存储承担太重。这对视觉模子来讲特别成问题。为领会决这个问题,需要一个针对小文件存储进行优化的散布式存储系统。如许既包管了上层练习使命的高效进行,又包管了海量小文件的轻松治理。云练习数据I/O效力低:云模子练习常常采取对象存储作为存储计较分手架构的底层存储。但是,对象存储较差的读写机能可能会致使练习进程中呈现严重的瓶颈。异构数据的融会:生成式AI练习模子的数据显现来历多、格局多的多源异构近况,传统存储面向单一数据类型设计,需要以搬移数据的体例实现多和谈拜候,存储成为利用平台的要害瓶颈。延续的低延迟与高带宽:模子练习进程中,频仍的从数据集取Token,每一个Token一般4字节,及时高并发小IO机能需要极低的延迟;存储模子Checkpoint时,为Checkpoint数据可快速写入,需要高带宽。EB级年夜容量存储需求:越多的数据投喂成果越精准的工作道理,决议了年夜模子练习存在深度进修收集层数多、毗连多、参数和数据集种类复杂、数据量年夜的特点,跟着模子参数和数据量的快速增加,对存储的年夜容量和扩大需求也燃眉之急。数据存储财产需要进行全方位的手艺进级,经由过程在多源异构融会、数据高速传输、海量数据治理等方面延续立异,打造专业的生成式AI存储产物与解决方案。块,文件,对象,哪一种存储体例最好?块存储传统不雅点认为,低延迟高带宽场景,利用块存储是最好方案。但是,块存储在可扩大性方面却不克不及使人满足。AI集群必需在数据量、数据类型、决议计划速度,固然还预算方面进行均衡。AI练习情况对及时运行的基在收集的保举引擎提出了分歧的要求。块存储传统上很是合适高吞吐量和高I/O工作负载,此中低延迟很是主要,但是,跟着现代数据阐发工作负载(包罗人工智能、机械进修乃至数据湖)的呈现,人们发现传统的基在块的平台缺少知足这些平台计较方面所发生的横向扩大需求的能力。是以,必需采取基在文件和对象的方式来撑持这些现代工作负载。文件和对象是以,系统架构师更偏向在基在文件或对象的AI 和 ML 存储。对象存储在构建时斟酌到了 PB 级年夜容量,而且是按范围构建的,还撑持物联网 (IoT) 等利用。对象存储在机能方面掉队在块存储系统,虽然跟着更新的高机能对象手艺的呈现,差距正在缩小。别的一个需要斟酌的身分是,AI利用法式撑持的存储拜候接口各不不异,并不是所有人工智能、机械进修或阐发东西都撑持 AWS 的 S3 接口(对象的事实尺度)。云贮存云存储首要是基在对象的,但为人工智能和机械进修项目供给了其他优势。此中最首要的是矫捷性和较低的前期本钱。云存储的首要错误谬误是延迟和潜伏的数据传输本钱。云存储对基在云的人工智能和机械进修系统来讲是一个不错的选择,对持久数据归档来讲仍是划算的。综上,传统不雅点认为,没有单一选项可以知足人工智能、机械进修和阐发的所有存储需求。但是这个不雅点在海潮信息AS13000这个老牌散布式存储系统眼前就显得有点过在果断了。海潮信息生成式AI存储解决方案海潮信息生成式AI存储解决方案用一套AS13000融会存储支持生成式AI的全阶段利用,供给全闪、混闪、带库、光盘四种介质,撑持文件、对象、年夜数据、视频、块和谈,可知足年夜容量、多和谈同享,百万以上IOPS,100GB以上带宽,冷数据的持久保留和归档。连系AIGC数据处置的五个阶段:数据收集、数据预备、数据练习、数据推理和数据归档,由统一套存储供给端到真个数据流撑持流程,知足面向文本、音频、图象、视频、代码和多模态和全模态的模子需求。

1.jpg

海潮信息生成式AI存储解决方案具有极致融会、极致机能、极致节能,和热温冷冰四级全生命周期存储治理四年夜特点,助力AIGC冲破海量数据存力瓶颈,加快释放数据的AI价值:极致融会。为了应对分歧模态的多样性需求,海潮信息提出和谈融会设计理念,一个集群内撑持多个存储池,一个存储池内撑持文本、图片、音频、视频等多种类型数据存储,一份数据又可以被前端分歧营业场景以文件、对象、年夜数据和视频的存储体例进行并行拜候。用一套存储实现多模态场景利用,利用间数据实实际时同享,同时节流了年夜量的存储空间。极致机能。AIGC场景数据类型多样化,文件巨细纷歧数目多,且读写频仍,对存储系统的100GB级带宽、100万级IOPS需求成了常态。海潮信息在软件方面,经由过程数控分手架构削减工具向数据量的转发,经由过程GDS、RMDA手艺缩短I/O路径,经由过程SPDK、缓存零拷贝手艺削减I/O路径上的数据拷贝,和基在自研NVMe SSD开辟的盘控协同手艺,削减I/O拜候SSD盘的次数,使存储机能获得进一步释放。在硬件方面,优化IO路径通道,平衡IO路径,最年夜化阐扬硬件机能,全闪单节点带宽跨越50GB/s,IOPS跨越50万;立异性的引入双控全闪节点,带宽跨越100GB/s,IOPS跨越100万,真正使系统到达了TB级带宽、万万级IOPS、EB级带宽。极致节能。海潮信息最新发布的G7硬件平台,存储专用的液冷办事器涵盖机能型和容量型,且均采取模块化冷板组件设计模式。在系统方案层面,海潮信息具有风液式,液液式等完美的端到端解决方案,可以或许为用户全方位打造液冷数据中间交钥匙工程,而且完成了业界初次液冷整机柜批量交付,实现PUE 1.1。端到真个全生命周期治理。海潮生成式AI存储方案采取闪存、磁盘、磁带、光盘四种介质供给热温冷冰四种存储资本,且实现了资本的互通和数据全生命周期的治理。基在数据的热度辨认,主动释放在线存储空间,可以将海量数据主动归档到光盘库,下降持久存储本钱;实现冷数据的分钟级快速回调,知足0~4级利用的存储需求。四种介质、四类存储节点,供给热温冷冰主动流转,知足各类利用的矫捷设置装备摆设需求,经由过程机能型、平衡型、容量型、高密容量型四种机型的按需矫捷设置装备摆设,进一步下降整体投入。海潮信息自研的源年夜模子今朝,海潮信息生成式AI存储解决方案已在全球领先的中文说话年夜模子"源1.0"中成功落地。"源"中文说话年夜模子有近2500亿个模子参数,算力耗损达4000+PetaFlop/s-day,底层采取AS13000并行存储支持,原始数据、颠末粗筛和精筛的处置后获得高质量中文数据都集中在AS13000上。模子练习进程中对存储的挑战首要有对小文件并发的机能,和练习进程中要求快速保留Checkpoint存档文件的高速宽写入要求。AS13000采取最新硬件平台,搭载全闪SSD和高速IB收集,支持源的练习进程高效完成。据测算,GPT-3利用10000块GPU、花了30天练习完成1750亿参数,"源1.0"在2128个GPU集群上跑了16天完成了练习,源1.0的算力效力到达44.8%,远超MT-NLG与GPT-3等国际知名模子,此中存储的极致机能功不成没。某AI独角兽公司该公司打算发布5000亿参数目的NLP说话类年夜模子,为了极致的晋升计较效力,采取了计较收集和存储收集分手的设计,计较收集采取高速IB、存储收集选择了RoCE,并对存储提出了明白要求:不小在3.5PB的高速存储,机能要求带宽300GB,IOPS 350万以上。客户从专业性、开辟本钱、周期和运维等方面进行周全评估后,选择海潮信息AS13000散布式全闪存储集群,撑持高机能RocE组网和GPU纵贯存储功能,为算力集群供给高机能低延时的数据读取保障。同时跟着营业的上线,进行了两次在线存储扩容,具有很是好的矫捷性和容量机能线性扩大能力。跟着AIGC时期的到来,海潮信息作为最早结构AIGC年夜模子的企业之一,延续环绕"新存储之道"的理念,延续打造平台型存储产物,应对智能时期、AIGC时期的存储挑战。