大数据存储要落地,还需解决哪些难题?

时间:  2021-03-15 作者:  李晋 出处:  国际电子商情

编者推荐语:

英韧科技董事长兼CEO吴子宁博士与同业专家接受《国际电子商情》的专访。

由晶圆产能紧缺引发的蝴蝶效应,已经向下蔓延到存储市场,今年1月内存合约价全面上涨,2月SSD的报价开始上扬。同时,供应链方预测,利基型DDR3 DRAM的价格在年内有望提升40%-50%。在此背景下,本期《国际电子商情》采访到包括IP、主控、器件、设备等存储领域的供应商,主要围绕大数据存储做了一些解读。

 

存储市场当前的现状如何?

进入到2021年,全球存储产品全线提价。到2月底,DRAM、内存模块、NAND Flash、NOR Flash等的价格均出现调涨。以内存的价格为例——DRAMeXchange数据显示,截至今年2月3日,8Gb DDR4内存颗粒报价达到3.93美元,去年8月的报价仅为2.54美元。

慧荣科技市场营销暨研发资深副总裁段喜亭从供应端出发来分析:“去年下半年因疫情管控、停电、产能紧张、超额预订等问题突显,加上晶圆代工产能吃紧、原厂释放到SSD渠道市场的NAND Flash资源较少、大厂增加了备货库存……诸多因素叠加,对产能产生了排挤效应。”他补充说,随着PC、5G手机、汽车、数据中心对存储性能和容量需求的不断提升,预期2021年NAND闪存行业会大幅增长,对Client SSD 主控芯片、eMMC/UFS主控芯片及车用储存的需求也会明显增加。

今年1月,有存储主控商把嵌入式主控芯片的价格上调了50%。业内有消息称,慧荣也正准备提升主控芯片的价格,涨幅将在10%-15%区间。《国际电子商情》向慧荣方面作了求证,段喜亭回应说:“我们会持续与客户讨论产能扩充与成本上扬的问题,以便做出最合适的决定及产能调配。”

下游终端设备厂商也深受存储涨价的影响,浪潮存储产品线资深架构师叶毓睿表示,因SSD的价格降幅比预期减缓,在一定程度上将阻碍全闪存阵列在中国的普及。近期,浪潮存储推出了全闪存阵列促销政策,来帮助对高性能、低延迟有需求的用户。

当前即使紧急新增投产8英寸晶圆产线,在短期内也较难看到明显的产能增长。近期,台积电宣布取消12英寸晶圆代工3%的折扣,业内猜测12英寸晶圆产能也将吃紧。再加上终端需求在提升,《国际电子商情》认为,在晶圆产能尚未缓解之前,存储产业链也或将面临紧张的局面。

 

大数据存储正面临哪些挑战?

就算不考虑最直接的产能问题,发展大数据存储也要解决很多问题。据IDC预测,2023年将有超过100ZB的数据产生,这将改变大家对整个行业的看法和预期,也对下一代存储技术提出新的要求。

Arm存储方案高级经理黄晏祥坦言,数据量的增长也将给大数据存储带来新的挑战,这些挑战包括——“如何提高存储的安全性”“减低传输的延迟性”“适当地把数据依级存储”。当5G、IoT将进入ZB存储时代,新的数据将以等比的成长速度不断产生,旧的存储架构将无法满足应用。Arm的存储方案团队很早就针对新的应用,提供完整的即时处理器/应用处理器/安全性IP与系统IP,如去年推出的Cortex-R82,专为加速下一代企业与计算型存储解决方案的发展与部署所设计。

铠侠电子(中国)董事长兼总裁岡本成之

铠侠电子(中国)有限公司董事长兼总裁岡本成之说:“伴随5G及IoT的普及,各类数据将汇集至云端并加以保存和利用,闪存及固态硬盘将成为大数据存储端的主角,为了足以应对全球对数据存储的强劲需求,我们将首先增加闪存及固态硬盘的供应量,并通过采取技术革新手段,不断增加每片芯片、每台驱动器的容量,为构筑数字化转型所需的基础设施做出贡献。”

浪潮存储叶毓睿认为,大数据存储的落地主要面临三大挑战:第一,海量、多元数据的存放。分布在多个平台和地理位置的数据被以不同的⽅式采集与传输,数据从单⼀内部⼩数据形态向多元动态⼤数据发展,⼤量⽂本、图⽚、视频等⾮结构化数据正源源不断产⽣和存储;第二,数据的实时处理。到2023年,实时数据将占全球数据圈25%的份额。其中,金融的风险评估、交通的自动驾驶、运营商的智能网络等许多场景,都要依赖快速实时的数据采集、存储和分析得以实现;第三,非结构化数据以及将其结构化后的数据,在多云之间的流动、共享。到2022年,50%以上的由企业生成的数据,将在数据中心或云端以外的地方进行创建和处理。这些数据可能会被保存在私有云、公有云上,在不同公有云之间进行共享。

英韧科技联合创始人、董事长兼CEO吴子宁

在英韧科技联合创始人、董事长兼CEO吴子宁博士看来,信息技术与经济社会的交汇融合引发了数据迅猛增长,企业级、消费级存储空间需求激增。传统数据库在应付海量数据时,暴露出并发性低,扩展性差,效率低下等问题。大数据存储呈现高效能、低成本、低延时的发展趋势。该公司通过“芯片指纹”管理、高速PCIe、增强型纠错码等存储控制技术,向客户提供高效的存储主控芯片。

以上供应商所讨论的核心要点或许可概括为存储效率。在《国际电子商情》看来,由于海量的数据无法被完全存储下来,“如何尽可能地提升存储容量”或“哪些数据有被存储的价值”将是厂商考量的重点。

 

怎么存储有价值的数据?

未来全球将会有90%左右的数据由机器产生,这主要是顺序型写入的流媒体数据,弄清楚“哪些数据需要被实时计算”“哪些数据需要被存储”非常关键,这些非结构化数据如何实现“瘦身”、提升存储效能?

“这由客户和社会的实际需求,及使用数据的具体目的来决定。‘更快地处理更多数据’是存储设备供应商的重要使命。随着CPU运算速度的提升,其对AI分析速度的要求也越来越高,铠侠正在开发高速固态硬盘,以避免将数据传输到主机时出现瓶颈问题。”岡本成之说。据了解,铠侠正在开发固态硬盘兼容PCIe®/NVMe™和SAS的最新标准,为提高能源效率还计划开发新的Form Factor,也在与主机端软件等进行合作,为数据中心客户提供系统级的解决方案。

慧荣科技市场营销暨研发资深副总裁段喜亭

“大量的非结构化数据,除了要有可随需扩充容量的存储设备之外,还需要有很好的数据管理能力。热数据需要高性能的SSD存取服务,配合高性能计算服务器执行视频数据的关键信息攫取,以进行数据的再制作及数据的‘减肥’,并将原始海量资料回存至适合海量数据的对象存储。”段喜亭认为存储性能及稳定度至关重要,主控芯片是影响该问题的最关键一环。慧荣科技在5G、自动驾驶、大数据、人工智能方面早有布局。

针对非结构化数据,英韧科技在SSD中引入了ZNS(Zone Name Space)技术。据吴子宁博士介绍,ZNS把碎数据块聚集成一条长数据带,再集中写在NAND颗粒上,提升了流数据在NAND上的使用效率。使用ZNS技术可减少Over-Provisioning(预留空间)、提高存储器吞吐量,尤其是对IOPS指标有大幅提升,并增强NVM耐用性。

有些数据在当时无法判断是否有价值,但是在未来可能会产生价值。比如,开普勒分析第谷留下的20年的行星观测记录发现了开普勒三大定律,保存下来的交通数据将来可能成为重大事件、案情的关键节点。叶毓睿解释说,数字宇宙膨胀得太快,需要提高存储效能来积极应对。浪潮存储通过去重、压缩、精简配置、自动分级、提高机柜密度、采用云网关等方式,来满足数据对存储的要求。

因无法确定数据在未来是否会产生价值,存储厂商需要在“存储更多数据”方面下苦心,由此基于云技术的存储服务显得非常重要。

 

如何区别大数据与云计算?

提及大数据,一般也会涉及到云计算,两者之间可谓是相辅相成。对非专业人士而言,很难辨别两者的差异。借此次机会,我们针对这两个概念做了讨论。

Arm存储方案高级经理黄晏祥

黄晏祥称,云计算是大数据应用价值的实现方式之一,两者的结合可以从底层架构助力数据挖掘透析洞见的实现。

吴子宁博士同意大数据与云计算“相辅相成”的说法:“云计算是硬件资源的虚拟化,大数据是海量数据的高效处理。数据越大越适合云计算,越大的算力也需要越大的存储能力,更大的存储单位需要更便捷的存储管理模式。云计算对低延时、数据吞吐量有较高要求,这些存储效能是影响大数据和云计算两者互动、良性发展的重要因素。”

“大数据只涉及处理海量数据,而云计算则涉及到运算、存储、虚拟化与容器化等服务。大数据只是个素材,必须有好AI/ML运算模型, 搭配好的存储架构与高性能闪存设备,才能将大数据转换成大资产。企业的数据中心不再只满足存储容量需求,还必须担负数据转换成资产的重任。”段喜亭强调说。

他还表示,大量数据的产生给存储行业带来巨大的机会,而边缘运算概念是将运算工作由云端转移至终端或近端,边缘端含括PC、ADAS、安防监控、5G行动网络,它强调高性能,云端则有资料中心、云服务、大数据与AI,着重易管理性,但不论在哪一端存储,都需要大量的NAND闪存做存储,好带来更快的I/O速度、更短的读写延迟。

岡本成之认为,对“任务关键型”核心系统以及采用云端技术的数据中心客户而言,它们所使用的企业级固态硬盘与消费级固态硬盘有很大的区别,前者要求更高的性能、可靠性、即时响应能力等。云计算领域通过网络并行整合大量存储设备,不损害QoS(服务质量)的低延迟固态硬盘以及具有低功耗和高密度安装、更低总成本的固态硬盘越来越受市场的追捧。

叶毓睿称,大数据是算据,云计算是算力。云计算有公有云和私有云。私有云中有一类是政务云,相当于大型私有云,其集群节点数多,可以达到300、500甚至上千台。大多数政府和企业基于自建数据中心发展起来的是私有云,它对存储有较高的要求。

 

如何看待集中式与分布式存储?

近年来,业内有很多关于集中式存储和分布式存储的探讨。在数据处理需求急剧增长的情况下,传统的存储方式是否适应业务发展的需求?

“传统机柜的集中式存储发展是有瓶颈的,性能提升和存储容量增加均有限。随着互联网技术的不断迭代,Google最先提出的GFS(Google file system),即一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。随后又出现了开源的HDFS(Hadoop distributed file system),采用便宜的服务器,可无限扩展,加快了分布式存储的应用。”吴子宁博士说。

在他看来,分布式和集中式存储对存储主控芯片有不同要求,传统的集中式存储要求在一个存储节点的可靠性非常高,其主控要求有双端口功能。分布式存储不强调峰值性能或者单点可靠性,且针对不同的业务、数据流及存储类型要求稳定、均衡的一致性效能。

分布式存储催生了虚拟池的概念。存储池的硬件彼此独立,但从逻辑上聚合成一个大池子。在池子里,硬件不一定完全物理切分,而是逻辑虚拟切分。英韧科技支持基于PCIe的SR-IOV虚拟化技术,可对一个盘的不同存储容量进行切分保证每个分区的一致性。

浪潮存储产品线资深架构师叶毓睿

叶毓睿说,疫情、IoT发展带来大量非结构化数据增长,将来全球该类数据占比可能会达到90%。另外,IDC数据显示,未来5年内,中国存储市场CAGR为10%,分布式存储CAGR为18%,分布式存储增速接近中国市场平均增速2倍。

黄晏祥认为,不同的使用场景适合不同的架构,虽然现今的计算架构以集中式为主,但是随着5G、AI、IoT等新应用的发展,分布式存储的灵活性反而凸显出其重要性,分布式存储的主控将需要更多算力的CPU并辅以NPU等一同应付挑战。

Arm还是计算型存储/存算一体的重要支持者。黄晏祥进一步补充说,数据真正的价值来自于其所产生的洞见。基于提高安全性、延迟性以及能源效率的考虑,数据洞见的处理能在越接近数据生成的位置越好。对此,计算型存储已经崛起,成为数据存储的关键,因为它能把计算力直接放在存储设备上,让企业安全、快速并轻松地存取重要信息。计算型存储已经是未来存储的主要趋势,并且将于未来3-5年内普及。

 

未来更看好哪些存储领域的应用?

据IC Insights预测,2021年全球12英寸晶圆新增产能将创历史新高,达到约相当于2080万片8英寸晶圆的水平。其中,大部分新增产能来自存储厂商。究竟存储会在哪些领域有更好的应用?

黄晏祥列举了机器学习、预测分析、物联网、边缘计算、智能制造、交通运输相关应用、社会安全等行业,都是未来主要借力大数据存储的应用领域。

铠侠专注为数据中心客户、服务器、边缘计算和PC提供存储产品。自从东芝独立后,铠侠继续加强相关业务,包括开发112层的3D闪存产品以及对北上工厂进入投产等。据岡本成之介绍,在固态硬盘业务方面,铠侠正在构筑一个加强固态硬盘开发的机制,并于2020年7月收购了台湾LITE-ON公司的固态硬盘业务(SSSTC公司)。

2020年英韧科技完成了B+轮融资。吴子宁博士说,英韧科技4年成功量产了3颗芯片,未来该公司会持续加大研发投入,以数据中心、云计算应用及高端消费存储应用为产品方向,专注于数据存储安全、分布式数据处理、虚拟存储控制等关键技术的研发。

叶毓睿表示,浪潮存储比较看好AI存储、容器存储、对象存储、区块链存储的应用。在AI领域上,一方面有超大规模分布式存储,可满足AI训练的并发性能需求,另一方面可提供全闪存储,能满足AI推理的时效性需求;容器存储和对象存储都已经有落地案例,比如运营商、银行、四维图新等;区块链存储正在规划推进中。

 

 

【关于英韧】

英韧科技(上海)有限公司是一家无晶圆半导体芯片设计公司,致力于通过创新的集成电路(IC)和系统解决方案解决大数据应用中的数据存储和数据传输问题。公司董事长兼首席执行官吴子宁博士,曾担任全球著名半导体公司Marvell的首席技术官。公司创始团队来自于MarvellToshibaWestern DigitalBroadcom、思科、展讯等全球知名公司,技术特长涵盖半导体行业所有主要领域,平均行业经验超过15年,拥有累计超过10亿颗芯片设计量产的经历。英韧科技的长期目标是成为客户端和企业存储市场首选的高性能存储控制器供应商。

 

——  发布于:2021-03-15,作者:李晋,来源:国际电子商情