自去年来,从Open AI推出O1推理模型,到Anthropic跟进推出非常依赖推理能力的“Computer Use”的Agent功能,再到DeepSeek R1推理模型在全球火爆,以及英伟达在GTC大会上亮相首款推理模型、首个推理软件等,这些科技巨头的动作一再揭示一个趋势——AI大模型的竞争焦点已经转向AI推理,AI推理时代已经到来。
面对新兴的AI推理需求,推理性能、效率以及成本毫无疑问是最核心的问题,而边缘计算在靠近数据生成源的地方进行处理和推理,具有低延迟、数据隐私保护和高效能等优势,被视作AI推理的理想位置,由此将成为竞争的新战场。
在DeepSeek出现之前,AI大模型的部署与训练需要大量的资金投入和大规模算力的部署、维护,中小企业很难自建生态以进行大模型的开发,同时也受制于AI大模型闭源带来的部署与使用门槛。
而DeepSeek采用大规模跨节点专家并行的模式,利用强化学习来减少人工依赖和数据缺失的问题,通过全面开源的方式,将AI推理资源池成本降到百卡/千卡范围,真正降低AI大模型在行业用户环境中的部署与使用成本,同时,部署方式更加轻量、灵活,为行业提供了全新的解决方案。短短两个月的时间,国内外的科技、金融、政务、能源、通信、汽车、高校等各行各业均已纷纷接入DeepSeek,用于业务提效和AI应用创新。
这让更多人以更低成本享受到了AI的高性能,加速了端侧AI的爆发与普及,同时也推动了AI格局向大规模推理转变。
由于AI推理会为终端用户运行工作负载,响应速度和位置尤为关键,这意味着在边缘或边缘云环境中进行推理更有优势。对于企业而言,靠近节点的边缘云可以有效提高数据交互和AI推理的即时性与效率,并保障信息安全。
具体来看,边缘计算地理分布广泛,更靠近用户,是低延迟体验的必要条件。同时边缘计算通过缩短交互链路,能够大幅降低
数据传输开销和成本。以语音数字人场景为例,相较中心云,在靠近用户的边缘侧接入,使得语音数据传输链路短,用户体验明显优于中心推理,而相较设备端,又可以降低对终端设备的依赖,模型能力的优化升级更加简便。
其次,边缘节点容量大、健壮性强、可用性高,叠加边缘推理后,更具智能、更加高效,能够更好支撑企业数字化、智能化;并且边缘计算还能保障业务连续性,通过业务调度能力实现节点故障时的快速切换。
再者,在边缘侧可以提供更多能力,比如边缘缓存,实现交互内容的就近存储,减少网络流量、提升模型的实时性,比如集成安全的边缘防护,增强大模型部署和应用的安全性。
AI推理市场的主要竞争者包括AI硬件厂商、模型厂商以及AI服务提供商,可以看到,参与者们已经在瞄准边缘计算进行布局。
比如硬件层面,苹果、高通等厂商积极研发边缘AI芯片,应用在AI手机和机器人上,支撑边缘端的大模型运行;Arm发布了边缘AI计算平台,可运行超10亿参数的端侧AI模型;国科微推出了AI边缘计算芯片,可适配包括轻量级LLM语言大模型、AIGC生成式模型、CV大模型以及多模态大模型等。
平台服务层面,英特尔推出了基于英特尔锐炫TM显卡的边缘端AI推理解决方案,提升AI推理速度;阿里云推出了边缘容器云,助力开发者实现更快速的AI推理应用的迭代和部署;网宿科技打造了边缘AI平台,提供ServerlessGPU、边缘AI网关、边缘模型微调与推理服务等,帮助企业低成本、高效率地实现AIGC创新。
目前AI推理市场正处于快速发展期,竞争格局尚未完全固化。专家认为,未来市场竞争的核心要素在于成本/性能的计算,即包括推理成本、延迟和吞吐量。
聚焦到边缘计算这一切入点,资源与技术能力将是参与者竞争取胜的关键。
以网宿科技为例,作为边缘计算领域的头部玩家,于2011年就已探索边缘计算,早已形成从资源、产品、能力、安全到应用的一体化布局。资源方面,网宿在全球拥有近3000个节点资源和丰富的GPU算力资源,更贴近业务边缘,具有低时延优势,例如在与大模型交互的链路中,能够将模型交互效率提升2-3倍。
而在技术能力上,网宿沉淀了完备的技术栈,依托异构计算资源的虚拟化和容器化、全球海量节点的编排管理等关键技术,能够支撑大规模模型能力的调度和运营,为企业提供高可用服务;此外,还通过边缘函数自定义更多个性化的功能,结合企业业务场景提供个性化的智能解决方案。
据悉,网宿边缘AI平台已经深入医疗、家居、媒体、互联网等行业,应用于AI辅助开发、AI问答、AIOT、AI评论等场景,比如网宿利用RAG技术构建知识库,并结合边缘AI推理模型,为某医疗企业构建了智能AI问答系统,明显提升了医疗咨询的效率。
可以预见,随着模型技术的不断演进和边缘计算能力的持续提升,AI推理将迎来一场革新,为产业带来更多创新机遇。