3万卡集群点亮!国产AI减速卡昆仑芯片面适配D
栏目:专题报道 发布时间:2025-02-07 08:33
快科技2月6日新闻,短短两周,DeepSeek成为寰球增速最快的AI利用,凭仗出色的机能、普遍的利用场景,俨然成为行业标杆,适配跟安排也失掉了全行业的大力支撑,昆仑芯当初也参加了这一行列。昆仑芯前身为百度智能芯片及架构部,2021年4月实现自力融资,首轮估值约130亿元,在海内最早规划AI减速范畴,在系统构造、芯片实现、软件体系、场景利用上均有深沉积聚。就在2月5日,也就是蛇年动工当天,昆仑芯新一代产物P800万卡集群点亮,3万卡集群也将于克日点亮。现在,昆仑芯已实现Deepseek练习推理的全版本适配,并且机能出色,可一键安排,本钱效力极高。现实上,DeepSeek-V3/R1上线未几,昆仑芯便率先实现了全版本模子适配,包含DeepSeek MoE模子及其蒸馏的Llama/Qwen等小范围dense模子。同时,昆仑芯也已片面适配文心系列、Llama、Qwen、ChatGLM、Baichuan等各种年夜模子的推理跟练习义务,机能上风显明,并上线运转各种年夜模子义务。据先容,昆仑芯P800能够较好底支持Deepseek系列MoE模子年夜范围练习义务,片面支撑MLA、多专家并行等特征,只要32台即可支撑模子全参练习,高效实现模子连续练习跟微调。P800的显存规格优于同类主流GPU 20-50%,对MoE架构愈加友爱,且率先支撑8bit推理,单机8卡即可运转671B模子,因而更易于安排,可明显下降运转本钱。现在,P800曾经疾速适配支撑了Deepseek-V3/R1的连续全参数练习,LoRA等PEFT才能,供给给用户开箱即用的练习休会。基于昆仑芯完全的软件生态栈,只要两步,就能够轻松实当初昆仑芯P800长进行DeepSeek-V3/R1推理安排。1、资本筹备重要是镜像跟模子,镜像供给完全的依附情况开箱即用。昆仑芯P800支撑8bit推理,下载官方权重后应用如下下令停止量化;其余差别尺寸蒸馏模子则经由过程huggingface下载即可。2、启动效劳 恳求示例server跟client应用方法跟vllm社区基础分歧,零本钱上手。启动效劳可在镜像中一键启动,采样跟推理参数可依据现实营业场景在剧本中设置。下图为一个简略的恳求示例:【本文停止】如需转载请务必注明出处:快科技义务编纂:上方文Q
服务热线
400-123-4567