Mixtral 8X7B MoE模型基于阿里云人工智能平台PAI实践合集

作者:熊兮、贺弘、临在 Mixtral8x7B大模型是MixtralAI推出的基于decoder-only架构的稀疏专家混合网络(Mixture-Of-Experts,MOE)开源大语言模型。这一模型具有46.7B的总参数量,对于每个token,路由器网络选择八组专家网络中的两组进行处理,并且将其输出[查看全文]
游客
验证码: 点击我更换图片
共 0 页/0条记录