Mixtral 8X7B MoE模型基于阿里云人工智能平台PAI实践合集

作者：熊兮、贺弘、临在 Mixtral8x7B大模型是MixtralAI推出的基于decoder-only架构的稀疏专家混合网络（Mixture-Of-Experts，MOE）开源大语言模型。这一模型具有46.7B的总参数量，对于每个token，路由器网络选择八组专家网络中的两组进行处理，并且将其输出[查看全文]

游客

共 0 页/0条记录