进入大模型应用与实战专栏 | 查看更多专栏内容
最近在本地环境中部署了DeepSeek-R1-Distill-Qwen-1.5B,即由Qwen2.5-Math-1.5B基础模型蒸馏出来的具有思维能力的模型。这是一个由Qwen2.5-Math-1.5B基础模型蒸馏出来的、据说具有增强思维能力的小型语言模型。然而,在实际使用过程中,我发现模型似乎并未展示出预期的思维过程,这引发了我对如何正确配置和优化这类模型的深入探究。