标签：通义千问Qwen

QwQ-32B：更小尺寸，性能比肩全球最强开源推理模型

近期的研究表明，强化学习可以显著提高模型的推理能力。例如，DeepSeek-R1 通过整合冷启动数据和多阶段训练，实现了最先进的性能，使其能够进行深度思考和复杂推理。这一次，我们探讨了大规模强化学习（RL）对大语言模型的智能的提升作用，同...

谢世诚2025-03-06业界动态