今日推介(第1715期):用元梯度下降优化机器学习训练、稳定高效的LLM强化学习、基于短时记忆的长链推理、Tiled Flash线性注意力、协作式自弈让LLM更好理解自身知识局限性 公·众·号:爱可可爱生活 网页链接 #机器学习##人工智能##论文#