本文提出了一种名为Titans的新型深度学习架构,其核心在于一个能学习在测试时记忆数据并具有自适应遗忘能力的神经长期记忆模块,通过将该模块与注意力机制结合,Titans在多种任务上实现了超越现有模型的性能,特别是处理长序列时,能够扩展到2M以上的上下文窗口并保持高准确率,这得益于其独特的基于“惊奇度”的记忆机制和并行训练方法。
![]() |
创作新主题 |