长上下文GeminiClaude
长上下文大模型:从128K到无限
2025-11-25•7 min read
Gemini 1.5 Pro支持200万token上下文,Claude 3.5支持20万。
技术实现
- **Ring Attention**:环形注意力机制
- **稀疏注意力**:只关注相关部分
- **分层处理**:粗粒度到细粒度
- **内存优化**:KV Cache压缩
应用场景
- 整本书籍分析
- 大规模代码库理解
- 长期对话记忆
- 多文档对比
挑战
- 注意力稀释
- 计算成本
- 检索精度
- 位置编码
本文作者:Jie Zhu | 发布于 2025-11-25