长上下文GeminiClaude

长上下文大模型：从128K到无限

2025-11-25•7 min read

Gemini 1.5 Pro支持200万token上下文，Claude 3.5支持20万。

技术实现

**Ring Attention**：环形注意力机制
**稀疏注意力**：只关注相关部分
**分层处理**：粗粒度到细粒度
**内存优化**：KV Cache压缩

应用场景

整本书籍分析
大规模代码库理解
长期对话记忆
多文档对比

挑战

注意力稀释
计算成本
检索精度
位置编码

本文作者：Jie Zhu | 发布于 2025-11-25