代码语义检索

让 AI Agent 不必多轮 grep/read 就能在大型代码库中直达相关片段的工程方法。由 claude-context 验证。

与传统方案对比

源代码
   ↓ Splitter (AST → 字符兜底)
代码块 (chunk)
   ↓ Embedding
向量
   ↓ VectorDB
检索引擎
   ↓ 用户自然语言查询
top-K 相关片段

AST 分块（首选）：用 tree-sitter 按函数 / 类 / 方法边界切分——语义内聚，每块就是完整可读单元。

字符分块（兜底）：LangChain RecursiveCharacterTextSplitter，按字符长度 + 分隔符。适用于不支持 AST 的语言（如早期的 Solidity）或解析失败时的 fallback。

[!tip] 降级链原则
AST 失败时不应抛错卡死整个 pipeline，而应自动 fallback 到字符切分。详见 ai-agent-plugin-patterns。

单一向量召回不够用——concept "用户登录" 能匹配语义，但精确符号 "validateJWT" 需要 sparse 召回。

claude-context 用 Dense + Sparse + RRF 三件套，详见 hybrid-search-rrf。

代码库不是静态的——每次修改都全量重建索引不现实。用内容指纹（Merkle DAG）只重建变化的文件。

代码语义检索 ≈ Agent 记忆检索的特化形式：