Doc Distill — 碎片时间，系统学习

Distillation Pipeline

从原始文档到知识卡片的 5 步蒸馏

1

Scrape — 抓取原始内容

自动化

输入文档站 URL，自动发现所有页面并抓取。对 SPA 站点用 headless browser 渲染。本地缓存 + content hash 比对，只处理新增和变化的页面。

IN: URLs → OUT: 112 pages HTML

2

Survey — AI 全局扫描分层

AI

把所有页面标题和摘要一次性交给 AI，做三件事：按重要性分层（L0 核心 / L1 实用 / L2 深入），标记依赖关系（A 需要先懂 B），跳过不值得记忆的内容（changelog、纯 API 参数列表、安装步骤）。

IN: 112 页摘要 → OUT: 79 页保留，33 页跳过

3

Generate — 原子化拆解 + 双语生成

AI

逐页分析，AI 决定每页拆成几张卡片、每张用哪种知识结构（Fact / Problem→Solution / Concept→Model / How-to / Comparison / Architecture）。同时生成中英双语内容，每张卡片控制在 150 词以内，自包含——不需要上下文就能读懂。

IN: 79 页原文 → OUT: 116 张双语卡片

4

Dedup — 去重与合并

自动化

不同源页面可能讲同一件事。通过 content hash 清除完全重复，再用 title/tag 相似度检测语义重叠。旧版卡片（schema 变更后的残留）自动清理。保证每张卡片是一个原子知识点，没有冗余。

IN: 150 张原始卡片 → OUT: 116 张去重卡片

5

Graph — 构建知识图谱

自动化

扫描所有卡片的关联声明（requires / extends / related / compares），构建知识图谱。按主题聚类，计算连接强度。图谱驱动手机端的智能推荐——刷完一张卡片，优先推送关联知识点。

IN: 116 张卡片 → OUT: 知识图谱（185 条关系）

6 Knowledge Patterns

六种知识表达，适配不同认知需求

📌 Fact
事实

🔧 Problem
→ Solution

💡 Concept
→ Model

📋 How-to
步骤

⚖️ Compare
对比

🏗️ Architect
架构

Current Collection

当前已蒸馏：Claude 开发文档

基于公开发布的文档和博客整理，非官方项目

📖

Claude Platform Docs

platform.claude.com/docs

90 pages → API, Tool Use, Agent SDK, Prompt Engineering...

🔬

Anthropic Engineering Blog

anthropic.com/engineering

22 posts → Best practices, case studies, design patterns...

碎片时间
系统学习