🧠 AI 基础知识概览

本文整理了大语言模型(LLM)及其核心概念、架构和工作原理,适合初学者快速理解 AI 系统。


一、底层引擎:大语言模型(LLM)

核心定义与架构

  • LM 全称:Large Language Model(大语言模型),简称大模型

  • 底层架构:基于 Transformer(2017 年 Google 提出的 Attention 机制)

  • 工作原理:通过预测下一个最可能的词生成文本

发展里程碑

时间事件意义
2017 年Transformer 架构提出奠定大模型技术基础
2022 年底GPT-3.5 发布首个达到可用级别的大模型
2023 年3月GPT-4 发布大幅提升 AI 能力上限
2023 年后Claude、Gemini 等模型涌现AI 赛道竞争加剧,OpenAI AI 技术多方竞争

二、数据处理单元:Token

核心特性

  • 定义:文本的最小处理单元,通过 Tokenizer 分词

  • 编码过程:文本 → Token → Token ID(数字表示)

  • 解码过程:Token → 文本

Token 与语言单位关系

语言单位与 Token 的关系示例
中文词语可能拆分“工作坊” → “工作” + “坊”
英文单词常见单词对应 1 个 Token"hello" → 1 Token
复杂单词可能拆分"helpful" → "help" + "ful"
特殊符号可能多个 Token 表示✅ → 3 Token

Token 参考量

  • 1 Token ≈ 0.75 个英文单词

  • 1 Token ≈ 1.5-2 个中文字符

  • 40 万 Token ≈ 30 万英文单词或 60-80 万汉字

🔗 OpenAI Tokenizer 工具

  • 网址https://platform.openai.com/tokenizer

  • 功能

    • 输入文本可直观查看对应 Token

    • 支持不同模型 Token 计算(如 GPT-3、GPT-4、GPT-5)

    • 帮助理解文本长度和 Context Window 消耗

  • 用途

    • 预测 Token 消耗,控制上下文容量

    • 优化 Prompt,避免超过模型限制

    • 调试模型输入输出

 

三、记忆单元:Context

核心概念

  • 定义:模型每次处理任务时能访问的信息总和,类似“临时记忆”

  • 组成部分:用户问题、对话历史、工具调用、System Prompt 等

  • 容量限制:由 Context Window(上下文窗口)定义

主流模型 Context Window 对比

模型Context Window(Token)约合汉字数量
GPT-5.4105 万~157.5 万
Gemini 3.1 Pro100 万~150 万
Claude Opus 4.6100 万~150 万

突破 Context Window 限制

  • RAG 技术(检索增强生成):通过检索相关文档片段,降低 Token 消耗


四、指令交互:Prompt

定义与分类

  • Prompt:给 AI 的任务指令,决定输出内容

  • 分类

    • User Prompt:用户具体任务,如“写一首诗”

    • System Prompt:系统设定规则,如“保持幽默风格”

Prompt 工程(Prompt Engineering)

  • 核心原则:清晰、具体、明确

  • 提示设计技巧:

    • 避免模糊指令

    • 拆分复杂任务

    • 结合上下文提供信息


五、外部能力扩展:Tool

核心作用

  • 定义:模型调用外部工具或接口,实现能力扩展

  • 工作流程:

    1. 用户输入或平台转发

    2. 模型生成工具调用指令

    3. 工具执行并返回结果

    4. 模型生成最终输出


六、工具标准化:MCP

  • 全称:Model Context Protocol(模型上下文协议)

  • 作用:统一工具接口,解决多平台调用不一致问题

  • 典型示例:OpenAI、Anthropic、Google 各自有接入规范,通过 MCP 统一


七、命令行工具(CLI)

核心概念

  • CLI(Command-Line Interface) 是通过命令行与 AI 或工具交互的方式

  • 常用于:

    • 快速调用模型功能

    • 自动化任务

    • 与脚本或系统集成

  • 优势:

    • 高效轻量,不依赖图形界面

    • 可组合管道命令完成复杂任务

    • 适合开发者、数据科学家和运维场景

典型 CLI 示例

  • OpenAI CLI:调用模型生成、管理 API keys

  • Gemini CLI / Claude CLI:调度 Agent 执行任务

  • Codex CLI:编程辅助和代码生成


八、自主执行系统:Agent

  • 定义:能够自主决策、调用工具、完成任务的系统

  • 核心能力:多步骤推理、工具选择、流程控制

  • 代表产品:Claude Code、Codex、Gemini CLI 等

  • 典型模式:React、Plan and Execute


九、任务定制:Agent Skill

  • 定义:给 Agent 的能力模块,包含任务规则和执行步骤

  • 核心功能

    • 名称与描述

    • 任务目标

    • 执行步骤、判断规则、输出格式

  • 技术实现

    • Markdown 文档管理

    • 存放于专用目录,方便调用

    • 可附加用户问题映射规则,实现智能指令


十、概念体系关系

LLM(大脑) → Token(数据单元) → Context(记忆空间) → Prompt(交互指令) → Tool(外部能力)→ MCP(工具标准化) → CLI(命令行工具) → Agent(决策系统) → Agent Skill(任务定制)


补充说明

  • Transformer 架构奠定基础

  • Token 化处理文本,是模型理解的核心

  • CLI 是现实场景中操作 AI 的重要接口

  • Agent 与 Skill 扩展了 LLM 的实际应用能力

  • RAG 技术可突破 Context Window 限制,提高信息调用效率


✅ 本文整理了 AI 核心概念、工作流程、扩展模块、CLI 工具及历史发展,便于快速入门和实践。
作者:zws  创建时间:2026-05-17 19:26
最后编辑:zws  更新时间:2026-05-17 20:23