3分钟搞懂Token和上下文

Token = AI理解文字的基本单位(不是字也不是词),上下文窗口 = AI能"记住"多长内容的工作台

打个比方

Token和上下文 就像存储和工作台:

Token = 存储单位 :像硬盘的"MB",衡量文字大小

上下文窗口 = 工作台大小 :台面越大,能同时摊开的资料越多

举个例子:

场景: 让AI帮你写论文小工作台(4K上下文):只能放几页参考资料 → 需要分段处理 → 可能遗漏关键信息大工作台(100K上下文):能摊开整本书+所有笔记 → 全局理解 → 更连贯的输出

核心理念 : Token不是字数,上下文不是记忆力。Token是AI的"计量单位",上下文是AI的"短期工作记忆",超出就会"失忆"(丢掉前面的内容)。

核心要点(3个)

1. Token是什么: AI的基本单位

Token定义 :

AI理解文字的最小单元

不是"字",也不是"词",而是"词块"(subword)

中文: 1个字 ≈ 1.5-2个token

英文: 1个词 ≈ 0.5-1个token

为什么不是"字"或"词" :

如果按"字":- 英文: "ChatGPT" = 7个字母,太碎片- 中文: 可以,但新词汇处理困难如果按"词":- 词典太大(几十万词),效率低- 新词无法处理(如"ChatGPT")按Token(词块):- 平衡: 常见词整个保留,罕见词拆分- 灵活: 可以处理新词和拼写错误- 高效: 词典适中(5万左右)

Token计算示例 :

文本

Token数

说明

"你好"

2-3

中文每个字约1.5-2 token

"Hello"

1

常见英文词1 token

"ChatGPT"

2-3

特殊词会拆分: "Chat" + "GPT"

"1000字中文文章"

~1500-2000

约字数的1.5-2倍

"1000 words English"

~1200-1500

约词数的1.2-1.5倍

代码(Python)

~1.3倍字符数

代码通常token数更多

实际例子 :

输入: "我爱ChatGPT"Token分解: ["我", "爱", "Chat", "GPT"] = 4个token输入: "I love ChatGPT"Token分解: ["I", " love", " Chat", "GPT"] = 4个token(注意英文空格也算在token里)

2. 上下文窗口: AI的工作记忆

上下文窗口定义 :

Context Window = AI能同时处理的token数量上限

包括: 你的输入 + AI的输出 + 对话历史

超出上限: 早期内容会被丢弃("失忆")

工作台类比 :

4K上下文 = 小工作台→ 约3000中文字→ 能处理: 短对话/单篇文章→ 类比: 学生宿舍小桌8K上下文 = 中等工作台→ 约6000中文字→ 能处理: 中等长度文档→ 类比: 家用书桌32K上下文 = 大工作台→ 约24000中文字→ 能处理: 长文档/多轮对话→ 类比: 办公室大桌100K上下文 = 超大工作台→ 约75000中文字 = 一本中等长度的书→ 能处理: 整本书/海量资料→ 类比: 图书馆阅览桌200K上下文 = 巨型工作台(Claude)→ 约15万中文字 = 一本长篇小说→ 能处理: 多本书/整个代码库→ 类比: 会议室长桌

主流模型上下文对比 :

模型

上下文窗口

约等于(中文)

适用场景

GPT-3.5

4K tokens

~3000字

日常聊天/短文档

GPT-3.5-16K

16K tokens

~12000字

中等文档

GPT-4

8K tokens

~6000字

复杂任务(基础版)

GPT-4-32K

32K tokens

~24000字

长文档分析

GPT-4 Turbo

128K tokens

~96000字

超长文档/代码库

GPT-4o

128K tokens

~96000字

多模态+长文本

Claude 3

200K tokens

~15万字

整本书分析

Kimi(月之暗面)

200K tokens

~15万字

长文本首选(国内)

Gemini 1.5 Pro

1M tokens

~75万字

超长文本(实验性)

3. Token和成本: 直接影响费用

为什么Token影响成本 :

AI API按token计费

输入token + 输出token = 总费用

上下文越长 = token越多 = 费用越高

价格示例 (2024年底):

模型

输入价格

输出价格

1000字约

GPT-3.5 Turbo

$0.5/1M tokens

$1.5/1M tokens

¥0.01

GPT-4o

$2.5/1M tokens

$10/1M tokens

¥0.05

GPT-4 Turbo

$10/1M tokens

$30/1M tokens

¥0.2

Claude 3.5 Sonnet

$3/1M tokens

$15/1M tokens

¥0.08

成本计算例子 :

任务: 总结一篇5000字的文章Token消耗:- 输入: 5000字 × 1.5 = 7500 tokens- 输出: 500字摘要 × 1.5 = 750 tokens- 总计: 8250 tokens使用GPT-4o:- 输入成本: 7500 × $2.5/1M = $0.01875- 输出成本: 750 × $10/1M = $0.0075- 总成本: ~$0.026 ≈ ¥0.19如果每天处理10篇:- 日成本: ¥1.9- 月成本: ¥57

节省成本技巧 :

精简Prompt : 去掉多余内容

选对模型 : 简单任务用便宜模型(3.5)

控制输出长度 : 限制AI回复字数

避免重复 : 不要反复发送相同内容

为什么重要

理解Token和上下文,才能高效使用AI和控制成本。

实际影响 :

影响使用体验

场景1: 长文档分析

错误做法(小上下文):把100页报告分10次提问→ AI每次只看一部分→ 缺乏全局视角→ 结论可能片面正确做法(大上下文):选择Claude(200K)或Kimi→ 一次性上传整份报告→ AI全局理解→ 更准确的分析

场景2: 多轮对话

小上下文(4K):对话20轮后,AI忘记最初的设定→ 前后矛盾→ 需要重新提醒大上下文(128K):对话100轮也不会忘→ 保持一致性→ 更流畅的体验

影响成本

场景3: API开发

未优化:每次请求都发送完整历史对话→ Token浪费严重→ 成本高10倍优化后:只保留最近N轮对话+关键摘要→ Token减少80%→ 成本大幅降低

❌ 常见误解

误解1 : Token就是字数

真相 :

中文: 1个字 ≈ 1.5-2 token(不是1:1)

英文: 1个词 ≈ 0.5-1 token

标点/空格也算token

建议 : 用1.5-2倍字数估算中文token

误解2 : 上下文越长越好

真相 :

越长越贵: 成本按token计费

可能影响效果: 信息过多AI也会"晕"

速度更慢: 处理更多内容需要时间

建议 : 按需选择,够用就好

日常聊天: 4K-8K够了

长文档: 32K-128K

整本书: 200K

误解3 : 超出上下文会报错

真相 :

不会报错,会自动截断

早期内容被丢弃(从对话开头删除)

AI"失忆",忘记前面说过的话

表现 : 前后矛盾/重复问题/忘记设定

误解4 : 上下文 = AI的长期记忆

真相 :

上下文是"短期工作记忆",只管当前对话

关闭对话就清空(除非有记忆功能)

不同对话之间不共享

ChatGPT记忆功能 : 另一种机制,不是上下文

实用技巧

1. 选对模型省钱

任务类型 → 推荐模型日常聊天/简单问题:→ GPT-3.5(4K)免费/便宜分析5-10页文档:→ GPT-4(8K)或GPT-4o(128K)分析50-100页报告:→ GPT-4 Turbo(128K)或Claude 3(200K)分析整本书/代码库:→ Claude 3(200K)或Kimi(200K)→ Gemini 1.5 Pro(1M,实验性)

2. 查看Token消耗

OpenAI API :

response = openai.ChatCompletion.create(...)tokens_used = response['usage']['total_tokens']print(f"使用了{tokens_used}个tokens")

在线工具 :

OpenAI Tokenizer: https://platform.openai.com/tokenizer

输入文字,立即看到token数

3. 优化Prompt减少Token

❌ 浪费token :

请你作为一个资深的、经验丰富的、专业的、优秀的编辑,帮我写一篇关于AI的文章,要求文章内容丰富、逻辑清晰、语言流畅、结构完整...(100字Prompt = 150+ tokens)

✅ 精简版 :

你是资深编辑,写一篇800字AI文章,要求:逻辑清晰,3段结构。(20字 = 30 tokens,节省80%)

4. 处理长文档策略

方法1: 分块总结(小上下文)

1. 把文档分成N段2. 每段总结要点3. 最后综合所有要点

方法2: 一次性处理(大上下文)

使用Claude/Kimi→ 上传完整文档→ 直接提问

方法3: MapReduce(超长文档)

1. 分块处理(Map)2. 汇总结果(Reduce)3. 综合分析

3秒总结

记住这3点就够了:

Token = AI的计量单位 ,中文1字≈1.5-2token,决定成本

上下文 = 工作台大小 ,越大能处理越长内容,但越贵

版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.top/279.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>