- 第1阶段:会用语言模型,掌握角色、背景、材料、目标、格式和核验。
- 第2阶段:会评估模型,用同一批任务比较中文、推理、长文、代码和成本。
- 第3阶段:会用多模态模型,理解图像、视频、音频生成的输入、控制和审核。
- 第4阶段:会做知识库和 RAG,把内部资料变成可检索、可引用的问答流程。
先照着做
把这篇内容变成今天能执行的动作
先不纠结工具排行,从任务、材料、输出和复核开始。下面这组卡片是本页最短执行路径。
ChatGPT / Claude / Kimi / 豆包 / 火山方舟 / 通义千问 / Qwen
学会提问、给材料、指定输出格式和人工核验。秘塔AI搜索 / Kimi / Perplexity / RAGFlow
学会找资料、核验来源、搭建简单知识库。即梦 / 可灵 / Runway / Sora / Veo / ComfyUI
学会图片、视频、分镜、风格和一致性控制。先用语言模型形成固定模板,再逐步加入知识库和工作流。
语言模型做策划,多模态模型做素材,人工把控事实和调性。
从真实任务开始。先用语言模型解决写作、总结、搜索和办公,再学习 RAG、Agent、多模态和本地部署。
适合人群
适合谁先看
适合把这个方向纳入日常工作流,并通过工具组合减少重复试错。
适合把这个方向纳入日常工作流,并通过工具组合减少重复试错。
适合把这个方向纳入日常工作流,并通过工具组合减少重复试错。
适合把这个方向纳入日常工作流,并通过工具组合减少重复试错。
核心判断
先看清楚这个需求
先确认这个方向是否对应真实高频任务,再看工具是否能稳定处理输入、输出和后续协作。
大模型学习不应该从追模型排行榜开始,而应该从真实任务开始:先会用语言模型完成写作、总结、搜索和办公,再理解多模态模型如何处理图片、音频和视频,接着学习 RAG、工具调用和 Agent,最后再考虑本地部署、企业知识库和自动化工作流。对中国用户来说,还要把国内可用性、账号、支付、数据合规和团队协作放进学习路线里。
当前页面重点覆盖 大模型学习路线、大模型怎么学、AI Agent学习路线、RAG教程、视频大模型教程 等搜索意图,适合先从具体工作任务进入,而不是只收藏工具入口。
专题页适合先建立工具地图:主力模型负责理解和生成,垂直工具负责设计、表格、视频、自动化或发布。
实际筛选时,优先检查“先从任务出发:写作、搜索、汇报、客服、编程、视频创作,比追模型参数更重要。”和“再分模型类型:语言模型负责理解和生成,多模态模型负责图片/音频/视频,Embedding 和重排模型负责检索,Agent 负责调工具和执行流程。”,这两个条件通常决定后续能否长期复用。
想建立完整 AI 学习地图的人
你只想看单个工具的使用说明
不要从模型排行榜开始,先从你自己的高频任务开始。
使用场景
真实场景怎么用
把需求放回实际工作流里看,才能判断工具是不是只会演示,还是能真的减少交付成本。
周报、纪要、汇报、邮件和资料整理占用大量时间。
先用语言模型形成固定模板,再逐步加入知识库和工作流。需要选题、脚本、图片、视频和发布文案。
语言模型做策划,多模态模型做素材,人工把控事实和调性。文档散、问答重复、新人培训慢。
先整理资料边界,再用 RAG 做可引用问答,最后接入客服或内部助手。希望 AI 帮你在飞书、浏览器、代码环境里处理日常事务。
用 OpenClaw、Dify 或脚本接入通道,先从低风险通知和总结开始。选型判断
选择维度
不要只看工具名,先按任务、成本、可用性和交付方式做判断。
先从任务出发:写作、搜索、汇报、客服、编程、视频创作,比追模型参数更重要。
再分模型类型:语言模型负责理解和生成,多模态模型负责图片/音频/视频,Embedding 和重排模型负责检索,Agent 负责调工具和执行流程。
中国用户先看可用性:国内工具优先验证访问、账号、价格、中文体验;海外工具要确认网络、支付和合规。
学习要分阶段:先会用,再会评估,再会搭流程,最后再考虑本地部署和企业化。
评估指标
上线前怎么评估
每个方向都要有可检查的指标,否则页面看起来很完整,实际选型还是靠感觉。
是否覆盖你每周真实发生的高频任务。
不是只会聊天,而是能进入写作、搜索、表格、视频或流程。提示词、模板和流程是否能重复使用。
换材料后仍能稳定产出。是否有权限、日志、人工确认和回滚方式。
Agent 不会越权执行高风险动作。对比节省时间、调用费用、人工复核和维护成本。
真实业务中能持续使用。适配判断
适合、不适合与避坑
对比页不只给工具名,更要帮助用户排除错误选择。
- 想建立完整 AI 学习地图的人
- 想判断自己该学提示词、RAG、Agent 还是本地部署的人
- 需要规划团队 AI 落地路线的人
- 你只想看单个工具的使用说明
- 你希望一周内完全掌握所有大模型技术
- 你不愿意用真实任务测试工具效果
- 不要从模型排行榜开始,先从你自己的高频任务开始。
- 不要把提示词当全部,大模型落地还需要数据、流程、权限、复核和成本控制。
- 不要一上来就本地部署,先验证需求和效果,再看隐私、成本和可控性是否值得。
- 不要让 Agent 直接执行高风险动作,必须设置权限、确认和日志。
对比表
对比结论
先按任务类型拆分,再把候选工具放到同一个真实场景里测试。
适合先学提示词、材料输入和结果核验,是所有大模型学习的基础。
适合图片、视频、声音和设计任务,需要额外学习镜头、风格和审核。
适合企业资料、客服问答和内部知识沉淀,关键是资料质量和引用。
适合多步骤任务和工具调用,关键是权限、日志和人工确认。
适合隐私、离线和成本可控需求,不适合作为新手第一步。
工具矩阵
推荐工具矩阵
优先匹配当前页面关键词和工具名,再补充同类高相关入口;每个工具都保留详情页和官网跳转,方便继续判断。
学会提问、给材料、指定输出格式和人工核验。
学会找资料、核验来源、搭建简单知识库。
学会图片、视频、分镜、风格和一致性控制。
学会工作流、工具调用、RAG 和 Agent 编排。
学会把 AI 接到消息通道和个人工作流,但要控制权限。
在隐私、成本或离线需求明确时,再学习本地模型部署。
可以先用 ChatGPT、Claude、Gemini 做主力处理,再根据场景补充 DeepSeek、通义千问 / Qwen、Kimi。正式用于业务前,要把提示词、输入材料、输出格式和复核规则固定下来。
Gemini 是 Google 的多模态模型入口,适合搜索资料理解、图片与文本分析、办公写作、代码辅助和 Google 生态用户;国内访问和账号环境需要提前确认,可作为 ChatGPT、Claude 之外的对照模型。
Ollama 是本地运行大模型的常用工具,适合开发者和团队在电脑或服务器上快速部署 Llama、Qwen、DeepSeek 等开源模型;重点关注显存、模型大小、推理速度和数据隐私。
OpenAI 是面向通用问答、写作、代码、多模态理解和 API 开发的基础模型平台,适合需要 ChatGPT、自动化工作流、企业知识问答和应用接入的用户;国内团队使用时要重点评估访问稳定性、账号、合规和成本。
Claude 擅长长文本阅读、复杂推理、方案撰写和代码协作,适合处理合同、论文、需求文档、项目规划和多轮分析任务;选择时要关注海外访问、付费方式、API 额度和隐私边界。
DeepSeek 是国内常用的大模型和 API 平台,适合中文问答、代码生成、复杂推理、办公写作和低成本模型接入;开发者可重点关注 API 文档、推理模型能力、价格和国产替代场景。
通义千问和 Qwen 覆盖中文问答、办公写作、代码、多模态和阿里云百炼 API,适合企业接入、开发者测试和国内业务场景;选型时可重点看模型规格、云服务集成和中文生态。
豆包面向个人中文问答、写作、图片理解和内容创作,火山方舟则适合企业和开发者接入模型 API、Agent 与应用开发;适合自媒体、办公、客服和营销内容生产场景。
LangChain 是 LLM 应用开发框架和生态,适合构建 RAG、Agent、工具调用、链式流程和企业 AI 应用原型;开发者应关注版本变化、可观测性、部署复杂度和与 LangGraph 的分工。
Google Cloud 企业级 AI 工作入口,支持代理构建、数据连接和组织级治理。
Open WebUI 是开源本地模型 Web 界面,常与 Ollama 等本地模型工具配合,适合个人、团队和私有环境使用多模型聊天、知识库和插件能力。
操作流程
建议操作流程
- 第1阶段:会用语言模型,掌握角色、背景、材料、目标、格式和核验。
- 第2阶段:会评估模型,用同一批任务比较中文、推理、长文、代码和成本。
- 第3阶段:会用多模态模型,理解图像、视频、音频生成的输入、控制和审核。
- 第4阶段:会做知识库和 RAG,把内部资料变成可检索、可引用的问答流程。
- 第5阶段:会搭工作流,把搜索、总结、写作、表格、通知串成固定 SOP。
- 第6阶段:会搭 Agent,让模型能调用工具、读取资料、执行任务并写日志。
- 第7阶段:会做权限和复核,区分自动执行、人工确认和禁止执行的动作。
- 第8阶段:再考虑本地部署和企业化,评估隐私、成本、并发、运维和合规。
执行细节
流程细节和交付物
真正落地时要看每一步输入什么、产出什么、由谁复核。
自己最高频的 3 个任务
交付物:可复用提示词和工具组合 · 负责人/复核:个人用户同一份中文材料、代码片段、表格或视频需求
交付物:模型对比记录 · 负责人/复核:产品/运营/开发者固定业务 SOP、资料库、输出模板
交付物:RAG 或 Agent 工作流 · 负责人/复核:团队负责人权限、日志、成本、数据边界
交付物:可控的 AI 应用 · 负责人/复核:技术和业务共同负责编辑提醒
编辑提醒
这是大模型生态总入口,后续内链到语言模型、视频模型、Agent、RAG、本地部署等专题。
页面应强调学习路线和落地顺序,不做焦虑式宣传。
2026-05-19 已复核标题、描述、关联工具、FAQ 与收录池质量,后续继续补真实案例和推广素材。
资料来源
参考资料与延伸阅读
页面内容会结合开源项目、官方文档和中文实践资料持续更新;外部资料用于核对信息和扩展案例,不直接复制原文。
按页面关键词查找开源项目、README、示例代码和更新记录,适合后续扩充工具库。
核对日期:2026-06-25 CSDN CSDN 中文实践检索用于补充中文实践经验和案例线索;本站内容做结构化改写,不复制原文。
核对日期:2026-06-25 官方文档 Dify 官方文档参考应用编排、工作流、知识库和 Agent 能力边界。
核对日期:2026-06-25 官方文档 LangGraph 文档参考 Agent 状态图、工具调用和可恢复流程设计。
核对日期:2026-06-25 GitHub RAGFlow GitHub参考开源 RAG 引擎的文档解析、检索和知识库问答能力。
核对日期:2026-06-25 官方文档 LangChain RAG 教程参考检索增强生成的基础链路和工程化拆分。
核对日期:2026-06-25常见问题
常见问题
大模型学习应该从哪里开始?
从真实任务开始。先用语言模型解决写作、总结、搜索和办公,再学习 RAG、Agent、多模态和本地部署。
普通人需要学本地部署吗?
不一定。只有在隐私、离线、成本或定制需求明确时,本地部署才值得投入。
Agent 和普通聊天 AI 有什么区别?
普通聊天 AI 主要回答问题,Agent 会拆解目标、调用工具、读取资料、执行步骤并返回结果。
中国用户学习大模型要注意什么?
要同时看国内可用性、账号支付、中文体验、数据合规和团队协作,而不是只看海外模型热度。