面试标准背诵稿

大约 7 分钟

《AI 应用开发岗面试标准背诵稿（精简高频版）》

冲刺使用方式

面试前 60 分钟：通读 1 遍，标记不熟问题。
面试前 30 分钟：只背第 1、4、9、16、20、21、22 题。
面试前 10 分钟：只看“项目介绍万能模板 + 最后一句高分总结”。

这份稿子的定位

这是一份“高压场景速记稿”，目标是让你在短时间内形成稳定输出。
如果你要系统准备，建议配合面试答案手册与 20题逐题追问版。

1）你怎么理解 AI 应用开发岗？

AI 应用开发岗本质是把大模型能力做成可落地的业务系统，不是单纯调 API。
核心工作包括：模型接入、RAG、Prompt、工具调用、接口开发、权限控制、异常处理、监控和成本优化。
所以它是“后端工程能力 + 大模型应用能力 + 业务理解”的结合，重点是上线能力和稳定性。

2）AI 应用开发和算法岗有什么区别？

算法岗重心在模型训练和效果提升，比如微调、评测、推理优化。
AI 应用开发重心在工程落地，比如接模型、做检索链路、搭服务、处理线上问题。
一句话：算法岗偏“做模型”，应用开发岗偏“用模型解决业务问题”。

3）AI 应用开发岗为什么还要后端基础？

因为大模型只是能力组件，最终要通过系统交付。
日常工作大量是接口、数据库、缓存、异步任务、部署、监控和排障。
如果后端基础弱，项目很容易停留在 demo，难以上线和稳定运行。

4）什么是 RAG？完整链路是什么？

RAG 是检索增强生成。先检索知识，再让模型生成答案。
典型链路是：文档上传 → 解析清洗 → chunk 切分 → 向量化入库 → 用户提问 → query 改写 → 检索召回 → rerank → Prompt 拼接 → 模型生成 → 返回答案和引用。
核心价值是提升准确性、降低幻觉、支持知识实时更新。

5）为什么不用“把文档全塞给模型”？

主要有四点：
1）上下文窗口有限，塞不下；
2）token 成本高、延迟高；
3）噪音太多会干扰回答；
4）知识更新不灵活。
RAG 的本质是“只给最相关内容”，在准确性、成本和速度上更平衡。

6）文档为什么要切 chunk？怎么切？

长文档直接向量化会语义混杂，检索不准。切 chunk 可以让片段语义更集中。
常见切法：按长度、按段落、按标题层级、带 overlap 滑窗、语义切分。
切太大噪音多，切太小信息不完整，所以要结合场景调优。

7）Embedding 的作用是什么？

Embedding 是把文本变成向量表示，让语义相近的内容在向量空间更近。
这样检索就不只靠关键词，而是能做语义召回。
它是 RAG 检索的基础能力。

8）topK 和 rerank 分别解决什么问题？

topK 解决“召回哪些候选片段”，偏召回率；
rerank 解决“候选里谁更相关”，偏排序精度。
可以理解为：topK 先海选，rerank 再精排。

9）为什么会出现幻觉？怎么处理？

幻觉是模型生成了看似合理但无依据的内容。
常见原因是检索不到、上下文噪音、Prompt 约束弱、模型随机性高。
处理上我会做：

提升检索质量
强约束 Prompt（无依据就拒答）
降低 temperature
要求引用来源
后处理校验
高风险场景人审
幻觉很难完全消除，但可以工程化显著降低。

10）检索不到内容怎么办？

不能强答，强答很容易胡说。
我会设相似度阈值和最小证据门槛，不满足就拒答或走兜底话术，同时引导用户补充信息。
并记录未命中问题，反哺知识库更新和 badcase 优化。

11）如何限制模型只基于知识库回答？

我会四层控制：
1）Prompt 明确“只能依据资料，不能编造”；
2）只喂检索到的可信上下文；
3）检索不足就拒答；
4）输出要带来源并做后校验。
高风险场景再加人工审核，避免错误外溢。

12）Prompt 怎么设计才稳定？

我一般按五块写：角色、任务目标、行为约束、输出格式、异常处理。
重点不是“写得好看”，而是“边界清晰、输出可控”。
对于结构化任务，我会配合 schema、few-shot、低 temperature 和服务端校验来提高稳定性。

13）JSON 输出不稳定怎么办？

我会做“约束 + 校验 + 重试 + 兜底”：

Prompt 指定 schema 和示例
优先用 function calling / JSON mode
服务端 schema 校验
失败重试并反馈错误
多次失败后降级返回
核心思路是：不要把模型当强类型接口，必须有防抖机制。

14）多轮对话上下文太长怎么办？

不能无脑保留全部历史。
常用做法：保留最近相关轮次、早期对话做摘要、关键信息结构化存储、低价值内容裁剪。
目标是保留“与当前任务最相关的信息”，而不是保留“最多信息”。

15）Agent 和工作流怎么区分？

工作流适合流程固定、步骤可预定义的任务，稳定可控。
Agent 适合路径不确定、需要动态决策和多工具调用的任务。
企业里我通常优先工作流，只有确实需要动态决策时才上 Agent，这样更稳定、可审计。

16）模型超时怎么办？

我会从预防和兜底两侧做：
预防：控制上下文长度、优化 Prompt、合理超时配置、长任务异步化。
兜底：有限重试、切备用模型、降级回复、监控告警。
核心是避免请求堆积和体验雪崩。

17）模型限流/第三方波动怎么办？

做平台级治理：

服务端限流
队列削峰
缓存复用
429 退避重试
主备模型切换
熔断降级
一句话：外部模型不稳定是常态，容灾必须前置设计。

18）成本太高怎么优化？

重点看 token 和模型路由：

缩短上下文
优化检索只喂关键信息
小模型预处理、大模型最终生成
热点问题缓存
限制输出长度
减少无效调用
成本优化本质是让系统可持续，不是单纯省钱。

19）如何评估 AI 问答系统效果？

我会分五类指标：
1）检索：Recall@K、命中率；
2）生成：准确率、幻觉率、引用正确率；
3）体验：首 token 时间、总时延、追问率；
4）稳定性：超时率、错误率；
5）业务：转人工率、答疑效率提升。
并用真实业务题和 badcase 集持续评估。

20）“你项目里最难的问题是什么？怎么解决？”

我项目里最难的是检索相关性不稳定。
难点在于用户提问口语化，而知识文档书面化，导致召回偏差。
我做了三件事：优化 chunk 策略、增加 query 改写、接入 rerank。
优化后 badcase 明显减少，答案相关性和可用性提升。
这个问题让我认识到，很多“模型答错”本质是“检索输入不准”。

21）项目介绍万能模板（1 分钟版）

这个项目是做 XX 场景的 AI 助手，目标是解决 XX 业务痛点。
整体链路是：数据入库（解析、切分、向量化）+ 在线问答（检索、重排、生成）+ 工程支撑（权限、监控、异常、成本）。
我主要负责 XX 模块，核心难点是 XX，我通过 XX 方案解决。
上线后在 XX 指标上有提升，比如命中率、响应速度或转人工率。
如果重做，我会在评估体系和可观测性上前置建设。

22）最后一句高分总结（可收尾）

我理解 AI 应用开发的核心不是“会调用模型”，而是“把模型能力稳定、可控、低成本地交付给业务”。
所以我在准备上会同时抓三件事：工程基础、AI 链路、异常与稳定性。