核心实操 · 故障排查方法论 · 场景模拟演练
在Buddy 1.5线岗位中,你每天面对的场景是:用户带着一个"不好用"的描述来找你,你需要快速判断问题属于什么类型、在哪个环节出了问题、怎么解决或引导用户解决。
面试官考察的不是你背了多少错误码,而是你的问题分析思路——面对一个模糊的、混乱的、甚至带情绪的用户描述,你能否系统性地收敛到准确的根因。
| 层级 | 核心职责 | 问题处理深度 |
|---|---|---|
| 1线(客服) | 接单分流、FAQ回复 | 标准问题直接回复,非标准问题转派 |
| 1.5线(你的目标) | 技术支持 + 问题诊断 | 能独立排查大部分技术问题,复杂bug升级 |
| 2线(研发) | Bug修复、功能开发 | 需要改代码才能解决的问题 |
按照"原因归属"和"解决方式"两个维度,所有用户问题可以分为四象限:
| 用户侧解决 | 产品侧解决 | |
|---|---|---|
| 用户原因 | 操作错误/理解偏差 → 引导教育 | UX设计不直观 → 提产品建议 |
| 产品原因 | 已知限制/Workaround → 提供替代方案 | Bug/功能缺失 → 升级研发 |
| 判断信号 | 倾向类型 | 应对策略 |
|---|---|---|
| "之前能用现在不行了" | Bug或环境变化 | 确认版本变化、配置变化 |
| "我按照文档做的但不行" | 操作遗漏或文档过时 | 逐步对照操作流程 |
| "AI说了奇怪的话" | 模型幻觉或Skill冲突 | 查看具体输出,判断触发原因 |
| "功能找不到" | 操作引导或版本差异 | 确认版本、引导正确入口 |
| "报错了" | 需看错误信息判断 | 获取完整错误信息再分类 |
我总结了一个适用于Buddy产品技术支持的排查框架:LOCATE
| 步骤 | 英文 | 中文含义 | 具体动作 |
|---|---|---|---|
| L | Listen | 倾听收集 | 完整听取用户描述,不打断,提取关键信息 |
| O | Observe | 观察现象 | 获取截图/日志/错误信息,观察具体表现 |
| C | Classify | 分类归因 | 判断属于哪一类问题(操作/环境/Bug/边界) |
| A | Analyze | 分析根因 | 在确定的分类内深挖根本原因 |
| T | Test | 验证方案 | 提出解决方案并验证有效性 |
| E | Ensure | 确认闭环 | 确认问题解决,记录知识库,预防复发 |
这一步的关键是不要急于下结论。用户的第一句话往往是模糊的、带情绪的、甚至方向性错误的。你需要:
主动收集客观证据:
根据收集的信息快速分类:
问题 → 是否能复现?
├── 能复现 → 是否所有用户都有?
│ ├── 是 → 产品Bug(升级)
│ └── 否 → 环境差异(排查配置)
└── 不能复现 → 是否有规律?
├── 有规律 → 条件触发型问题(深挖条件)
└── 无规律 → 可能是偶发/已修复
在确定分类后,进行深入分析:
WorkBuddy 问题
├── 连接/启动问题
│ ├── 客户端无法启动
│ │ ├── 安装损坏 → 重装
│ │ ├── 系统兼容性 → 检查OS版本
│ │ └── 权限不足 → 管理员权限运行
│ ├── 无法连接服务
│ │ ├── 网络问题 → 检查网络/代理
│ │ ├── 服务端维护 → 查看公告
│ │ └── 账号问题 → 检查登录状态
│ └── 连接器断开
│ ├── OAuth过期 → 重新授权
│ ├── 第三方服务故障 → 等待恢复
│ └── 配置变更 → 重新配置
│
├── AI 响应问题
│ ├── AI 不回复/超时
│ │ ├── 网络延迟 → 检查网络
│ │ ├── 服务负载高 → 稍后重试
│ │ └── 请求过长 → 简化请求
│ ├── AI 回复不准确/幻觉
│ │ ├── 上下文不足 → 提供更多背景
│ │ ├── Skill冲突 → 检查skill配置
│ │ ├── 模型能力边界 → 换个思路提问
│ │ └── 信息过时 → AI知识有截止日期
│ └── AI 拒绝执行
│ ├── 安全策略触发 → 调整请求方式
│ ├── 权限不足 → 检查权限配置
│ └── 工具不可用 → 检查工具状态
│
├── 功能执行问题
│ ├── Skill 不触发
│ │ ├── description不匹配 → 用斜杠命令手动触发
│ │ ├── Skill文件损坏 → 检查SKILL.md格式
│ │ └── 路径/权限问题 → 检查skills目录
│ ├── MCP 连接失败
│ │ ├── 配置格式错误 → 检查mcp.json
│ │ ├── 服务未启动 → 启动MCP server
│ │ ├── 端口冲突 → 换端口
│ │ └── 认证失败 → 检查credentials
│ ├── 文件操作失败
│ │ ├── 路径不存在 → 确认路径
│ │ ├── 权限拒绝 → 检查文件权限
│ │ └── 编码问题 → 检查文件编码
│ └── 自动化不执行
│ ├── 时间设置错误 → 检查rrule/scheduledAt
│ ├── 状态为PAUSED → 改为ACTIVE
│ └── 客户端未运行 → 需保持在线
│
├── 性能问题
│ ├── 响应速度慢
│ │ ├── 任务过于复杂 → 拆分任务
│ │ ├── 上下文过长 → 新建会话
│ │ └── 网络带宽不足 → 优化网络
│ ├── 内存占用高
│ │ ├── 长时间运行 → 重启客户端
│ │ └── 大文件处理 → 分片处理
│ └── 卡顿/无响应
│ ├── 工具执行超时 → 增加timeout
│ └── 死循环 → 取消当前任务
│
└── 数据/记忆问题
├── 记忆丢失
│ ├── 跨任务隔离(设计如此)→ 使用memory文件
│ ├── memory文件被覆盖 → 恢复备份
│ └── 上下文超限 → 关键信息写入MEMORY.md
├── 历史会话找不到
│ ├── 未正确保存 → 检查session存储
│ └── 切换了工作区 → 回到原工作区
└── 配置丢失
├── 重装后丢失 → .workbuddy目录需备份
└── 多设备同步问题 → 手动同步配置
作为技术支持,你需要快速、精准地从用户那里获取有效信息。以下是经过验证的提问模板:
"您好,我来帮您排查这个问题。能否先告诉我:
1. 您使用的是哪个产品?(WorkBuddy桌面版/小程序/CodeBuddy)
2. 大概什么时候开始出现这个问题的?
3. 方便发一张截图或错误信息给我看吗?"
"为了更准确地定位问题,我还需要确认几个信息:
1. 这个问题是每次都出现,还是偶尔出现?
2. 之前正常使用过吗?如果是,最后一次正常是什么时候?
3. 出问题之前,您是否有做过什么改动?(比如更新了版本、修改了配置等)"
"麻烦您帮我确认一下环境信息:
1. 操作系统版本是什么?(Windows 10/11/macOS/Linux)
2. 客户端版本号是多少?(可以在设置-关于中查看)
3. 网络环境是怎样的?(公司内网/家庭WiFi/手机热点)"
| 用户说 | 你应该追问/理解为 |
|---|---|
| "不好用" | 具体是哪个功能?表现是什么?期望是什么? |
| "出错了" | 什么操作触发的?错误信息具体是什么? |
| "很慢" | 大概多少秒?是每次都慢还是偶尔?什么操作时慢? |
| "AI不听话" | 您给AI的指令是什么?AI回复了什么?您期望的是什么? |
| "功能没了" | 之前是怎么用的?现在找不到了还是用不了?版本有变化吗? |
| "总是断开" | 哪个连接断开了?多久断一次?断开时有什么提示? |
排查流程:
~/.workbuddy/skills/下有无对应目录和SKILL.md/stock-analyzer排查流程:
~/.workbuddy/mcp.json文件格式是否正确(JSON语法)npx需要Node.js环境)排查流程:
排查流程:
排查流程:
排查流程:
.workbuddy/目录结构是否正常存在每个Case复盘应该包含以下要素:
问题现象:用户创建了一个Skill,其中指令要求调用ImageGen工具生成图片,但执行时报错"Tool not found: ImageGen"
根因分析:
解决方案:修改Skill指令,明确说明"先用ToolSearch找到ImageGen工具,然后通过DeferExecuteTool调用"
经验教训:Skill编写时需要区分常驻工具和延迟加载工具,对后者需要写明发现+调用的完整流程
预防建议:维护一份"延迟工具清单",在Skill编写指南中提醒用户
问题现象:用户在一个任务中设定了"我喜欢简洁风格、不要废话",新建任务后AI又开始啰嗦了
根因分析:
解决方案:
经验教训:需要向用户解释任务隔离的设计逻辑(安全性考虑),同时提供记忆持久化的解决方案
问题现象:用户让WorkBuddy生成一份中文报告,保存为.txt文件后用记事本打开全是乱码
根因分析:
解决方案:
经验教训:Windows环境的编码问题是高频问题,需要熟练处理。关键是判断是"生成时编码错误"还是"打开时编码不匹配"
作为1.5线,你的职责是尽可能独立解决问题,但以下情况必须升级:
| 升级信号 | 说明 | 升级对象 |
|---|---|---|
| 确认是产品Bug | 能稳定复现的非预期行为 | 研发团队 |
| 数据安全问题 | 用户数据泄露/丢失/损坏 | 安全团队 + 研发 |
| 服务大面积故障 | 多用户同时反馈相同问题 | 运维 + 研发 |
| 需要改代码修复 | 配置层面无法解决 | 研发团队 |
| 涉及账号/权限异常 | 非正常的权限问题 | 账号安全团队 |
| 用户明确要求升级 | 多次沟通无法满足用户 | 主管/升级通道 |
升级时,你的工单应包含:
【问题标题】简明描述问题
【影响范围】单用户/多用户/全量
【问题类型】Bug/性能/安全/功能缺失
【复现步骤】
1. 环境:OS/版本/网络
2. 步骤1
3. 步骤2
4. ...
【预期结果】应该发生什么
【实际结果】实际发生了什么(附截图/日志)
【已尝试方案】你已经做了哪些排查
【紧急程度】P0/P1/P2/P3
| 检查项 | 检查方法 | 常见问题 |
|---|---|---|
| 客户端版本 | 设置-关于 | 旧版本缺少功能 |
| 网络连通性 | ping/访问测试 | 代理/防火墙阻断 |
| 文件权限 | ls -la / icacls | 只读/无权限 |
| JSON格式 | JSON验证器 | 逗号/引号错误 |
| Node/Python版本 | node -v / python --version | 版本不兼容 |
| 磁盘空间 | df -h / 磁盘管理 | 空间不足写入失败 |
参考应对:
参考应对:
/skill-name手动触发,如果能触发说明是优先级问题参考应对(高优先级):
参考应对:
参考应对:
~/.workbuddy/mcp.json)