AI 编程工具的普及,让开发速度发生了质变。一个功能以前可能需要三天,现在半天出来了。迭代节奏加快了,但测试的方式还停留在原地——用例还是手写,回归还是靠人跑,联调还是拉着开发一起等。
结果就是:AI 让开发提速,测试成了新的瓶颈。
靠加人、加班追赶是追不上的。思路必须变。
— — —
先给结论:结构化的部分,已经可以了;非结构化的部分,还不行。
很多测试工程师的担忧是"AI 会不会取代我",但这个问题问错了。更准确的问题是:AI 能替代测试工作里的哪些部分?
— — —
以下这些,今天就可以交给 AI:
这些工作以前占测试工程师 80% 的时间,现在应该压到 20%。
— — —
1. 判断"这个结果对不对"
AI 能跑测试,但"跑过了"不等于"正确了"。
用户注册后收到欢迎邮件,测试通过。但邮件里的称呼写的是用户 ID 而不是用户名——AI 不觉得这是 Bug,因为它不理解"用户期望看到什么"。业务正确性的判断,需要人理解用户期望。
2. 探索性测试
AI 按已知路径测,发现不了"没人想到会这样操作"的问题:
这些场景 AI 不会主动去想,人会。
3. 跨系统的"感觉不对"
页面加载慢了 0.8 秒,自动化测试没报错。但有经验的测试工程师打开页面就知道"这不正常"。性能退化、交互卡顿、视觉错位——这些需要人的感知。
4. 需求本身有歧义时
AI 会按字面意思测,不会质疑需求。需求写"金额四舍五入",AI 测通了。但金融场景应该用"银行家舍入法",这个问题 AI 不会发现。
— — —
AI 能替代 |
AI 替代不了 |
|---|---|
重复执行 |
业务理解 |
已知场景验证 |
用户视角 |
数据生成 |
异常直觉 |
报告输出 |
需求质疑 |
— — —
这是一个容易被忽视但非常关键的转变。
传统用例是写给人看的:
text
步骤1:打开浏览器,输入网址步骤2:点击登录按钮步骤3:输入账号密码步骤4:观察页面是否跳转
这种写法描述的是"怎么操作",AI 执行效率很低。
面向 AI 写的用例,只需要两件事:
清晰的前置条件
text
用户账号存在、余额为100元、当前未登录状态
明确的验收标准
text
支付50元后:- 余额 = 50元- 订单状态 = 已支付- 支付流水存在记录
"怎么操作"交给 AI 自己决定,人只定义"什么叫对"。
这个转变还有一个额外收益:它倒逼测试工程师真正想清楚验收标准。以前可以模糊地写"验证页面正常显示",人看了知道啥意思。AI 不行,它需要你说清楚"什么叫正常"。很多测试工程师以前从来没真正想清楚过这个问题,面向 AI 写用例之后,这个问题必须回答。
— — —
很多团队引入 AI 测试工具后,流程变成了这样:
AI 跑完测试 → 人再看一遍结果对不对 |
这等于测了两遍,效率没有提升,还多了一层信任焦虑。
正确的顺序应该是:
text
人先写验收标准 ↓AI 按标准执行 ↓只有异常时人介入
AI 跑过了,就等于人跑过了,不需要重复——前提是你信任这个测试本身。
信任的来源不是"AI 跑过了",而是:验收标准是你定的、测试场景是你审查过的、CI 环境是稳定可靠的。这三点成立,重复执行没有意义。
人工介入只有两种情况:CI 报红了,或者线上出了问题说明有测试盲区。
— — —
代码层:最成熟,今天就能用
Copilot / Cursor 生成 pytest 或 Jest 测试代码,提交到仓库,GitHub Actions 自动触发执行,结果自动报告。AI 负责写代码,执行还是传统 CI 流水线。
UI 层:自然语言驱动浏览器
Playwright MCP、Midscene 等工具,AI 能直接控制浏览器:
text
"打开登录页,输入账号密码,点击登录,验证跳转到首页"→ AI 自己操作浏览器执行,不需要写一行代码
用自然语言描述操作步骤,AI 自动完成。
接口层:读文档直接发请求
给 AI 一份 OpenAPI 文档,它能自动生成请求、覆盖异常参数场景、验证响应格式,适合接口数量多、文档完整的项目。
— — —
AI 测试目前有真实的边界,面对复杂场景有几种应对方式:
分层处理,不强求 AI 全跑
AI 能跑的部分自动化,跑不了的部分人工 清单化。不是所有测试都要自动化,关键是让人的时间只花在 AI 真的做不了的地方。
复杂链路:拆解后分段执行
AI 跑不了整条链路,但可以跑每一段。以电商下单为例:下单、支付、物流、退款,AI 分别测每个节点的接口和状态流转,人工测跨节点的数据一致性和异常中断后的恢复。
跨业务系统:Contract 测试替代联调
跨团队、跨系统的场景靠 AI 端到端执行不现实。用契约测试替代:每个系统定义"我提供什么、我期望收到什么",CI 自动验证契约是否被破坏,不需要真正拉通跑一遍。
真正跑不了的:Checklist 化,逐步剥离
对于 AI 确实无法执行的场景,整理成结构化 Checklist,每次发版前人工过一遍,同时持续把其中能自动化的部分剥离出来。
— — —
这是一个很常见的问题,答案需要区分两件事:
验证功能:不需要人再跑
用例是新的,但只要验收标准是你定的、用例是你审查过的,AI 跑过就够了。人再点一遍,发现不了 AI 没发现的问题。
验证用例有没有漏:需要探索性测试
这不是重复执行用例,而是拿着已有用例覆盖不到的地方去试。支付流程的用例写好了,但没人想到"用户在支付页面停留 30 分钟再提交"会怎样。这部分不是重复,是扩展覆盖范围。
正确的流程是:
text
AI 执行用例(验证已知场景) 人做探索性测试(发现未知场景) ↓发现新问题 → 补用例 → AI 后续自动覆盖
人工介入的价值不是重复验证,而是扩展覆盖范围。发现的每一个新问题,都应该沉淀成用例,让 AI 下次自动覆盖。
— — —
AI 时代,测试工程师的工作从"执行测试"变成:
— — —
AI 是执行力极强的助手,但它不知道"为什么测",只知道"怎么测"。
知道"为什么测"——这是测试工程师不可替代的核心价值。
转型的关键不是学会用哪个 AI 工具,而是改变对自己角色的认知:从"执行测试的人"变成"定义质量标准的人"。工具会用了,但认知没变,还是在用 AI 帮自己更快地做重复劳动——这才是大多数测试工程师现在真正卡住的地方。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com