
好多传统产物司理转AI产物时,第一反应还是写需求、画经由、推斥地。但AI产物上线后最容易翻车的场地,往往不是“有莫得功能”,而是“后果到底有莫得变好”。我作念金融投研Agent表情后,一个很深的感受是:AI产物司理一定要会搭评测闭环,不然你根底不知说念问题出在模子、指示词、检索调回,还是Agent链路。

我当年也容易把AI产物当成“传统产物+大模子才智”来相识。
传统产物里,产物司理把需求证实晰,PRD写齐备,交互经由画显着,再互助斥地上线,后头看用户反馈、数据埋点、A/B测试,基本就能跑起来。
但AI产物不太相似。
你写完PRD,仅仅把“要作念什么”证实晰了;的确难的是上线后如何判断“作念得好不好”。
并吞个需求,大模子可能今天答得好,来日因为prompt改了一句就变差;并吞个学问库,检索调回可能在闲居问题上很好,但一遭遇界限问题就漏;并吞个Agent链路,单步用具齐没问题,串起来却可能卡介意图识别、用具调用、最终总结任何一个关节。
是以AI产物司理不成只会写PRD,还要会联想评测体系。
说直白点:PRD决定产物能不成被斥地出来,评测体系决定产物能不成延续变好。
第一个误区:把“用户反馈”当成独一考证格式
好多东说念主作念传统产物时,民风上线后看用户反馈。
用户以为好不好用?有莫得投诉?滚动率有莫得涨?留存有莫得变好?这些诚然遑急。
但AI产物若是只等用户反馈,问题会来得太晚。
因为AI才智的作假泛泛是“局部坏掉”的。
比如一个RAG问答产物,80%的老例问题齐答得可以,但偏巧在某类专科问题上调回不到原文;比如一个Agent系统,大多数单轮问题能惩处,但一遭遇复合query就把意图拆错;再比如一个金融投研助手,事件解读看起来很顺,但临了总结节点援用的不是原文级数据,而是模子加工过的中间内容。
这些问题,用户不一定能准确姿色。
用户只会说:“嗅觉不准”“答得怪怪的”“不太敢信”。
但产物司理不成停在这里。
你要能不绝往下拆:到底是不准、不全、不计划、区别规,还是反应太慢?
我作念金融投研多智能体矩阵时,就遭遇过访佛问题。早期十多个意图看起来齐合理,但放到真实query里会相互打架。自后咱们把无数query摊开看,才发现问题不在用户抒发,而介意图体系自身拆得太细、界限不清。
若是只看用户反馈,很可能临了只获得一句“这个Agent不好用”。
但若是有评测集和筹划体系,你就能知说念:是哪类query误触发,哪条链路不踏实,哪个Agent输出质料下跌。
这即是评测的价值:让问题可量化。
第二个误区:只看业务筹划,不看AI才智筹划
传统产物常见筹划群众齐熟:PV、UV、DAU、MAU、留存率、滚动率、付费率、NPS、舒心度。
这些筹划仍然灵验,但不够。
AI产物还要看一层“才智筹划”。
比如:
意图识别准确率;
回应计划性;
任务完成率;
多轮对话完成率;
幻觉率;
转东说念主工率;
AIGC选拔率;
反当令间;
检索调回率;
用具调用得手率。
这些筹划不是为了让报表更复杂,而是为了定位问题。
举个例子,一个AI客服产物留存下跌了,传统产物司理可能会去看进口、交互、案牍、用户旅途。但AI产物司理还要不绝问:
是用户问题莫得被识别出来?
是识别出来了但学问库没调回?
是调回了但大模子总结错了?
是谜底对了但反应太慢?
是单轮能答,多轮就断?
若是你莫得才智筹划,临了扫数问题齐会被归因成“模子不行”。
这其实是很粗野的。
我在金融投研Agent表情里最彰着的感受即是:AI产物的效力提高,不一定只来自模子才智,也来自产物结构的减法。咱们把十多个意图敛迹成2类需求范式,把链路固定成4条标准奉行旅途,系统就不消在一堆分支里往来踟蹰。后头反当令间从10几秒压到7秒内,弱点问答准确率作念到约95%,这内部既有技艺优化,也有产物结构敛迹带来的收益。
是以AI产物筹划体系不成只盯业务限度,还要能拆到才智层。
第三个误区:评测集纯粹凑一批问题就完事
好多团队说我方有评测集,其实仅仅凑了一批常见问题。
这不够。
评测集内容上是给AI产物出卷子。卷子出得不对,分数再高也没真谛。
我比拟推选的评测集起首是四类:

真实用户日记一定要占大头,因为它最接近真实使用场景。用户如何问,系统就应该如何被测试,而不是只用产物司理脑补出来的“标准问法”。
历史错例也很遑急。AI产物迭代最怕什么?最怕上一个版块刚修好的问题,下一个版块又冒出来。是以历史错例应该插足追念测试,每次版块更新齐要再行跑。
界限样本是专门测系统底线的,比如恍惚意图、复合问题、超长输入、无须具撑持的问题、敏锐抒发、合规风险场景。
AI生成样本可以用,但只可作念冷启动补充,不成齐全信任。因为AI生成的问题往往太规整,和真实用户的散乱抒发不是一趟事。
说到底,评测集不是为了诠释系统很强,而是为了尽早知道系统那处弱。
第四个误区:只打分,不归因
好多评测呈文最常见的问题是:有分数,尊龙国际官方网站没论断;有论断,没归因。
比如准确率85%,计划性90%,平均反当令间7秒。
看起来很齐备,但产物司理拿到后还是不知说念下一步该改什么。
因为评测的确有价值的场地,不是告诉你“分数是些许”,而是告诉你“为什么扣分”。
一个AI产物的badcase,简略率会落到这几类原因里:
模子才智问题:模子自身推理、相识、生成不踏实;
prompt问题:料理不清、变装不解、输出阵势不稳;
检索调回问题:RAG莫得调回正确学问块,或者调回内容噪声太多;
数据问题:学问库过旧、清洗不干净、分块区别理;
Agent链路问题:意图识别错、用具选错、关节规章错;
产物界限问题:需求原本就没灵验具撑持,却硬让系统回应。
若是不作念归因,扫数问题临了齐会变成一句话:“让算法再优化一下。”
这对算法和工程齐不公正,也不利于产物迭代。
产物司理要作念的是把问题拆明晰:哪些是模子要调,哪些是prompt要改,哪些是学问库要补,哪些是产物界限要敛迹。
在金融投研场景里,这少量尤其弱点。比如系统不成为了显得智谋,奏凯生成无起首的投资不雅点;若是检索不到原文依据,就应该指示信息不及,而不是强行编一个看起来很专科的谜底。
克制无意候不是保守,而是上线才智的一部分。
我当今会用的AI产物评测闭环
若是把这套挨次压缩成一个可奉行经由,我会用五步:

第一步,定筹划。
先证实晰什么叫好。不同AI产物的好不相似:对话助手看准确率、计划性、多轮完成率;RAG产物看调回率、援用准确性、幻觉率;Agent产物看任务完成率、用具调用得手率、链路踏实性;AIGC产物看选拔率、生成质料、裁剪老本。
第二步,选挨次。
不是扫数问题齐符合东说念主工评测,也不是扫数问题齐符合LLM评分。阵势校验、字段齐备性、反当令间可以用自动剧本;专科度、抒发质料、用户舒心度符合东说念主工评测或LLM评分;弱点合规场景最佳东说念主工复核。
第三步,造评测集。
不要只凑常见问题。真实日记、历史错例、界限样本、AI生成样本齐要有,何况要按业务场景分层。
第四步,跑评测。
每次版块迭代齐要跑并吞批中枢评测集,保留版块对比。不然你只知说念新版块“嗅觉更好”,不知说念到底好在那处。
第五步,作念归因。
评测不是为了给模子打个分,而是为了酿成闭环:评测→发现问题→badcase归因→反馈算法和工程→追念测试。
这一步才是AI产物司理的确该参与的场地。
这件事如何落到PRD里
好多东说念主会问:评测体系是不是单独写一份文档就行?
我的提倡是:可以单独写评测文档,但PRD里也必须提前埋进去。
因为评测不是上线后的补充四肢,而是需求联想的一部分。
写AI产物PRD时,除了传统的需求布景、用户场景、功能经由、交互证实,我会额外补四块:
第一,才智界限。
明确这个版块能回应什么,不成回应什么;哪些问题必须兜底,哪些问题不成强答。
第二,后果筹划。
不单写业务筹划,也要写AI才智筹划。比如准确率、调回率、反当令间、用具调用得手率、幻觉率。
第三,评测集联想。
证实评测集起首、遮蔽场景、样分内层、历史错例是否插足追念测试。
第四,badcase归因机制。
证实线上问题如何收罗,如何分类,如何流转给算法、工程、运营,如何作念追念考证。
这么写PRD,斥地和算法才知说念你要的不仅仅“作念一个功能”,而是“作念一个能被延续考证的系统”。
这亦然AI产物和传统产物很不相似的场地。
造就千里淀
1.AI产物不是上线即竣事,而是上线后才初始知道真实问题
传统产物上线后看用户活动,AI产物上线后还要看才智踏实性。因为模子、检索、prompt、Agent链路齐可能成为质料波动源。
2.业务筹划告诉你限度,才智筹划告诉你原因
留存下跌、舒心度下跌仅仅限度。意图识别、调回率、幻觉率、用具调用得手率,才是帮你定位问题的持手。
3.评测集不要只收罗标准问题,要特意收罗辛劳
真实用户不会按标准句式发问。历史错例、界限样本、恍惚意图、极度链路,才最能测出系统上线后的抗压才智。
4.产物司理不要把扫数问题齐甩给算法
有些问题是模子问题,有些是prompt问题,有些是学问库问题,还有些是产物界限联想问题。产物司理必须参与归因,不然迭代会越来越乱。
5.能被评测的AI才智,才有延续迭代的可能
若是一个才智无法被界说、无法被评测、无法被归因,它就很难被踏实优化。AI产物司理要作念的不是迷信模子,而是把模子才智放进可考证的产物闭环里。
终结
若是说传统产物司理的基本功是“把需求证实晰”,那AI产物司理的新基本功,即是“把后果评明晰”。
不要只会写PRD,不要只会说模子很强,也不要只等用户反馈来告诉你那处坏了。
AI产物的确能延续变好,靠的是一套评测闭环:定筹划、选挨次、造评测集、跑评测、作念归因。
临了浓缩成一句话:
AI产物司理的价值,不是把大模子接进产物里,而是让每一次模子输出齐能被界说、被评测、被革新。
接待商量区接洽尊龙APP官方最新版下载,若是你也在作念AI产物评测、RAG问答或Agent系统,非凡念念听听你们是如何搭评测集和归因机制的。
NBA下注(中国)官网入口