上周六(8.23)在腾讯北京总部做了一个分享,感谢腾讯问卷 X UXRen 搭建的平台。很早之前就参加 UXRen的活动,学到很多,也在里边认识了后来很熟的朋友。把这次分享的文字实录做了一下整理,以回馈社区~
想要完整 PPT,或者交流用研+AI,可以加群。(群已达 200 人,关注公众号后发送「加群」,会回复我的微信号,加我我拉你)

---
大家好,今天给大家分享的主题是「价值重塑:用户研究员在 AI 时代的三位一体能力模型」。
为什么我能分享这个话题呢?
首先是因为我个人的兴趣。我自己一直在做用户研究员,一直比较关注技术上的进展,我很早就学了 python ,然后在22年底 GPT-3.5出来的时候,就一直在关注。
后来呢,我就把我的一些思考和实践去写了出来,就是「真知浩见」这个公众号。然后从22年底到现在,我已经写了150多篇的用研+AI的文章,有很多积累。
另外还有一个点,是我在的这家公司。它是一个 k12 教育公司,教育公司有一个特点是它非常重销售,就会积累非常多的我们的销售和家长的沟通文本。
那大模型最擅长的是什么?就是对文本的一个处理,它是语言模型。所以我在公司里边利用大模型做了很多文本分析的事情,比如说我们去分析用户的退费原因,用户的未续报原因或者是班主任给家长有没有过度的承诺,就 AI 质检相关的东西。另外我也推动了很多场景的 AI 落地,按照不同阶段跟我们的这个内部的数据有不一样的结合。
基于我个人有比较多的思考和实践,然后今天来跟大家做一个分享和交流。
目录
今天我会从这几个方面进行:首先是这个能力模型的概览,然后是这三个方面,AI 工具、AI 素养、然后我们人类到底有什么样的优势,最后会有一个结语。
AI-Native 用户研究员能力模型概览
我们首先看这个 AI 时代用户研究员的能力模型:工具、素养和优势。

工具这个比较容易理解,就是类似于腾讯问卷这样的工具。我给它分了三类。
接着是AI 素养,是一个比较核心的东西,也是呼应刚才西子老师提到的,就是你在用 AI 的时候,你发现它的效果没有那么好,是工具的问题还是 AI 素养、个人的问题。
因为我自己是一个 AI 鼓吹者,我会觉得是人的问题,是你没用对。或者是中间哪个地方用的还不够细,或者你这个场景用的不对。
最后那个人类优势这一块,我还是会想强调, AI 肯定是在他有他自己的优势,但人类的优势是什么?
我们作为一个用户研究员,作为一个分析师,我们去做各种各样的研究项目的时候,与 AI 相比我们的优势到底在哪里?也是今天想要去跟大家探讨的一个地方。
一、AI工具:效率加速器
首先第一大方面就是 AI 的工具,它作为一个效率的加速器。
AI工具分层

第一层是 AI 增强的通用研究助理,这个其实你可以把它简单的理解成是一个在一个通用大模型里面,你去完成一些相应的任务。我们用 DeepSeek,我们用 GPT,然后我们去用一些简单的结构化的提示词去获得你想要的东西。
第二层是自动化与智能的工作流,就是利用 Agent 和集成工具,将重复性、流程化的任务自动化,建立持续性的数据洞察监测管道,实现规模化的一个研究,这里面就会稍微会复杂一点。它是一个工作流,它不只是你在一个聊天窗口里面去做的事情,它需要用你自己的一些访谈数据、些问卷数据,真正的去做一些有工作流的这样的一个产出。
第三层是一个 AI 驱动的创新引擎,它是一个更加完整的解决方案了。这里面的话,比如说像腾讯问卷,刚才我们也看到他们在演示的这个 AI 主持人,我们可以把它看成是一个完整的一个解决方案了。它可以去访谈,可以去根据你的话题生成访谈提纲,执行访谈,最后生成报告,它是个完整解决方案。
这些都是属于工具这一块。
第一层:AI增强的通用研究助理
我们看第一层的通用研究助理。
需求拆解
这个我觉得对大家来说已经比较容易了哈,比如说我们就让他去做一个需求拆解,你当然可以去直接给他说个简单的词语,或者是说我们来给他要求多一点。它就能够呈现出来一个非常非常明确的这样的一个需求拆解的一个结果。
生成访谈提纲
比如说我们让他去生成一个访谈提纲。这里我给他的要求其实已经比较详细了,我告诉他访谈提纲里面要包含开场白、用户的基本情况、使用背景信息,然后中间的深入探寻以及结束语这里边。
其实现在的 AI 你已经不需要去跟他说这么多了,你就跟他说,我需要做一个访谈提纲,他就会自动给你去生成这样的相应的开场白、破冰问题,然后每一个部分,大概有几分钟的时间。
智能转录与总结
然后是智能的转录与总结,这个在定性这一块用的已经比较多了。
我之前做研究的时候,我要做转录,要么就是现场我们找这个速记员,他现场在敲。或者就是结束之后,他再去花一天的时间,也是他转录好给我。
但是现在基本上咱们的这种用研的这种会已经完全不需要转录员了。我们现场录音,录音完了之后现在有非常多的这个转录工具,飞书妙计、通义他们转的都非常快,其实这种转录完全不需要追求这个准确率。因为这个出现的这个错字的情况,AI 会自动会把它正确过来。
然后定性的自动总结,这个就不用说了。通义里面可以看到你的会议的转录,它是会直接给你一些摘要,然后结构化的东西的,但只是说我们自己在做这种总结的时候,你可以有一个自己结构化的模板。
那你的结构化的模板是什么?就是你的那个访谈提纲,你把你的访谈提纲和你的转录的这个全所有的文本全部扔给大模型。然后你说你让这个访谈提纲给我总结出来相应的东西,那就是一个非常好的用户故事和用户访谈纪要。
这个对大家来说,这个省的时间是非常多的。然后这里面可能有一个大模型的,这个有个点后面可能也会讲到,有些人在跟大模型交流的时候,他会怕输入的内容太多。
我把我的访谈提纲,我的那个访谈转录可能几万字,我的提纲可能也有1000字,这么多次大模型能不能处理?没关系,我们后面会讲到大模型的上下文非常长,大模型现在最长上下文可以达到大概200万字,所以完全不用担心。所以在这一块的话,咱们做一些定性的这个总结、用户纪要,包括你有些人可能喜欢用 excel 去总结,大模型也完全可以处理,你让他就给你输出 excel 格式的就行了,然后你直接 copy 就 ok 了。
第二层:自动化与智能工作流
然后第二层是自动化与智能工作流。
桌面研究-Deep research工具
这里面给大家推荐一个非常好用的工具,就是现在各家模型应该都推出来这个 deep research 的工具。
现在有两家的 deep search 工具会比较好,第一个是那个 Gemini 的,第二个是 ChatGPT 的。Gemini 的 deep research 工具的特点是宽泛,特别多,你给他一句话,他能给你生出几万字的报告,而且都是联网搜索出来的,就基本不会有幻觉,它后面都会有链接的。
然后 GPT 的这个深度研究模式出来的内容就是比较深。
国产的也有,国产现在的秘塔搜索和那个 kimi 的 researcher,都会这个 deep research 工具都会给大家输出非常多的这样的一些内容,那对于你作为一个比较前期的桌面研究来说,这些内容已经完全足够了。
自动化数据处理-以微软的Lida为例
还有比如说自动化的数据处理,这个是以微软的这个 Lida 为例,这个它是在 github 上面一个开源的模型。
为什么举它为例呢?因为它是一个完整的一个工作流,就是你上传一个 CSV 文件或者 excel 文件,它会先生成数据摘要,它会告诉你这个数据的行数、最小值、最大值、标准差,然后会生成分析目标,他自己会生成分析目标,你不用告诉他。
然后它会生成相应的图表,而且支持你对话,去跟它微调。对话微调就是说你这个图不要给我绿色的,你给我线条都用黄色的,它就可以直接去做相应的调整。
当然现在咱们的国外的一些大模型,你比如说那个 ChatGPT,它也可以达成这个,你像我刚才做的那个饼状图就是 GPT 生成的。你直接把数据给他,他就直接给你生成了。但是他不是 Lida 这种一个完整的一个数据工作流,它会生成的更好。
当然这里面也会有一些问题,就是你实际在使用的过程当中,你会发现他的生成的效果可能不是那么好,或者是你要调几轮才能调出来,那当然这都有一些方法可以去做相应的一些解决。
批量文本分析-以dify为例
还有就是数据批量的文本分析,这个咱们第一位分享老师也有提到,他们那个腾讯 AI 那个工具比较受欢迎的功能,就是那个主观题的分析。咱们用研同学做文本分析也会比较多,也是大家的一个痛点。
现在有非常多的工具可以去做这种批量的文本分析,我们以 dify 为例。
dify 它是一个无代码的工作流搭建工具。你可以新建一个应用,然后在里边去编写一个结构化的提示词,之后你就有一个批量打标的功能。它有批量生成的功能,你上传 excel,可以规定相应的格式,就是每一行可能是你的这个文本内容,长的短的都 ok,但是你这里面的一个核心的重点,其实是在编写提示词这一块。
后面我们也会简单的说一下,怎么写一个结构化的提示词。你可以在提示词里面去规定你的分析目标:我要去提取这个用户对我的这个产品的情感。你让他输出三个类型的,积极的、中性的、然后消极的这种情感的分析。但是有同学可能要问了他这个分析准不准?那就是需要你自己去调的,那后边在 AI 素养那里我们会再讲到。
第三层:AI驱动的创新引擎
第三层,大模型给用户研究员提供了非常新的,跟以前不一样的东西,这里面可以给大家一些新的视角。
新数据:用研只能用访谈和问卷获取数据吗
首先是新数据。用研只能用访谈和问卷获取数据吗?
以前文本分析咱们是做不了的,你可能想做情感分析,但得找算法的同学,他慢慢给你去排期。
但是现在你用 dify 这样的工具,或者是你就用多维表格,就可以做了。大家可以去试用一下多维表格里面的那个大模型相关的一些工具(AI 捷径),它就直接给你分析了,你不需要写代码了,你不需要写 python 了,你就直接把规定把提示词规定好,背景告诉他,我现在是一个什么样的文本,我想要你从中提取出来这些用户的情感。你给我输出积极、消极、中性这三个词,然后它就会输入相应的东西了。
另外音频信息和视频的内容解析,一般的处理还是会把它转成文字,然后再用文字去做相应的处理。但实际上现在已经有一些多模态的模型,比如说那个 google 的多模态模型 Gemini,它是可以直接从这些音频和视频里面去提取出来这个相应的情感的,包括国内的这个相应的也都能提取出来,它可以提取出来,比如说我们现场的这种笑声,掌声,这些都可以去提取出来,它这些声音是没办法转成文字的。
举例:利用多维表格和 dify 进行批量、结构化文本分析
这里面就是刚才说到的进行结构化的这个文本分析的这样的一些东西。
新洞察-或许你都不需要访谈真实用户了
新洞察,现在有非常多的创业公司在做合成用户。
合成用户能不能用呢?企业认不认呢?大家会考虑他做的东西准不准。
这里面其实有非常多的工程的东西在里边。如果你只是简单的去跟他说你是一个什么样什么样的用户,你是一个25岁的女性,然后你比较喜欢什么样的东西?你基于这样的一个用户来回答我什么样的一些问题。是 ok 的,但是它不够细。
那你可以怎么做?我们以这个 atypica 为例。
他这个 AI 角色就是虚拟用户,他是怎么来的呢?它是基于深度访谈来的,他们现在已经访了大概有1000多位用户了。
基于这些用户的几万字的真实访谈信息,你再让他去扮演这样一个人,你再去问他你之前没有问过的问题,问他对其他产品的这样的一个意见。它的真实度要比你只用一个简单的画像去问他要获得要真实的多。
其实他们也做了一些相应的研究, AI 这个虚拟人物与人类行为的一致性能达到85%。这个85%大家可能还不信,但是现在所有的做合成用户的这些产品,都是基于斯坦福的一篇论文,他们自己用那个 AI 访谈工具,访了1000个用户,然后用这1000个用户再去作为他们的一个基底,去给他们去测试各种的这种学术性的问题,一些经济学的社会学这样一些问题,然后他们发现了这样相应的一个一致性非常高。所以基本上从他那篇论文之后,现在做合成数据的这个厂家是非常多的。
然后他们还有一个不一样的地方,他们的创新是什么?
除了基于真实用户获取的访谈文本来构建虚拟用户之外,他们还会基于就是对全网数据的一个爬取去获取这样的虚拟用户。
我之前试用的时候,他们的好多数据是来自于小红书的。大家都知道小红书上的这个信息会比较真实,很多人就分享一些比较真实的一些使用感受、一些想法、自己的个人生活,把这些有信息含量的东西去形成一个这样的一个 AI 角色的时候,它所形成的这样的一个洞察也是会不一样的。
所以这里面有非常多的可以做的事情,而且我也会觉得这会是一个趋势。为什么?
因为它对提效这一块,这个真的是太快了,我们平常访谈一个用户,你要做严谨一点,你访谈十个用户,你得一个星期、两个星期。他们线上的这种你30个用户、100个用户一个小时就全部就出来了,而且他们这个东西是可以积累的,积累的可用的真实用户的访谈越来越多。
你觉得可能他们生成的这个 AI 角色不够真实,那他们储备个1000个用户的这样的一个池子难道还不够吗?
其实已经非常多了,1000 个用户可以区分出来非常多,咱们想看的各种各样的维度。就咱们按咱们平常的这个人口统计学,你可能性别、年龄、城市,你这种交叉出来,其实它没有多少个。
新交付-甚至你也不需要交付报告了
新交付的一个例子就是我之前看到益普索交付的数字人。
这是什么意思?就是你可以在企业微信、飞书里面直接跟这个虚拟人去做沟通,让他参与头脑风暴,也可以随时召唤他了解更多细节。
这里面又要谈到腾讯的产品了,最近那个企业微信不是更新了5.0吗?他们自己更新了,自己做了一个那个机器人,这个机器人也可以上传资料,就是做知识库,那你就把你的这一个访谈用户的知识库上传上去,然后把这个机器人加到你的群里边。你跟产品说,唉,我访这个用户,他是这么想的,产品说我不信,那怎么着,你艾特一下这个虚拟人,让产品直接问他对这个问题你是怎么看的?
这个不仅是对我们作为一个个体的用户研究同学,可能对一些乙方的调研公司来说,这种创新的交互方式其实是非常具有吸引力的。
你天天给别人交付几百页的这个 PPT ,大家可能也会枯燥了,但是对他们来说,这种来自真实用户的这种反馈,其实还是非常还是对他来说还是比较有冲击力的。
这个创建非常简单,就是在 coze 里面去创建一个相应的东西,因为他也可以去上传资料,就大家不是怕幻觉的问题吗?那你就上传一个你的访谈文本,让他基于这个访谈文本去做相应的回答就行了。
二、AI素养:认知升级
AI 素养,就是人的使用。同样的大模型,不同的人去用他得出来效果肯定是不一样的。
我在 k12 行业,教材都是一样的。然后讲的老师也不一样,就算老师讲的一样,每个学生的吸收也是不一样的。
大家可能使用的工具都是一样的,但是你怎么样去把这个工具去给它用好,这里面的差距是非常大的。
这可能也确实是一个问题,现在 AI 的更新换代非常快,工具又非常多,所以如果大家想要去完完全全地想要去把这个东西去一劳永逸的去用好,也是不现实的,还是需要大家去多用,然后去多思考。
用户研究员的AI素养
然后具体来看,我也把它分成了四个层面。
第一个是大模型的核心原理,当然不需要大家去全部去了解这种偏技术上的内容,只是需要你对他的一些能力、边界、局限性,有比较好的了解。
其实刚才西子老师提到的比较多的这个 AI 不能完成的一些任务。它不是对我要讲的东西的一个否定,而是一个 AI 能力边界的问题。
就是有一些事情他就是做不好的,那我们就不要去,非要在现阶段,非要去揪着他那个点不放,而且大模型的发展非常快,可能在某个阶段,可能一个月之后,它的这个能力很快就会补充上来。
第二个就是这个 prompt 的工程与方法,第一位分享的老师也提到了他们的工程实践,他们提到的两种方法去解决大模型的这样的一个输出不稳定的问题,其实就是这一块的内容。
第三个就是输出评估与风控,这块就会比较重要了,就是你怎么样去判断大模型输出的东西对不对?
我有一个体会是我之前学 SQL 的时候。你刚开始学的时候,你那个 SQL 跑不对,你就很烦,你觉得这东西到底哪出了问题,但是当你发现你能轻松的把这个数据跑出来的时候,你又慌了,它跑的到底对不对?
这也是个问题,你还得回去验那个数。
大模型这个东西是一样的,就是他跑出来之后,他说的这个东西对不对,它的准确率、召回率有没有达到你的要求,其实你需要花费非常多的时间在这一块去做校准的。
有时候现在大家对大模型的一个诟病哈,也是说它是提效了,但是在某些方面它又会花费你比较多的时间,其实比较多的,其实就是在这一点就是输出的评估与风控这一块。
然后另外一点是数据素养与伦理意识,这个就是咱们对数据的处理这一块。实际上,大家肯定现在自己在公司里面使用这种大模型,使用这种外部的大模型工具的时候,都需要注意用户隐私问题。
合规性,肯定是会越来越受重视的。包括你要做海外业务,这个数据合规性它可能会就会更加重要了。
用户研究员的AI素养平均为7.45分,达到优秀水平
刚才那个本道老师(主持人)有提到,AI 素养这个问卷是我编的,这个平均分7.45 分(153 人答题),确实我自己也很震惊,因为我之前去找一些身边的人去测试,当然他们不一定是那个用研,他们的反应是什么,做不下去,就看第一道题就做不下去了。
所以那天在群里面我发现大家都是都是九分,都是十分的时候,我确实很震惊。所以后来我就把我的 PPT 给改了,把深度又给提升了一点。
九到十分的占了26.8%。其实是非常高的,说明大家对这个 AI 的这个关注以及使用这块其实还是非常强的。
区分维度来看-基本原理的掌握有些欠缺
然后区分维度来看,基本原理的掌握有些欠缺,欠缺在哪?
就是第一道题,就是最最基本的那个大模型生成文本的核心机制的这个问题正确率是56.9%。就是核心机制,就是下一个 token 预测。当然这里面的技术原理会非常复杂哈,但是你把它归到一点,就是对下一个 token 的预测。
Embedding 的这个题目就会比较专业一点的,就是 embedding 向量通常用于文本的嵌入,就是我们在做知识库的上传与处理的时候,一般都会去用到 embedding 这个模型去做相应的这样的一个处理。它会把你的这个文本去转成数字,就是你所有的你上传的这个文本,它就转换成数字了。这个数字呢,它可能现在的这个向量数据库一般都是1000多维。其实就是为了便于它去做相应的这个相似性的这样的一个统计。
区分维度来看-prompt 工程掌握很好
另一个维度是 prompt 工程,大家掌握很好,这几道题的准确率基本上都是在 95%以上,这说明大家其实平常用的还是比较多的,知道怎么样去跟大模型去做沟通。
比如说就是你要去提升这个输出质量,你可以堆砌形容词是没有用的,你需要去结构化,你需要去做角色的设定,限定它的输出的格式,这些其实都是没有问题。
区分维度来看-输出评估与风控掌握一般
输出评估与风控掌握一般,像这个题目:哪种方法最能显著降低幻觉?正确答案是检索增强生成,其实就是 RAG,就是知识库。
既然他有幻觉,他的幻觉是基于他自己的以前的这个训练数据来的,那我就不让他基于他的数据,你基于我的给你传的数据,这个里边其实包含现在咱们常用的像那个联网搜索,其实你也可以把它理解成是一个 RAG 的一种形式,其实也是一种知识库,只是说我的知识库是基于我搜索到的十条三十条这样的一些信息,大家能够理解你的联网搜索一般不太会出现幻觉,其实就是这样的一个原理。
1.大模型核心原理
问大家一些简单的一些小问题。
现在最强的大模型是哪个?
现在最强的大模型是哪一个?国内国外的?分场景。唉,这个答案很好,就是分场景的。
我们看全球的模型,现在其实就是 Gemini-2.5-pro 和 GPT-5,但我自己在使用的过程当中,我发现 GPT-5 并没有那么好。
就 Gemini -2.5-pro 的它的这个指令遵循,语言风格都会比较更像人类一些。
然后代码能力最强的就是这个 Claude Sonnet 4,现在大家知道 AI coding 工具很火,其实对大家来说也是一个非常有用的这样的一个工具,你可以去让他去给你写 SQL、或者是写那个 SPSS 的语法、让他去给你写这个 python 代码,都可以完成的比较好。
国内像这个 DeepSeek 和阿里的通义是国内开源做的比较好的。现在国内的大模型在咱们普通的任务的处理上面都已经完成的非常好了。最近开源的Kimi 的 K2,智谱的 GLM-4 效果都很好。
大模型能处理的最长文本是多少?
大模型能处理的最长文本是多少,这刚才已经提到了,刚才我提到最长的是200万字,但其实有一些实验性的这种一些模型,能达到400万。
这个上下文是想跟大家说什么呢?就是你不要怕你给大模型输入的东西太多了。它是完全可以处理的。
你的一个访谈提纲,甚至十个,几十个访谈文本全部输入进去,它是能够提取出来不同的访谈不同的用户的姓名,不同用户的,在某一个问题的回答的,当然这个肯定是上下文太长了,它的这个提取能力肯定会有下降,这是肯定的。
大模型有记忆吗?
大模型有记忆吗?就是类似于人的这种记忆,就是他可能会把某些东西给记下来。
(没有)
果然大家的素养都是比较高哈,就是大模型刚出来的时候我也很困惑,就是大家就说这个大模型有没有记忆,我理解就是这种人类的这种记忆,就是你跟他说一个东西,他能够记住,然后下一次他还能用。
但是确实大模型我们现在能感知到的这种记忆,它其实不是大模型本身的能力,它是一个工程化的方法,通过一些工具去把你的每一次对话里面有用的信息提取出来,然后它存在某个地方。
然后你下次再跟他对话的时候,他会把你的指令和他之前存的这个记忆一块发给大模型,这就是他的这个记忆的这种这个工程原理。
比如说右边这个其实就是我的 ChatGPT,它保存的一些记忆,就是我之前跟他那个对话的时候的相应的一些内容,它不是记下来了,它只是把它存储下来了,其实就还是计算机的,就是内存的那一套东西,存起来,下次用的时候再给它调出来。
2.Prompt 工程与方法
然后 prompt 的工程与方法,就是写结构化的 prompt 方法。
这里面我简单列了一下我自己在前司的一个文本分析的一个提示词。
先告诉他背景,背景就是我现在我是一家什么样的公司,我公司的课程包含什么东西,然后我需要你做什么样的任务,然后告诉他流程,你先第一步做什么。
第一步先让他生成这个摘要,就是他这个家长跟那个班主任沟通了什么。
第二步让他去判断用户的退费原因。判断用户的退费原因。这里面有两种方法,一种是让大模型完全自主来判断,他自己去提取,他有这个能力,然后另外就是你给他一些标签,让他从标签当中去选。
然后第三步让他在做出判断的时候说明他判断的依据。所以其实这里面的第一步和第三步都是为了我后边去迭代这个提示词,迭代这个准确率、召回率来定的
然后我会给他一些规则,为什么要给规则。就是你会发现我这个标签非常多,我这只展示了三个,我可能我有35个标签。大模型它在把这个标签和文本去做相匹配的时候,很多东西它是会混淆的,那你就需要在规则里面去给它解释清楚什么是什么。比如说班主任态度不好,这种他比较容易理解,比如说班主任引导退费,这种可能是指什么,这里面会有非常多的边界条件,那这时候你如果想要去把这个东西做好,你需要去把这个规则去给它定的比较清楚。
另外就是输出格式,我这里面是让他用一个 json 格式去做输出,然后后边因为我是用 python 去做统计,然后它会输出相应的格式,这个格式就是比较稳定,然后 python 再去做解析,然后你就可以做相应的一个统计了。
这里面只是给大家展示一下这个可能性是什么样的,这里面你就比如说这个提示词你可以学对吧,然后可能大家就觉得我说我在用 python 我不会。也很简单,你让大模型去给你写代码。GPT-5 然后最近那个 DeepSeek 3.1 不也是发了吗,他的代码能力也是很强,写一个这种简单的对 json 解析代码,然后去做相应的统计处理是很简单的。
Prompt设计-12个经典框架
这里面有一个经典的12 个 prompt 设计框架,是那个waytoagi社区里面的。
其实这个大家不用去记,就是当你想要去给大模型布置一个比较复杂的任务的时候,你就把它当成是实习生。
你在给实习生布置任务的时候,你是不是要说清楚背景?说清楚12345要怎么做,然后说清楚你的产出是什么样的,以便于我后边去复查。
3.输出评估与风控
输出评估,比如说我们做这个批量的文本分析的时候,你怎么样去优化你的提示词,达到一个比较高的准确率和召回率,其实就是一个迭代的过程。
你先去写个提示词,然后让大模型去打标,然后跟你人工的打标去对比。你可能人工打标做不了那么多,那就抽样人工打标。人工对100行文本打标,然后机器对这100行文本打标,然后去计算准确率、召回率。
达不到标准,那我们就去具体去看他在哪个地方判断错了,这就是为什么前面在这个案例上面,我会让大模型输出他的判断证据。他给出了判断证据之后,你就知道他为什么这么打,然后他为什么会出错,那你就再去改你的提示词,然后再人工打。
基本上我自己的之前这个案例的话,三轮循环下来,准确率是由50%多提升到90%左右,就这个提升是会非常明显的。
你对提示词的这种优化,它会非常快速的去带来大模型的这个文本分析的准确率和召回率的提升。
4.数据素养与伦理意识
数据素养与伦理意识、隐私保护,就是大家自己在用这个大模型去处理一些公司的数据的时候,需要注意。
数据预处理很重要,就是那句经典的 garbage in, garbage out。
现在有很多做企业知识库的这样的一些公司,他们最大的卡点在哪里?在于企业知识是散落在各个地方。
所以在前期的数据预处理是非常重要的,你要把你企业的这么多的数据给它融合到一块。
包括可能还不止这些数据,你可能还想要这个企业微信或者钉钉的这种聊天数据,或者你的邮件数据,这些数据它散落在各个地方,你如果想要比较好的去提升你的效率,其实是需要把它们很好的去融合到一块了,然后在该调用什么的时候就去调用什么。
警惕算法偏见,这个算法偏见其实还好,一般是国外大模型会比较关注。
还有一个比较重要的点,就是要明确你作为这个最终的负责人,这样的最终的责任就是你肯定是不能说把你的这个东西最后去归咎于大模型它生成的有问题,而是要真正的去你自己去负责起来。
三、人类优势:价值护城河
提出问题的能力:人类与AI的核心差异
那人类的优势要怎么样去体现出来,我觉得最核心的一个就是提出问题的能力。
我也看了一些一些论文,提到了大家使用大模型的一个最大的问题是什么呢?就是让你不去思考了。
如果大家了解心理学的一些研究的话,就是心理学在看那个人有没有在深度思考的时候,会看你的脑区激活。
然后最近也有一些研究,就是看大家在使用大模型和不使用大模型的时候,看你脑区激活程度。那很明显就是使用大模型的那些人,他们脑区激活的脑区是少的,然后激活程度是浅的,那也很容易理解,你自己不去思考了。
所以这里面我觉得一个很大的问题:如果你把你的全部思考都外包给大模型,那你的核心价值到底体现在哪里?
就是提出问题的能力。
我觉得这个能力是非常核心的,包括不同的用研同学,你在工作了五年、十年以后,你对一个需求的把握、你对不同问题的理解、再到你提出问题,这里面是能够看出来非常大的一个差异的。
因为我们在 k12教育行业,就孩子他来去学兴趣班,或者是他去学这个学科课,你发现有些孩子就是学不进去,或者有些孩子他听不懂,但是不同的人反应就会不一样,这里面一个很大的差别,其实也是主动性,他听不懂的时候,他自己会不会去再想办法去解决。
大模型现在能力非常强,它已经具备了基本上人类历史上所有的知识了。
而且这个大模型作为一个老师,他又非常的耐心,他也可以直接给你答案,他也可以一步一步去引导你。
当你发现你能学会任何东西的时候,那你要学什么呢? 你要给大模型问什么样的问题?我觉得这个是去感知人与 AI 的这样的一个差异,能够提升咱们自己去非常重要的一个方面。
情感共鸣与信任
然后情感共鸣与信任,其实还是说大模型它不能替代人的究竟是什么?
比如说 AI 作为一个主持人,他去访谈用户。虽然我会觉得未来 AI 的声音会越来越像人类,很快就分不清。
但是会有一个问题,就是你线上的调研和线下的调研它终归不一样。你在线上的调研,一些用户的非语言的信息,一些肢体的信息是没有的。
像刚才那个西子老师展示的就是用户的那个案例,如果你去用个 AI 去访谈一个外国人,问他们对这个辣条的喜好。因为外国人一般都会比较愿意去夸奖别人。他说我很喜欢,但实际上你看不到他的这个眉头是皱着的,所以这里面会有一些问题,我们还是需要去寻找它的这样的一个边界。
你需要去跟人去建立一个这种情感链接,去建立这样的一个信任关系,你才能够去获取到更多的信息的时候,可能 AI 在这方面就没有那么胜任。
创造力与战略洞察
创造力与战略洞察,创造力这一块,其实还是大模型最欠缺的一个东西。
创造力是什么?
不是说我去问一个东西,它就生成一个什么样的内容出来,这是它最基本的生成能力,不是创造力。
这个创造力指的是说,大模型既然已经了解人类历史上所有的知识了,如果他处于爱因斯坦那个时代,他能不能够提出来相对论呢?
现在的 AI 肯定是达不到的,这还是由它的这个基础原理决定的,就是它是对下一个 token 的预测。
但实际上现在很多的一线的专家都会觉得这个只是现状,未来 AI 创造科学理论很快就会实现。
马斯克也说了,到年底进化后的 Grok4 就能够发现一个新的物理理论。
基本上现在每隔一个季度就有一个新的非常厉害的大模型出来了,如果按照这个线性发展会很快,如果你按照一个这种涌现式的发展,它突然一个指数级的,那这个就更快了。
回顾一下三位一体能力模型
我们回顾一下这个三位一体能力模型。
其实在我思考的时候,是把它对应到这个三个层面:术、法、道
术就是工具
法就是你用它的这种法则,偏 AI 素养这一块
然后道就是人类优势
这个框架,可以帮助大家去思考你在工作当中去怎么样去应用 AI ,以及帮助你去有一个预见性。
因为 AI 发展的非常快,那你想要去跟上它的发展,其实像我这样就是每天去关注 AI 的这种进展呢,还是比较累的,或者是你会处在一个焦虑之中。
你可以从一个更前瞻性、预见性的角度来预测,按照当前的发展速度,五年后大模型可能会呈现出怎样的状态。这个框架可以帮助大家思考未来五年内我们使用的 AI 工具会有哪些变化,同时需要掌握哪些人类素养,以及人类的优势是否还能保持。这将引导大家重新审视并定位自己的职业生涯发展方向。
四、最后:AI会替代用研吗?
然后最后,AI 会替代用研吗?举个手吧!
<笑声>!
大家觉得会替代吗?会的先举手。
觉得会的比较少,<笑声>
从我自己的角度来说,我还是比较坚信是会替代用研的。
这个替代不是说五年或者说很快大家的工作就没了,它不是这样的一个替代。
我觉得用研或者是分析师的这种岗位,是肯定会发生一些变化的,一些基础性的一些工作,肯定会交给 AI 来做,那些需要人来做的东西则会越来越贵。
这肯定会是一个趋势。比如说现在的 AI 心理咨询,AI 他当然可以去做心理咨询,但是未来它会怎么发展?那一定是说那些付不起高价人类咨询师费用的,他们去用 AI 去做心理咨询,也行,这也是一个进步,以前他们享受不到这样的一些服务,那 AI 去帮他们去做了。
那对用研来说,比如说像那个语音转录这样的一些东西,我们发现大家现在都不需要去做现场速记了,虽然像这样直接替代的例子比较少,但是我会觉得整体上,就是我们的整个的这个用研要做的事情,以及价值和定位都会发生一些变化。
另外,当问到这个问题的时候,很多人可能会想的是说要看时间,某个时间段内他还不会替代,以及像我刚才说的,它可能是一个分场景的,在某些场景下,在某些不同的工作上面,它就会有一些什么样影响。但是在我看来,在长期来说,这个影响肯定是会非常大的。
Ilya Sutskever 的观点
我们用这个伊利亚的一段话来做一个结尾。
伊利亚,我们可以把它称为是这个 GPT 之父。就是没有它的话,就不会有 GPT这样的一个东西存在的。
他很早就加入这个 OpenAI,然后他的导师就是 Hinton ,获得诺贝尔物理学奖的那个,就是他和他的导师坚持了很多年,一直在做神经网络,在做深度学习相关的东西。一直发展到今天,然后有了大语言模型,有了 GPT 相关的层出不穷的这样的一个模型。
那他是怎么说的?这是他2025年在多伦多大学的一个演讲。
他说,“AI 会不断变强,直到有一天他能做我们能做的所有事情,不仅仅是部分,而是全部。任何你我能学习的技能,AI 将来也能够掌握,你可能会问我怎么敢这么确定。因为我们每个人的大脑本质上就是一个生物计算机,而 AI 是一种数字计算机。那么如果我们的大脑能做的事,为什么数字大脑不能?”
这其实就是那个神经网络的这个基本原理。你想那个大模型,它是几十亿,几百亿,几千亿的参数,你把那个参数理解成神经元,我们大脑的神经元,跟它的数量其实没有差别很大。那我们现在那个大模型和我们大脑现在最大最大的差别是什么?最大差别是能耗,我们大脑可能就十几瓦的能耗就能够思考很多事情。但是现在那个 AI 也被诟病的一个事情就是因为太耗电了嘛,但是这个东西可能未来也是会发生改变的。
“然后你可以不关心政治,但政治迟早会关心你,AI 也一样,甚至程度更深。所以不要回避他,哪怕只是用 AI 观察他今天能做什么,你就能慢慢形成直觉,这种直觉会越来越清晰。等到未来一两年后,我们今天讨论的很多事就不再是空想,而是真实发生在眼前的事实。”
所以我觉得伊利亚他也是一个激进派,因为他提到就是未来一两年就会发生很大的变化。所以他从 OpenAI 出去之后就创建了那个 SSI,就是那个 Safe Super Intelligence,就是他会担心 AI 会反过来去控制人类,所以他希望有一个超级安全的,这样的一个超级智能。
“然后最终没有任何文字、论文或解释,比得过你亲眼所见,亲身体验的力量。”
我觉得这句话是能够帮助大家,去理解,AI 在未来它究竟会有些什么样的影响。
发展建议
最后还是一些简单的一些建议。我们在 AI 时代可以做哪些事情:
(完)