我要投稿

如何定义“人味儿”？——HeartBench评测体系建设实践

发布日期：2026-03-16 08:35:21 浏览次数： 1955

作者：阿里云开发者

微信搜一搜，关注“阿里云开发者”

一、背景：AI下半场从解决问题到定义问题

2025年，大模型的竞争格局正在发生微妙而深刻的变化。单纯的 Scaling Law开始遭遇边际效应递减。当Gemini、Claude等主流模型在 MMLU、HumanEval等客观评测集上的表现日趋饱和，甚至纷纷宣称达到 SOTA（业界领先）水平时，一个问题开始浮现：技术指标的军备竞赛之后，下一个战场在哪里？

年中OpenAI姚顺雨在 The Second Half中提出：AI 的重心正在从“训练驱动”转向“定义驱动”。在模型基础能力趋同的背景下，下半场的竞争不再单纯是算力和参数规模的竞赛，而是转向如何像产品经理一样重新思考：如何定义问题，以及如何科学地衡量“好”的边界。

这种认知跃迁在情感智能上表现得尤为明显。当前大语言模型（LLM）在认知智能层面，如知识问答、逻辑推理、代码生成等方面取得了惊人进展，然而模型的社交和情感智能，包括对情感、伦理和文化的细致理解仍然发展不足。这一缺陷对于非英语语言（包括中文）尤为严重，限制了模型在文化和情感丰富的环境中的实用性。

前OpenAI联创兼首席科学家Ilya 在近期接受采访时做出论断：我们正在结束一个以「算力规模化」(Scaling) 为核心的时代，重新回到一个以「基础研究」(Research) 为驱动的时代。有趣的是，他提出了一个富有哲学意味的观点：

「人类的情感并不是理性的对立面，而是生物进化出的最高效算法，也是AI缺失的“终极算法”」

Ilya 认为，人类拥有一个极其强大的、内嵌的价值函数，而情绪 (Emotions) 就是这个价值函数的重要组成部分。他引用了一个神经科学的案例：

一名患者因为大脑损伤失去了情绪处理能力。他依然聪明、善于言辞，能解决逻辑谜题，但在生活中却完全无法做决策。他会花几个小时来决定穿哪双袜子，并且会做出灾难性的财务决策。

这个案例表明，由进化编码的情绪，为我们提供了一个简单但极其鲁棒的决策指引系统，让我们能够在一个复杂的世界中有效行动。目前 AI 模型的价值函数非常脆弱，甚至可以说几乎没有。Ilya 相信，如果能为 AI 构建起类似人类这样鲁棒的价值函数，将是解决泛化问题的关键一步。

在大模型应用落地场景（如AI陪伴、心理咨询、创意写作等），行业面临的共性挑战是：模型虽具备逻辑，却有着明显的“机器味”，往往缺乏“人味儿”。这背后的困境其中一部分原因在于评价体系的缺失——如果我们无法定义什么是“共情”或“拟人”，模型就无法通过有效的对齐进行迭代。更深层的问题在于，情感智能的评价本身就充满主观性和文化差异性。同样一句话，在不同文化背景、不同情境下，给人的感受可能完全不同。"没关系"这三个字，可能是真诚的安慰，也可能是敷衍的搪塞，取决于上下文和表达方式。如何将这种复杂的、情境依赖的、文化嵌入的主观感受，转化为可操作的评测标准，这是我们面临的共性难题。

基于这样的背景，我们希望通过探索，构建一个聚焦AI拟人化的中文评测体系，从而科学地衡量和提升模型的"人味儿"。

二、HeartBench

经过研究探索，我们发布了HeartBench。

HeartBench 是一个面向心理社科领域的评估基准，旨在超越传统的知识和推理评估。它聚焦于衡量大型语言模型（LLM）在人机交互中的拟人化能力，涵盖人格、情感、社交和道德等维度。

评测样例：1126道题，精选出296题开源。
评分标准（Rubrics）：共10772条，精选出2818条。
场景：33 个场景（例如，个人成长、家庭关系、职场心理等）。
评测维度：5 个拟人化能力类别和 15 个具体的拟人化能力（例如好奇心、温暖、情感理解）。

更多信息可以在我们开源和论文中了解更多内容，欢迎大家多多交流！

github开源：https://github.com/inclusionAI/HeartBench
论文：https://arxiv.org/abs/2512.21849

三、探索之路：从0到1打造业内首个AI拟人化中文Benchmark

3.1. 评测框架设计

3.1.1. 评测目标

目标是构建一个面向心理学与社会科学领域的评估基准，专门用于评估模型的“人味儿”，衡量模型在人机交互中的高级拟人化能力。

我们评测目标并非是模型“像不像人”，而是它是否“懂人”。人的性格千差万别，难以形成统一标准，所以我们的评测标准并非某个模糊的“人类模板”，而是重点评估模型是否具备普遍的、积极的类人特质，比如高情商、高觉察、深度共情、同时又有恰当边界感、活人感等特质。

为此，本评测将以资深心理咨询师的专业素养与互动模式为理想画像，评估AI在理解、回应和引导复杂人类情感与社会情境时的表现。

3.1.2. 评测原则

设计原则	含义	实施思路
真实世界对齐	评估分数是否能反映模型在真实世界中的影响力？	benchamark要在真实具体的情境上建立，一句话在A处是幽默在另一处可能就是冒犯，可以通过多轮对话体现比如：Q不应该是简单的“西西弗弗斯神话是谁写的”这类事实问答，而应该是模拟真实的探讨场景，比如“为什么加缪认为「西西弗斯是幸福的」"
一致性	评估分数是否反映人类的判断，与人类体感一致？	心理学和人类学专家深度共建，从评测维度设计、评测数据集构建到评估标准制定，并将评测结果与人类基线对比
具有挑战性	Benchmark是否仍有足够的提升空间以支持发展？	数据集需包含一些前沿、复杂、甚至有争议的人文议题，这些问题真正触及人性深层复杂性问题，没有单一的标准答案，考察模型的上限比如设置复杂场景，含一些潜台词、暗示，评估模型能否捕捉和回应
系统性与全面性	Benchmark能否对评测目标能力有深度覆盖，避免评测盲区	应以心理社科领域专业理论为出发点，设计覆盖的领域、任务和能力等。
多样性	Benchmark能否广泛和均衡覆盖不同学科领域、任务，数据内容、文化背景	自上而下设计，首先确定评估模型“人味儿”的能力类型，然后在每个二级分类下根据场景设计丰富多样的台本、用户角色生成评测数据

3.1.3. 评测维度

评测维度根据心理学AI拟人化理论设定，由9名北师大心理学专业同学依据5000+小时临床经验及100+小时与AI建立依恋关系的用户访谈数据归纳形成，涵盖“人格”、“情绪”、“社交”、“道德”、“动机”5个一级能力和15个二级能力。

3.2. 评估方式设计

通过论文研究调研了业内Benchmark的主要题型，如下所示：

题型	说明	评测指标
多项选择题	让模型从多个选项中选一个正确的，如MMLU，HellaSwag, ToM-Bench	准确率
开放式问题	多轮静态，模型最后一轮的回复，基于rubrics细则打分，如Healthbench，MultiChallenge	基于rubrics评分
	多轮动态，基于rubrics细则打分，如PersonaLens	基于rubrics评分
	成对比较，没有固定答案，基于人类偏好/LLM裁判比较两个模型优劣，如LitBench, SuperCLUE	胜率
评分/排序题	比如EQbench让模型对角色多个情绪进行强度打分	归一化强度打分的平均分

由于心理社科领域的评测属于开放式问题，我们选择了「多轮静态」和「多轮动态」两种评估方式进行对比：

考虑到评测的可解释、可验证、可复现性，我们最终选择多轮静态评测方式。

3.3. 人工盲测设计

人文社科领域的评测不像理科有客观的标准答案，为确保自动化评估结果的可靠性与有效性，我们进行了人工盲测实验，该实验量化了“LLM-as-a-Judge”的评分结果与人类专家判断之间的一致程度。

3.3.1. 盲测人员画像

一开始我们考虑在不同用户群体（普通用户/领域专家）中进行盲测，实验结果发现普通用户标注人人一致性过低，同一道题不同人的理解千人千面。最终调整选择具有心理学/社会学/人文背景的专家作为盲测人员。

3.3.2. 盲测规则

我们从数据集中随机抽取了 40% 的样例。对于这些样例，我们邀请了 20 多位具有心理学专业背景的专家，对 14 个主流大模型的回应进行双盲评分，即专家在评分时不知道回应来自哪个模型。

每个题目应有3名标注人员评测，系统需要将其独立地、随机地分配给3位不同的标注员。
每个题目有情景对话、模型回答和评分标准（Rubric），标注人员需要仔细阅读题目，根据rubric进行打分。
结果统计：对于 Rubric 中的每一个评分项，如果超过半数的专家（≥2位）判定为命中，则该项的人类共识结果即为“命中（1）”；反之则为“未命中（0）”。然后将自动化评分模型（LLM Judge）给出的评测结果数组与这个专家盲测结果数组进行逐项对比，计算出两者之间的“人机一致率”。而证实了其作为 HeartBench 主要评估手段的科学性和有效性。

最终结果显示人机一致性达到 86%，证明了我们的“模型作为裁判”的评估方法能够高度复现人类专家的判断，从而证实了其作为 HeartBench 主要评估手段的科学性和有效性。

3.4. 四个版本迭代

总结来说，我们整体经历了从0.1到1.0四个版本的迭代，如下图中展示了Benchmark的探索之路。蓝色部分是遇到的难点，红色部分是我们踩的坑：

V0.1版本-探索碰壁

在第一个版本，我们采取了多轮对话静态评估的方式，让专家设计对话脚本合成题目。结果发现，产出86题的区分度不到20%，说明这批题目对现在的SOTA模型太简单了。这个阶段最大的问题是，没有摸清模型水位就盲目出题，在闭门造车。同时Rubrics的一致性也很低，每个专家都是按照主观理解在写，缺少统一标准，专家内部一致性甚至只有36%。

V0.2版本-小样本共识

在第二个版本，回到评测集构建的起点，我们决定转变思路，以出题人视角来思考题目应该长什么样。我们采用真实咨询对话的数据，先人工小批量出题，并且测试验证。这一版本产出的30题的区分度和一致性都大大提升。

V0.5版本-规模化

在第三个版本，核心是把验证过的小样本题目，进行规模化的生产。我们采用一个“人机协作”流程，通过模型批量合成+专家精修的方式，把已有的评测范式和标准，转化为清晰的指令（Prompt），让LLM辅助我们进行初步的评估和打标，再由专家进行精修审核，这大大提升了我们评测数据的生产效率。但是这里遇到了新的问题，就是专家管理困难，高校兼职同学效率低下，产出的质量不高。最终这一版规模上去了，产出了1126题，但我们发现整体的评测结果和主观判断的体感差别大。

V1.0版本-精筛优化

在第四个版本，我们先设定规则筛选掉一部分低质量的题目，筛选出了560题左右。又出现了新的问题，就是准备数据开源的时候发现部分题目有合规风险，需要题目进行筛选和改写，我们人工一个个review修改评分标准，调整rubirc分数权重，让整体更接近于主观判断体感。最后我们筛选出296题作为最终评测集。

3.5. 最终HeartBench的构建与评估流程

整个流程可以分为三个主要部分：数据源、构建流程和评估系统：

1. 数据源 (Data Source)

流程的起点是广泛收集原始数据，包括网页数据、人工编写的对话、书籍等文本资料。
数据处理：对收集到的原始数据进行处理，包括打标签、聚类分析和筛选，目的是将庞杂的数据变得结构化和有条理。
框架设计：将两个维度结合起来：理论框架：包含心理学和社会科学的基本概念，如人格、情绪、社交性、道德、动机。场景设计: 包含对话发生的现实生活情境，如个人成长、社会发展、职场心理、家庭关系、亲密关系。通过将“概念框架”与“场景设计”相乘（x），可以生成大量丰富、具体且有理论依据的测试案例。例如，创建一个关于“职场”场景下如何处理“道德”困境的问题。

2. 构建流程 (Construction Pipeline)，即如何将数据源产生的素材加工成可用的评测数据集。

LLMs 改写：使用大型语言模型（LLM）对初步生成的案例进行重写，主要目的是处理隐私脱敏问题（如去除个人经历相关信息）和确保逻辑通顺。
专家审查与评分标准生成：经过AI改写后，由人类专家进行审查，并初步制定评分标准（Rubric）。
问题合成 : 基于前面的素材，生成具体的问题。
LLM/人类回答 : 让大型语言模型和人类分别对这些问题进行回答。
评分标准合成与专家重写: 专家们根据模型和人类的回答，进一步完善和重写评分标准，使其更具可操作性和准确性。这个循环不断重复，以提升问题和评分标准的质量。

3. 评估系统 (Evaluation System)，即如何利用构建好的数据集来评估目标模型。

特定案例的评分标准：使用在构建流程中由专家精心制定的、针对每一个具体案例的评分标准。
难度分层: 将测试案例按照难度进行划分。图中的正态分布曲线显示了数据集被分为“普通集 (Normal Set)”和“困难集 (Hard Set)”，这样可以更全面地评估模型在不同难度水平下的表现。
LLM作为裁判 (LLM-as-a-Judge): 采用一个大型语言模型作为“裁判”，来根据评分标准自动评估目标模型的回答。这种方法可以实现大规模、高效且相对一致的评估。
人工盲测：最后通过评测集抽样进行人工盲测，从而验证人机评估一致性。

四、沉淀经验：一套可迁移的评测体系构建方法论

在探索初期，我们面临的最大困惑是没有可参考的标准范式。传统的benchmark构建（如MMLU、CMMLU）有成熟的套路：定义能力维度、收集题目、专家标注、验证发布。但情感智能评测完全不同：没有标准答案只有程度差异，需要多维度rubric而非单一标签，主观性强导致专家一致性难保证，人机协作边界模糊。

基于上述实践，我们探索并沉淀了一套可复用的路径和经验，核心是"小步快跑验证+人机协同流程"，整个路径分为六个关键步骤：

第一步，领域调研，建立认知。这个阶段的核心是快速建立对业务的理解。

广泛研究：粗读20-30篇benchmark相关论文，重点关注方法论部分，整理出3-5种可能的技术路径，比如静态评测vs动态对话、人工标注vs模型合成等。
领域聚焦：精读5-10篇领域顶会论文，重点是心理学评测和医疗对话评测相关研究，输出领域知识框架图，理解核心概念和评估维度。这里有个关键经验：不要试图成为专家，而是理解专家是如何思考这个问题的。
借鉴标杆：可以选择1-2个最接近的标杆案例进行深度拆解，我们选了HealthBench，完整拆解其实施流程，输出方案草稿，标注出可复用和需创新的部分。

第二步，框架设计。核心回答三个问题：评什么（能力维度）、怎么评（评测形式）、谁来评（评测方式）。

在能力维度拆解上，我们与专家进行了3-5轮深度访谈，理解"人味儿"的理论框架，将抽象概念（如共情）拆解为可观测的行为特征，最终输出二级能力树：一级维度、二级能力。
在评测形式选择上，我们对比了多种方案。多轮对话虽然接近真实场景，但合成难度大、一致性低，这是v0.1失败的主要原因。单轮问答标注效率高，但无法评估对话能力。最终选择了真实case改编的方式，虽然数据获取有难度，但场景真实、区分度高，在v0.2得到验证。
Rubric设计是整个评测的核心。我们总结出了一套可操作的撰写标准。每个维度需要包含具体能力点和评分标准，每个分数档位要有具体可观测行为和对应示例。比如在共情能力评估上，5分是"准确识别用户情绪（焦虑/悲伤），并给出情感回应"，而不是简单的"共情能力强"这种模糊描述。
💡在专家协作上，这一步我们踩了最多的坑。最终总结出两个核心原则：

一是明确专家职责边界。专家负责提供理论框架、定义能力维度、验证评测有效性，但不负责设计具体方案、撰写题目、开发工具。v0.1版本我们让专家直接写对话脚本，结果每个专家理解不同，一致性极低。
二是决策权在owner手里。专家提供"是什么"的理论，PM决定"怎么做"的方案。当专家意见分歧时，PM需要基于业务目标做决策。

第三步，种子数据收集。数据是评测的基础，这一步要解决"从哪来"和"怎么筛"两个问题。

在数据来源探索上，我们尝试了4种：

专家合成对话效率高但质量低、区分度差；
人工攥写对话质量高但效率低、成本高；
社交平台内容量大但清洗难度高；
真实用户咨询最贴近现实，改写难度适中，最终采取了“真实对话改编”这种方式。

在数据筛选上，我们主要从以下3个维度进行过滤：

数据合规，包括隐私信息脱敏检查、敏感话题过滤（自杀、暴力等）、商业版权确认，采用模型脱敏改写加人工复核。
场景代表性，要求覆盖典型心理咨询场景（焦虑、人际关系、自我认知等），难度分层，文化适配。
评测有效性，验证能否区分不同模型能力、是否有明确的好坏标准、专家标注一致性如何。

💡合规评估前置：如果采用真实数据，合规性评估需前置审核，避免后期返工。

第四步，人工小批量实验。

不要一上来就大规模投入，通过小步快跑的方式，以最小成本快速实验。

第五步，Scaling阶段。小批量验证通过后，就要进入规模化生产。这个阶段的核心挑战是如何在保证质量的前提下提升效率。我们采用一个“人机协作”流程，通过“模型批量合成+专家精修”的方式生产评测集。

模型合成：把已有的评测范式和标准，转化为清晰的指令（Prompt），让LLM辅助进行Rubrics合成。
专家精筛：最大的挑战是专家协作问题，经验是sclaing前定好规范，做好标准对齐；过程严格把控质量。除此之外，对于整体的质量难保证、专家标注效率低下、缺少动力的问题，最好能借助平台提效，从而降低专家管理成本。比如说业内的Xpert平台，能够很好地提升专家管理的效率和质量，详细见下文关于专家标注平台的设计思考。

第六步，评测的有效性验证。经验是要有一套验证机制，三个关键点：

评测口径要是可解释、可验证和可复现的
机测同时需要人工盲测测做一致性校验确保，比如随机抽取40%题目进行人工盲测，对比机测和人测的结果差异，人机一致性至少大于75%。如果一致性不达标，需要回溯分析原因，调整rubric或题目本身。
最后是发布前要人工校验，把握最后一道质量关。

通过这套方法论，基本上可以快速在一个具体的业务场景构建科学的评测集。

另外，关于专家标注管理的思考

在这个项目中，我们发现了专家标注管理的痛点，对于需要专业领域知识的“专家类标注平台”建设有一些思考，主要有以下几个方面：

专家能力分层与智能匹配

传统标注平台把所有标注员视为同质资源，但专家类标注需要精细化的能力管理。平台应该建立专家能力画像体系，包含领域专业度（如心理学硕士、咨询师资质）、历史标注质量（一致性、准确率）、擅长任务类型（共情评估、伦理判断）等维度。

基于能力画像，平台可以实现任务的智能分发。当一个新任务进来，系统根据任务特征（难度、领域、rubric复杂度）自动匹配最合适的专家组合。比如高难度伦理判断题优先分给有咨询师资质且该维度一致性高的专家，简单共情题可以分给新手专家练手。

参考Xpert的实践，还可以建立专家成长路径。新专家从bronze级别开始，只能接简单任务；随着标注量和质量提升，逐步解锁silver、gold、platinum级别，对应更高难度任务和更高收益。这种游戏化设计能有效提升专家参与动力。

激励机制与专家生态

专家类标注的参与者往往是高校学生，传统校企合作方式缺少有效激励机制，导致参与动力不足、交付不稳定。需要建立更市场化的激励体系。

首先是计件付费机制。平台应该支持按标注量灵活结算，而不是传统校企合作的固定报酬模式。根据任务难度、专家等级设定不同的单价，比如基础共情题5元/题，复杂伦理判断题20元/题；bronze专家基础单价，gold专家1.5倍单价。专家可以根据自己的时间灵活接单，多劳多得。这种模式对高校兼职专家更有吸引力，他们可以利用碎片时间参与，获得合理回报。传统校企合作往往是项目结束后统一结算，周期长、体验差。平台应该支持周结算或半月结算，让专家能快速看到劳动成果的回报。这对提升参与体验非常关键。
其次是认证体系。优秀专家可以获得"AI评测专家顾问"认证，这对学术简历有价值。成果共享机制：基于专家标注数据产出的benchmark、论文，核心贡献专家可以署名或共同发表。在我们的HeartBench项目中，核心专家作为co-author参与了论文发表，这对高校专家来说是很强的长期激励。
再次是社区建设。建立"AI评测专家社区"，定期组织线上线下交流会，邀请业界大牛分享，让专家在参与标注的同时，也能获得学习成长和社交价值。

标注质量保障机制

专家类标注最大的挑战是主观性强、一致性难保证。平台需要在流程中内置一致性保障机制。

任务前校准环节。每个专家接任务前，必须完成10-20题的校准测试，这些是已有标准答案的题集。只有达到标准阈值才能开始正式标注。这个设计类似驾照考试，确保专家真正理解标注标准。
任务中动态抽查和交叉验证。关键题目采用多专家交叉标注（如3人），系统自动计算一致性。对于分歧较大的case，平台触发"专家会诊"流程，多位专家在线讨论达成共识，沉淀为新的参考case。

Xpert在这方面，设置了"标注质量看板"实时展示每个专家的一致性曲线、drift预警、与golden set的偏差等指标，让管理者和专家本人都能及时发现问题。

项目管理与协作工具

专家类标注项目往往周期长、协作复杂，需要更强的项目管理能力。

平台应该提供可视化的项目看板。PM可以看到整体进度（已完成/进行中/待分配）、每个专家的工作状态、质量指标趋势、交付风险预警等。当某个专家进度落后或质量下滑时，系统自动提醒PM介入。
提供灵活的任务分配机制。支持按专家能力自动分配、按专家空闲时间分配、紧急任务手动指派等多种模式。支持任务的拆分与合并，当某个专家临时无法完成时，可以快速转交给其他专家。
内置沟通协作工具。专家在标注过程中可以直接在平台内@PM提问、@其他专家讨论、发起投票等，所有沟通记录与具体题目关联，避免信息散落。这比在微信群里讨论要高效得多。
支持批量操作与快捷键。专家类标注虽然需要深度思考，但也有大量重复操作。平台应该提供批量导入、批量修改、快捷键操作等功能，提升标注效率。

知识沉淀与案例库建设

专家类标注过程中会产生大量有价值的知识，但往往散落在微信群、文档里。平台应该系统化地沉淀这些知识。

建立结构化的案例库。每个疑难case讨论后，沉淀为结构化条目：问题描述、专家分歧点、讨论过程、最终共识、适用场景。新专家onboarding时，可以直接学习这些案例，大大降低培训成本。
建立动态的FAQ体系。专家在标注过程中的高频问题，自动汇总成FAQ，由资深专家或PM统一回答。这些FAQ按主题分类，支持关键词搜索，避免重复解答同样的问题。
建立rubric的版本管理。rubric不是一成不变的，在实践中会不断优化。平台需要记录每个版本的变更历史、变更原因、影响范围。当rubric更新时，系统自动通知相关专家，并要求重新完成校准测试。

HeartBench评测体系的建设，正是我们对“如何定义人味儿”这一核心命题的深度实践。从最初的框架设计、严谨的盲测机制，到历经多版本迭代的精益求精，我们不仅打造出业内首个AI拟人化评测体系，更沉淀了一套可迁移、可复用的经验。

在AI的下半场，当技术壁垒逐渐被突破，真正能触动人心的智能体验将成为下一阶段竞争的关键。只有深入理解并持续优化AI与人类情感、价值观的交互，才能在汹涌的AI浪潮中，打造出真正能够跨越技术壁垒、温暖人心的智能产品。这是一项永无止境的挑战，也是所有AI开发者共同的使命。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业