微信扫码
添加专属顾问
在人类日常的沟通交流活动里,时间、地点以及人物这三方面的信息无疑是最为关键的要素。试想一下,倘若在聊天过程中,我们连这些基本信息都无法准确记住,那么想要将聊天内容进一步转化为需要推进落实的具体任务,便会成为一件难以企及的事情,如此一来,聊天也就仅仅停留在纯粹闲聊的层面了。
尤其在企业的日常经营中,将聊天、讨论、会议等转化为未来可执行的任务,AI大模型才可能真正地提升工作效率。为了评估大模型在时间、地点以及人物这些关键要素的能力,我们用一个会议助理作为入门的场景来做测试。在AI会议助理的落地过程中,需要从会议发起人提供的预定信息中准确提取出关键参数,以便完成会议室的预定任务。这些关键参数包括会议时间、参会人员和会议室名称。
大模型的强大之处在于它能从非结构化的自然语言中提取出结构化的数据。然而,人们对于相同事件的描述方式各有不同,例如预定同一天的会议室可能会使用“预定周五的会议室”、“预定2024年11月22日的会议室”或“预定明天的会议室”等多种表述。
为了确保会议助理能够准确且高效地工作,我们利用大模型从不同的自然语言表达中提取结构化数据,以应对各种复杂多变的预定请求。准确提取出这些参数,不仅能大大提高会议室预定的效率,也能减少人工处理的误差和成本,从而为整个组织带来更高的生产力和更好的用户体验。
先在文章开头给大家看下评估的结果,方便时间紧凑的朋友做个参考。
在会议助理系统中,参数提取是核心功能之一。这个过程涉及从用户提供的会议预定信息中准确识别和提取出关键参数,以便顺利完成会议室的预定任务。
具体来说,我们需要提取的参数包括以下几个方面:
1. 会议时间:这是会议的起始时间点。识别会议开始时间对于调度非常关键,因为它决定了会议何时开始,系统需要确保此时会议室可用。用户可能会以多种方式表述这一信息,例如具体的日期和时间(如“2024年11月22日早上9点”)、相对日期(如“明天”或“下周一”)以及模糊时间(如“下个月的第一个周五”)。
2. 参会人员:这是计划参与会议的人员名单。提取参会人员名单有助于安排合适的会议室容量和发送会议通知。这可能涉及识别不同表达形式(如邀请“李四”、“张三”参加或参会人员是“李四”、“张三”)。
3. 会议室名称:这是指特定的会议地点或房间。例如,用户可能提到“前海湾会议室”、“会议室前海湾”或者“30楼前海湾会议室”。提取出准确的会议室名称对于确保预定准确性和让参会者找到会议地点至关重要。
在我们的研究中,我们选择了八款领先的大语言模型进行详细测试,以评估它们在提取会议预定参数方面的性能。这些模型涵盖了几个主要的人工智能研究和开发机构,具体包括以下几款:
OpenAI的模型:
● GPT-3.5:作为OpenAI的早期版本,GPT-3.5已经展示了强大的自然语言处理能力,能够处理复杂的文本生成和理解任务。
● GPT-4o:GPT-4o是GPT-3.5的升级版,包含更多的参数和改进的算法,使其在文本理解和生成方面表现更加优异。
● GPT-4o-mini:这是GPT-4o的精简版,虽然参数较少,但在速度和资源需求方面具有优势,同时仍保持了较高的准确率和效率。
阿里云的模型:
● Qwen1.5-72b:这是阿里云推出的大型语言模型,专为处理大规模文本数据优化,旨在提升自然语言处理的精度和效率。
● Qwen2.5-72b:作为Qwen1.5-72b的升级版本,Qwen2.5-72b在算法和数据集上进行了进一步优化,提高了模型在各种自然语言处理任务中的表现。
月之暗面的模型:
● Moonshot-v1-32k:该模型由月之暗面开发,专注于高精准度的文本分析和生成任务,能够在复杂的语义环境中提取出准确的结构化数据。
Anthropic的模型:
● Claude-3-5-sonnet-latest:这款模型是Anthropic推出的最新版本,结合了先进的自然语言处理技术和大规模训练数据集,旨在提供卓越的文本理解和生成能力。
Meta的模型:
● Llama-v3.1:作为Meta发布的一款先进语言模型,Llama-v3.1在处理多语言文本和复杂语义任务方面表现出色,展现了强大的理解和推理能力。
通过选择这八款模型,我们可以全面了解不同模型在提取会议预定参数(包括会议时间、参会人员和会议室名称)方面的性能差异。这种详细的对比分析让我们能够确定哪种模型在特定任务中更具优势,并为将这些模型应用于实际场景提供了宝贵的见解。无论是在模型的准确性、效率还是在处理多样化表述方面的表现,我们的测试结果都为下一步的模型选择和优化提供了坚实的基础。
为了确保测试的客观性和公正性,我们首先利用GPT生成了一系列测试数据。这些数据旨在模拟各种不同的会议室预定情况,共包含100种不同的说法,详细涵盖了会议的各个关键要素:会议的开始时间、结束时间、会议时长、会议地点以及参会人员名单。
具体的步骤如下:
● 使用GPT生成测试语料:我们使用GPT生成了一系列具有代表性的预定会议室的语句。这些语句以多种方式描述了预定请求,例如不同的时间格式(具体日期、相对日期等)、不同的会议时长表达(明确时长、开始和结束时间等),还有各种可能的参会人员和会议室名称。
● 初步筛选测试语料:在生成这些语料后,我们进行了初步筛选,确保语料的多样性和代表性。我们的目标是覆盖尽可能多的不同表述方式,以考验模型在处理多样化语言输入时的能力。
● 人工核验与校准:为了确保生成的语料准确度,我们进行了人工核验。每一条测试语料都由人工审阅和校对,以确认其正确性和一致性。我们特别关注语句的逻辑连贯性和参数的准确表达,并根据当天的日期和上下文对生成的句子进行校准,验证其参数值的正确性。例如,当一句话提到“明天的会议”时,我们会根据实际日期来校准这一时间参数。
● 统计和验证参数值:在人工核验的基础上,我们对语料中的关键参数(如会议时间、参会人数和会议地点)进行了统计和验证。通过全面检查这些参数值,我们确保每条测试语料都是准确且一致的,使其能够合理地用于模型测试。
● 准备测试数据集:最终,我们将核验和校准后的测试语料整理成一个系统化的数据集。这个数据集不仅包含了多种不同表达方式的预定请求,还确保所有参数值的准确性和一致性,为模型测试提供了坚实的基础。
通过这些严格的处理步骤,我们确保了测试数据的高质量和多样性,使得后续的模型测试能更公正、公平地评估各个模型在提取会议预定参数方面的性能。这一系列措施确保我们的测试具有高可靠性和客观性,为选择和优化最合适的模型奠定了坚实的基础。这种细致入微的准备工作,不仅让我们能够准确评估不同模型的能力,还能为后续改进提供具体的参考和数据支撑。
● 数据准备:我们把生成的100种测试用例输入各个模型中,并记录它们提取参数的能力。每个用例经过重复输入多次以确保测试结果的稳定性。
● 模型执行:使用每个大模型的工具(tools)对预约信息进行解析,提取出“开始时间”、“结束时间”、“参会人员”和“会议室名称”等信息。
{
"model":"{model}",
"messages":[
{
"role":"system",
"content":"你是一个优秀的会议管理工具,可以根据用户的输入完成会议参数的提取,匹配预约,取消,修改等场景,示例如下: \n**创建会议**\n**问题1**:帮我预约16号晚八点到十点的会议室C506,讨论本周工作计划,参会人张三,李四\n**参数提取1**: {\"Subject\":\"本周工作计划\",\"StartAt\":\"2024-11-16 20:00:00\",\"EndAt\":\"2024-11-16 22:00:00\",\"RoomName\":\"C506\",\"Invitees\":[\"张三\",\"李四\"]}\n**问题2**:帮我预约明天晚八点到十点30楼上海会议室,讨论本周工作计划,邀请古月参加\n**参数提取2**: {\"Subject\":\"本周工作计划\",\"StartAt\":\"2024-11-16 20:00:00\",\"EndAt\":\"2024-11-16 22:00:00\"\"RoomName\":\"上海\",\"Invitees\":[\"古月\"]}\n当前日期为{now}。今天是星期{weekday}"
},
{
"role":"user",
"content":"{content}"
}
],
"tools":[
{
"type":"function",
"function":{
"name":"reserveMeeting",
"description":"预约会议",
"parameters":{
"type":"object",
"description":"Details for scheduling a meeting (action: 'schedule').",
"properties":{
"StartAt":{
"type":"string",
"description":"会议开始时间,时间格式为%Y-%m-%d %H:%M:%S,若无则返回空"
},
"EndAt":{
"type":"string",
"description":"会议结束时间,时间格式为%Y-%m-%d %H:%M:%S"
},
"RoomName":{
"type":"string",
"description":"会议室名称,若无则返回空字符串"
},
"Invitees":{
"type":"array",
"description":"参会人员,无则返回空",
"items":{
"type":"string"
}
}
},
"required":["StartAt","EndAt","RoomName","Invitees"]
}
}
}
]
}
● 结果对比:将模型提取出的结构化数据与我们人工核验的正确数据进行对比,评估各个模型的提取准确率。
测试结果:
时空人物大模型测试结果 | |||
模型 | 会议室准确率 | 参会人准确率 | 会议时间准确率 |
gpt-4o-mini | 95% | 100% | 80% |
gpt-4o | 95% | 100% | 84% |
gpt-3.5 | 75% | 98% | 72% |
qwen1.5-72b-chat | 69% | 98% | 41% |
qwen2.5-72b | 71% | 95% | 86% |
moonshot-v1-32k | 78% | 100% | 92% |
llama-v3p1-405b-instruct | 62% | 56% | 81% |
claude-3-5-sonnet-latest | 95% | 100% | 100% |
经过详细测试,我们发现各个大模型在对于中文参数提取方面表现各异。以下是一些关键发现:
● gpt-4o-mini:会议室名称的提取准确率达到95%,参会人员的提取准确率为100%,而会议时间的提取准确率则为80%。
● gpt-4o:会议室名称的提取准确率同样为95%,参会人员的提取准确率为100%,会议时间的提取准确率稍高,达到84%。
● gpt-3.5:会议室名称的提取准确率为75%,参会人员的提取准确率为98%,而会议时间的提取准确率为72%。
● qwen1.5-72b-chat:会议室名称的提取准确率为69%,参会人员的提取准确率为98%,但会议时间的提取准确率仅为41%。
● qwen2.5-72b:会议室名称的提取准确率略高,为71%,参会人员的提取准确率为95%,而会议时间的提取准确率则显著提高到86%。
● moonshot-v1-32k:会议室名称的提取准确率为78%,参会人员的提取准确率为100%,会议时间的提取准确率为92%。
● llama-v3p1-405b-instruct:会议室名称的提取准确率较低,为62%,参会人员的提取准确率为56%,会议时间的提取准确率为81%。
● claude-3-5-sonnet-latest:在所有测试模型中表现最为突出,会议室名称的提取准确率为95%,参会人员的提取准确率为100%,而会议时间的提取准确率高达100%。
总体来看,在中文参数提取这一块,Claude-3-5-sonnet-latest在整体性能上拔得头筹,特别是在会议时间参数的提取上表现卓越。GPT-4o和Moonshot-v1-32k也展示了较为稳健的性能,而Llama-v3p1-405b-instruct和Qwen1.5-72b-chat需要进一步优化才能满足高精准度需求。
倘若一个大模型仅凭借少量的参数便能够达成百分之百的精准度,那么大致存在着两种可能性。
其一,该大模型借助大量的数据以及丰富的案例,成功实现了无损压缩,且达到了极为极致的压缩比例。就好比将浩如烟海的数学练习题巧妙地压缩成了一个简洁的数学公式,在这样的情形之下,便触及到了真理的层面。
其二,AI 大模型通过外接一些专门的工具来实现这一目标,例如数学技术计算器、日历工具等等。要知道,这些工具可是人类依据现实世界的逻辑精心编排而成的,其本身同样也属于一种无损压缩的形式,借助它们,大模型便能够实现百分之百的精准度。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-30
Context 即 Agent:下一场 AI 产品战争,是上下文之争
2026-06-30
解析Agent Loop(智能体循环)的三层分级体系
2026-06-30
Cursor、OpenClaw 同时出手,“口袋编程”时代来了:程序员只用“动嘴”!
2026-06-30
从文本到多模态:大模型非结构化数据加工与质量控制实践
2026-06-30
从Anthropic的B端战略,给迷茫中的扣子一些建议
2026-06-30
Claude最新:创始人实操手册:打造 AI 原生初创公司(中文版)
2026-06-30
本体+AI驱动的AI智能体工厂-从设计到实现
2026-06-30
微信AI,能避开豆包手机的窘境吗?
2026-04-15
2026-04-07
2026-04-07
2026-04-24
2026-04-17
2026-04-05
2026-04-02
2026-04-05
2026-04-14
2026-04-24
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。