微信扫码
添加专属顾问
我要投稿
国产大模型Qwen3系列重磅发布,支持思维模式与128K上下文,性能对标国际顶尖水平! 核心内容: 1. Qwen3系列模型特性:思维/非思维双模式、多语言支持、增强编码能力 2. 性能对比:235B MOE模型在代码/数学任务超越部分竞品,30B小模型显著提升 3. 实测验证:24GB显存环境下的量化模型表现与云端大模型横向测评
Qwen3 系列模型主要有有以下特性:
从官方公布的看模型跑分数据看 在235B的MOE模型 在代码,数学及一些通用数据集上对于现有的DeepSeek R1及openai-o1 模型都有提升,但对于谷歌最新发布的Gemini2.5-Pro还是有部分差距
这边本地由于只有一块24GB显存显卡,在24GB有限资源的情况下进行测评
模型选择:
测评工具这次选择使用了evalscope
测评的数据集比较注重大模型的通用知识选择了iquiz这个数据集:
这个数据集包含了IQ和EQ两个阶段的测评:
测试方法由于本地环境比较垃圾 跑单轮测试32B模型的一轮测试需要1小时左右 可能也和使用了ollama有关 所以这边每个模型都只跑了一轮,没取多轮的平均值
这边都以qwen3:32b 回答为例
question: 有次程伟带儿子逛商场,陪他去儿童游乐场玩,突然看到有个人牵着条狗进来,程伟就问这个人,“没看到这牌子上写着谢绝带宠物入场吗?”对方显得非常不屑,根本没打算理程伟。这个时候,一旁的儿子笑着和程伟说,“爸爸你真傻,狗又不认识字。”
choices:
儿子在讽刺这个人没有社会公德。
儿子正在和他的父亲开玩笑,试图缓和气氛。
儿子喜欢狗,希望拥有一只
儿子想告诉爸爸狗无法理解人类的语言。
answer: A
level: 1
回答
[think]
嗯,这个问题看起来是关于程伟和儿子在商场遇到带狗的人的情景。题目问的是儿子说的“爸爸你真傻,狗又不认识字”这句话的意思,然后要选择正确的选项。选项有四个,A到D。我需要仔细分析每个选项的可能性。
首先,我得理解整个情境。程伟看到有人牵狗进入写着谢绝宠物的场所,就去问对方,但对方不屑一顾。这时儿子说那句话。儿子的话表面看起来像是在说狗不认识字,所以可能程伟的提醒其实没用,因为狗不会看牌子。但这句话背后的意图是什么?
选项A说儿子在讽刺对方没有公德。但儿子的话并没有直接指责对方,而是说“狗不认识字”,这可能是在解释为什么对方不理会程伟的质问,而不是讽刺对方。所以A可能不对。
选项B说儿子在和父亲开玩笑,缓和气氛。因为程伟可能因为对方的不屑感到不快,儿子的话可能是在用幽默的方式化解尴尬,让父亲不要那么认真。这种情况下,B有可能正确。
选项C说儿子喜欢狗,想养一只。但这句话并没有提到喜欢狗,而是关于狗不认识字,所以C可能无关。
选项D说儿子想告诉爸爸狗无法理解人类语言。这似乎更直接,因为狗确实不认识字,所以程伟的提醒其实没用,因为狗听不懂。但D是否正确呢?不过问题在于,程伟是想提醒对方(带狗的人)不要带狗进来,而对方不听。儿子的话可能是在说,即使爸爸提醒了,狗也不会听,所以对方的不屑可能是因为他们知道狗不会看牌子。所以D可能正确,但要看问题是否在讨论狗的理解能力还是对方的态度。
不过,儿子说“爸爸你真傻”,可能是在调侃父亲的举动,因为即使有牌子,狗也不会看,所以父亲的提醒其实没有实际意义。这时候,儿子可能在用幽默的方式指出父亲的多余行为,从而缓和气氛,比如B选项。或者,他可能在指出事实,即狗无法理解,所以D正确。
需要再仔细看选项。D是说告诉爸爸狗无法理解人类语言,而B是开玩笑缓和气氛。比如,儿子可能觉得爸爸太较真,对方不理会,所以用这句话来让爸爸别在意,所以B可能更正确。而D虽然正确,但可能不是儿子说话的意图,而是客观事实。但问题是要选儿子说话的意图。
比如,如果儿子的话是在指出爸爸的错误,即爸爸以为提醒对方有用,但狗不会看牌子,所以爸爸的行为其实没用,这时候儿子可能在开玩笑,或者指出事实。比如,D是解释狗的行为,而B是儿子的意图。
这时候可能需要分析儿子的话是否带有幽默或缓和气氛的成分。因为儿子说“爸爸你真傻”,这可能带有玩笑的语气,而不是严肃的指出事实。比如,用“真傻”这个词,可能是在开玩笑,所以B选项更合适。而D选项虽然事实正确,但儿子的话是否在传达这个信息呢?可能两者都有,但需要看选项中的正确意图。
比如,如果选项D是儿子想告诉爸爸狗无法理解,那么这确实是事实,但儿子的话可能是在用这个事实来缓和父亲的尴尬,因为对方没理睬程伟,儿子用这句话来说明其实爸爸的提醒其实没用,因为狗不会看,所以对方不理会也是正常的,从而让父亲不要生气。所以B选项可能更正确,因为儿子是在用幽默的方式让父亲不要那么认真,而D只是事实,但儿子的意图是缓和气氛。
[/think]
答案是(B)。
解释:
情境分析:程伟因对方无视“谢绝带宠物”牌子而质问,但对方不屑。儿子的回应“狗又不认识字”表面上看似陈述事实,但结合“爸爸你真傻”这一调侃语气,实际是用幽默化解父亲的尴尬和紧张,而非单纯传递知识(D)。
选项排除:
A错误,因儿子未直接指责对方,而是以轻松方式回应。
C无关,对话未提及对狗的喜爱。
D虽陈述事实,但未捕捉儿子“调侃父亲”的意图。
核心意图:儿子通过“调侃+事实”结合的方式,暗示父亲的提醒对狗无效(狗无法识字),同时用“你真傻”缓和父亲的认真态度,避免冲突升级。因此,选项B(开玩笑缓和气氛)最符合实际意图。
可以看到qwen3 已经识别出了 这个A回答是在嘲讽他人,但还是处于考虑选择了B
question: 19世纪,在奥地利的维也纳,妇女们喜欢戴一种高高耸起的帽子。她们进剧场看戏也不愿将帽子摘下,以致后排的观众被挡住了视线。经理上台请在座的女观众将帽子摘下来,然而说了半天妇女们也不予以理睬。最后经理又补充了一句:“那么,这样吧,年纪大一点的女士可以照顾,不必脱帽。”
choices:
他希望所有的女士都将帽子摘下来。
他只希望年纪轻的女士将帽子摘下来。
他对戴帽子的女士感到恼火。
他在夸赞年纪大的女士的优雅。
answer: A
level: 1
回答:
[think]
嗯,这个问题看起来是关于19世纪维也纳剧场经理如何让女士们摘帽子的。我需要仔细分析选项,找出正确的答案。首先,题目描述的情况是,女士们戴着高帽导致后排观众视线受阻,经理请求她们摘下帽子,但没人理睬。然后他补充说年纪大的女士可以不脱帽。现在要分析经理的真正意图。
首先,选项A说他希望所有女士摘帽。但经理后来补充说年纪大的可以不脱,这可能意味着他其实想让年轻女士摘帽,而年长的可以例外。所以A可能不对,因为如果他真的希望所有都摘,就不会给年长的豁免了。
选项B是他只希望年轻女士摘帽。这看起来有可能,因为经理先请求所有女士摘帽未果,然后补充年长的可以不脱。这可能是在策略性地让年轻女士摘帽,而年长的作为榜样或被尊重的人可以例外,从而让后排观众看到。所以B可能是正确的。
选项C说他对戴帽的女士感到恼火。虽然经理可能确实恼火,但问题是要从他的行为推断意图。补充年长不脱帽可能更多是策略,而非单纯表达恼火,所以C可能不是正确选项。
选项D说他在夸赞年长女士的优雅。这可能有点牵强,因为允许年长女士不脱帽可能更多是为了让步,而不是夸赞她们的优雅。所以D可能不正确。
总结:经理原本想让所有人摘帽,但没人听。然后他给出例外,让年轻女士摘,而年长的不需要。因此,他真正的意图是希望年轻女士摘帽,而年长的可以例外,所以选项B正确。
[/think]
答案是(B)。
原因分析:
经理的策略性让步:最初经理请求所有女士摘帽未果,说明直接要求无效。他补充“年纪大的女士可以不必脱帽”是一种策略,通过给予年长者特殊待遇,暗示年轻女性应配合,从而解决视线受阻的问题。这表明他的真实意图是让年轻女性摘帽,而非所有女性(排除A)。
选项B的合理性:若经理仅希望年轻女性摘帽,则允许年长女性不脱帽是合理的策略,既尊重年长者又推动问题解决,符合B的描述。
排除其他选项:
C(恼火)和D(夸赞优雅)未直接体现于经理的意图,属于主观推测,而非行为逻辑的直接推导。
A与“补充条件”矛盾,因经理并未坚持所有女性摘帽。
因此,正确答案是(B)。
可以看到qwen3 不擅长嘲讽的问题 这也和我设置的temperature有关吧
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-29
2025-04-11
2025-04-12
2025-04-06
2025-04-29
2025-04-12
2025-04-29
2025-04-17
2025-05-07
2025-05-07
2025-06-30
2025-06-30
2025-06-30
2025-06-27
2025-06-26
2025-06-26
2025-06-25
2025-06-25