我要投稿

使用Ollama加载微软开源WizardLM2-7B模型，并进行“弱智吧”问题测试

发布日期：2024-04-17 18:41:39 浏览次数： 3033

作者：AI工程师笔记

微信搜一搜，关注“AI工程师笔记”

开发团队在发布模型之前忘记对其进行毒性测试，微软删除了WizardLM2所有相关模型，HuggingFace的WizardLM仓库已经清空。

null — 在这里插入图片描述

不过不用担心，WizardLM2模型的许可是Apache 2.0，微软无权要求他人删除复制的仓库。目前在HuggingFace上仍然可以下载：

null — 在这里插入图片描述

另外，Ollama模型仓库也依旧还在：

null — 在这里插入图片描述

接下来，我们使用ollama来加载测试一下WizardLM2-7B模型，看看他是否有微软宣称的那么强大。

1. 首先，下载及加载模型：

ollama run wizardlm2:7b

2. 接下来，我们使用ChatBox配置底层模型：

null — 在这里插入图片描述

3. 然后，我们使用最近比较火的“弱智吧”的问题来进行一下测试。

内裤翻过来穿，是不是代表世界都在内裤之中智商很弱叫弱智，那智商很牛是不是叫牛智呢？明明是我们走向死亡的道路，却被叫做人生一个半小时，是不是三个半小时？如果猪肾虚，那它的腰子还补吗？

null — 在这里插入图片描述

null — 在这里插入图片描述

null — 在这里插入图片描述

null — 在这里插入图片描述

null — 在这里插入图片描述

作为对比，我同样使用Qwen1.5-7B测试了一下，下面是Qwen1.5-7B的回答：

null — 在这里插入图片描述

null — 在这里插入图片描述

null — 在这里插入图片描述

null — 在这里插入图片描述

null — 在这里插入图片描述

首先声明，此项测试并不严谨，仅仅作为一项娱乐测试，不具有任何参考意义。

但测试结果，还是有一些感受的：

• WizardLM2-7B并没有那么的智能。关于“牛智”的问题，我更加喜欢Qwen的回答；而关于“人生”的问题，我不确定是都真的出自鲁迅的呐喊；关于“三个半小时”的问题，显然两个模型都没有真正理解这个问题的意思。
• WizardLM2-7B模型回答的内容确实要比Qwen1.5-7B要多（但从字数上来看），但从表述上来看，整体感觉WizardLM2表现的有些啰嗦了，并且表述来说，感觉也没有Qwen1.5-7B表达的直抒胸臆。

当然基于以上的测试，我们也可以有理由猜测WizardLM2训练语料可能并不包含“弱智吧”的内容，另外，WizardLM2的中文语境下的效果可能确实没有英文语境下表现得好。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

刚刚！Codex 居然能直接画图了，OpenAI 凌晨甩出 Image 2.0

2026-04-22

OpenAI Codex CLI 完整使用指南

2026-04-07

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-30

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！即梦推出 CLI，Agent 一行命令生成 Seedance 2.0 视频，AI 视频井喷

2026-04-01

Google Gemma 4 开源｜全面解读

2026-04-03

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

大家都在问

【万字】大家都在吹的 FDE，又是什么万能解药？——附：哪些岗位可以转?

2026-06-22

企业智能体的下半场，如何让智能体越用越聪明？

2026-06-18

Agent 记忆，我们全都理解错了？

2026-06-18

怎么写一份 Claude 真正能看懂的 DESIGN.md 文件？

2026-06-17

中国市场FDE是否有机会？

2026-06-16

26.1%的AI编程技能有漏洞：NVIDIA开源 SkillSpector 能扫出什么？

2026-06-16

RAG运维如何用好Loop Engineering？Milvus 3.0 对它有什么价值？

2026-06-15

同样是一个Skill，凭啥有的skill卖5万？有的免费都没有用？

2026-06-11

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部