微信扫码
添加专属顾问
我要投稿
文章的出发点:LLMs通常被训练为通用工具,但在实际应用中,它们往往需要针对特定用户或任务进行调整。现有的方法如sft或rl,需要大量的数据集,这对新任务来说成本过高。本文通过少量用户提供的监督数据来快速定制和对齐大型语言模型,以满足特定用户或任务的需求。
文章标题:Show, Don’t Tell: Aligning Language Models with Demonstrated Feedback
https://arxiv.org/html/2406.00888v1
https://github.com/SALT-NLP/demonstrated-feedback
循环3,4,5,伪代码如下图:
DITTO 性能相对较高的原因之一是它通过生成比较使用的数据远多于 SFT。另一个是,在某些情况下,online imitation learning 比 SFT形式的 demonstrator 表现得更好。
迭代次数1->4,逐渐变优;增加negative sample,2->10逐渐变优;增加演示样本数量,逐渐边优,但是收益越来越低。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-03
从 CLI 到桌面:Codex 把 coding agent 变成“任务指挥台”
2026-02-03
谷歌重大更新:国内手动开启 Gemini AI 侧边栏与 Auto Browse 自动浏览全攻略
2026-02-03
OpenAI 发布新的 Codex 桌面版,我现在不骂 Codex 难用了
2026-02-03
OpenClaw 技术解析:Agent Skills 机制与应用
2026-02-03
Claude Skills 官方最全指南
2026-02-03
一文搞懂Claude Skills和SubAgents及背后本质
2026-02-03
刚刚!OpenAI 正式发布 Codex App,一人指挥一支 AI 军队,Cursor 慌了?
2026-02-03
深度解读:OpenClaw 架构及生态
2026-01-24
2026-01-10
2025-11-19
2025-11-13
2026-01-26
2026-01-01
2025-12-09
2025-11-12
2026-01-09
2025-11-15
2026-02-03
2026-02-03
2026-02-02
2026-02-02
2026-02-02
2026-01-31
2026-01-30
2026-01-29