我要投稿

基于大模型的高效新闻推荐系统的实践方案

发布日期：2024-10-24 08:59:15 浏览次数： 3497

作者：智能体AI

微信搜一搜，关注“智能体AI”

在这个信息爆炸的时代，如何从海量的信息中筛选出用户感兴趣的新闻成为了一个重要的问题。随着人工智能技术的发展，特别是像阿里云的通义千问或其他大模型这样的大模型的出现，为构建高效的新闻推荐系统提供了新的可能性。本文将详细介绍如何利用通义千问或其他大模型构建一个新闻推荐系统，从数据准备到推荐结果输出的全过程。

一、新闻推荐系统的整体架构

为了构建一个高效的新闻推荐系统，我们的实现方案大致分为以下几个步骤：

对新闻文章进行标签化，并将新闻内容和标签向量化存储。
通过用户画像，捕捉用户的阅读历史和行为习惯，如点赞、收藏、点击的文章等。
根据用户画像和行为在文章库中进行初步搜索（召回）。
对召回结果进行精排，考虑用户兴趣变化、文章来源、时效性等因素。
输出Top 10的个性化推荐文章。

接下来，我们将详细说明各个步骤的技术细节及实现方案。

二、数据准备

构建推荐系统的第一步是准备数据。我们需要获取新闻数据和用户行为日志。新闻数据包括新闻的ID、类别、标题、摘要等信息；用户行为日志则记录了用户的点击历史和展示历史。

2.1 读取新闻数据

首先，我们需要读取新闻数据文件 news.tsv，并将其转换为Pandas DataFrame格式。

import pandas as pd
# 读取新闻数据news_df = pd.read_csv('news.tsv', sep='\t', header=None, names=['news_id', 'category', 'subcategory', 'title', 'abstract', 'url', 'title_entities', 'abstract_entities'])
# 查看前几行数据print(news_df.head())

2.2 读取用户行为日志

接下来，我们需要读取用户行为日志文件 behaviors.tsv，并将其转换为Pandas DataFrame格式。

# 读取用户行为日志behavior_df = pd.read_csv('behaviors.tsv', sep='\t', header=None, names=['impression_id', 'user_id', 'time', 'history', 'impressions'])
# 查看前几行数据print(behavior_df.head())

三、新闻推荐实现方案

我们将通过以下步骤构建高效的新闻推荐系统，结合通义千问或其他大模型的大模型能力，完成从数据处理、用户画像生成到推荐结果的全过程。

3.1 已有的文章进行打标签

为了更好地理解和处理新闻内容，我们需要对已有文章进行打标签。标签可以帮助我们更精确地召回和排序新闻。

3.1.1 设计打标签Prompt

设计一个合适的Prompt，告诉通义千问或其他大模型我们需要生成的标签类型。

from qwen import QwenClient
# 初始化通义千问客户端client = QwenClient(api_key='YOUR_API_KEY')
def tag_articles(articles, client):tagged_articles = []for article in articles:prompt = f"为以下文章生成标签：\n类别: {article['category']}, 子类别: {article['subcategory']}, 标题: {article['title']}, 摘要: {article['abstract']}\n请生成相关的标签。"# 调用通义千问生成标签response = client.generate(prompt)tags = response.strip().split(',')tagged_articles.append({**article, 'tags': tags})    return tagged_articles

3.1.2 应用打标签函数

将打标签函数应用于新闻数据，生成带有标签的新闻数据。

# 示例：为新闻文章打标签tagged_news_df = tag_articles(news_df.to_dict('records'), client)tagged_news_df = pd.DataFrame(tagged_news_df)
# 查看带有标签的新闻数据print(tagged_news_df.head())

3.2 用户画像

用户画像是推荐系统的核心部分之一。通过分析用户的点击历史和用户行为（如收藏、点赞、点击），我们可以生成用户的兴趣画像，从而更好地理解用户的偏好。

3.2.1 设计生成用户画像Prompt

设计一个合适的Prompt，告诉通义千问或其他大模型我们需要生成的用户画像信息。

def generate_user_profile(user_history, client):# 将用户点击过的新闻详细信息拼接成一段长文本history_news = tagged_news_df[tagged_news_df['news_id'].isin(user_history)]history_text = ' '.join(history_news['title'] + ' ' + history_news['abstract'].fillna(''))# 设计promptprompt = f"基于以下用户点击历史，生成一个用户画像，描述用户感兴趣的新闻主题和地区。\n点击历史:\n{history_text}\n请描述用户的兴趣主题和关注地区。"# 调用通义千问生成用户画像response = client.generate(prompt)user_profile = response.strip()    return user_profile

3.2.2 应用生成用户画像函数

将生成用户画像函数应用于用户点击历史，生成用户的兴趣画像。

# 示例：生成用户画像user_history = ['N1', 'N2', 'N3']# 假设这是某个用户的点击历史user_profile = generate_user_profile(user_history, client)
# 输出用户画像print(user_profile)

3.3 搜索召回

在生成用户画像后，我们需要根据用户的兴趣以及用户的行为（收藏、点赞、看过的文章等），从新闻库中召回一批与用户兴趣匹配的候选新闻。

3.3.1 设计召回候选新闻Prompt

设计一个合适的Prompt，告诉通义千问或其他大模型我们需要召回的候选新闻。

def recall_candidate_news(user_profile, tagged_news_df, client):# 设计promptprompt = f"基于以下用户画像，从新闻库中召回一批与用户兴趣匹配的新闻。\n用户画像:\n{user_profile}\n新闻库:\n{tagged_news_df.to_json(orient='records')}\n请从新闻库中选出与用户兴趣匹配的新闻。"# 调用通义千问召回候选新闻response = client.generate(prompt)candidate_news_ids = response.strip().split('\n')# 获取召回的候选新闻candidate_news = tagged_news_df[tagged_news_df['news_id'].isin(candidate_news_ids)]    return candidate_news

3.3.2 应用召回候选新闻函数

将召回候选新闻函数应用于用户画像，获取候选新闻。

# 示例：召回候选新闻candidate_news = recall_candidate_news(user_profile, tagged_news_df, client)
# 输出召回的候选新闻print(candidate_news)

3.4 精排

召回候选新闻后，我们需要根据用户兴趣的细微变化、新闻的时效性、来源等因素进行精细排序，以确保推荐结果的相关性。

3.4.1 设计评分和排序Prompt

设计一个合适的Prompt，告诉通义千问或其他大模型我们需要对候选新闻进行评分和排序。

def score_and_rank_news(user_profile, candidate_news, client):# 设计promptcandidate_news_json = candidate_news.to_json(orient='records')prompt = f"基于以下用户画像，对以下候选新闻进行评分，并按评分从高到低排序。\n用户画像:\n{user_profile}\n候选新闻:\n{candidate_news_json}\n请对这些候选新闻进行评分，并按评分从高到低排序。"# 调用通义千问进行评分和排序response = client.generate(prompt)scored_news = json.loads(response.strip())# 将评分结果转换为DataFramescored_news_df = pd.DataFrame(scored_news)scored_news_df = scored_news_df.sort_values(by='score', ascending=False)    return scored_news_df

3.4.2 应用评分和排序函数

将评分和排序函数应用于候选新闻，获取评分和排序后的新闻列表。

# 示例：评分和排序scored_news = score_and_rank_news(user_profile, candidate_news, client)
# 输出评分和排序后的新闻列表print(scored_news)

3.5 输出Top 10的文章

最后，我们将排序后的新闻列表展示给用户，输出Top 10的新闻。

# 输出推荐结果top_n = 10recommended_news = scored_news.head(top_n)
# 输出推荐的Top 10新闻print(recommended_news[['news_id', 'title', 'score']])

四、总结

通过上述步骤，我们成功地利用通义千问或其他大模型构建了一个高效的新闻推荐系统。系统基于用户的阅读行为和兴趣生成用户画像，并通过召回和精排步骤，推荐最符合用户兴趣的新闻内容。未来，我们可以通过不断收集用户反馈、结合更细致的用户行为分析（如点赞、收藏等），进一步提升推荐系统的性能和用户体验。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-03-18

Harness Engineering 为什么是 Agent 时代的“控制论”？

2026-03-18

从零构建 Claude Code：揭秘 AI Coding Agent 的 12 层架构演进

2026-03-18

MiniMax M2.7: 开启模型的自我进化

2026-03-18

5000万付费的OpenAI无限套餐要凉了！

2026-03-17

阿里云新品发布：Agent ID Guard，谁来管理“小龙虾们”的身份安全？

2026-03-17

香港终于能直接用 Gemini 了，内地用户能用上吗？

2026-03-17

AI 推理精细化流量治理实战：RocketMQ LiteTopic 的“千人千面”流控方案

2026-03-17

企业级靠谱龙虾升级，拒绝失控

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Pencil：设计和写代码，以后就全让AI干了

2026-01-24

独家实录｜唐杰、杨植麟、林俊旸、姚顺雨...All Star 对话上，大家聊了啥？

2026-01-10

2026 开年 AI 工具推荐，让你新的一年效率起飞！（建议收藏）

2026-01-01

从0到1玩转Clawdbot：我花了40小时，把这些坑都踩完了

2026-01-26

Claude赢麻了？OpenAI Codex正式支持Skills，GitHub连夜上车！

2025-12-21

终于！Gemini CLI支持Agent Skills，一键搬运Claude Code的“绝招”

2026-01-09

Claude Code Skills 国内实践全指南：从安装部署到高阶开发

2026-01-09

谷歌没想到：Antigravity 竟成了 Claude Code 的“免费充电宝”？

2025-12-30

深度解析——为什么Claude code CEO Dario 如此反中？

2026-01-23

我装了 9 个 Skill，终于看懂了 Google Antigravity 的野心

2026-01-21

大家都在问

Harness Engineering 为什么是 Agent 时代的“控制论”？

2026-03-18

阿里云新品发布：Agent ID Guard，谁来管理“小龙虾们”的身份安全？

2026-03-17

香港终于能直接用 Gemini 了，内地用户能用上吗？

2026-03-17

粮厂研究员Will | 小米miclaw发布：谈谈为什么豆包手机没有撑过72小时？

2026-03-09

如果微信全面 AI 化了，会有什么后果？

2026-03-08

马斯克大赞阿里 AI，9B 参数硬刚 120B，海外网友：这叫小模型？

2026-03-03

Claude Code 的记忆机制：从CLAUDE.md到Auto Memory，它到底记住了什么？

2026-03-01

AGENTS.md 真的能帮助编码智能体吗？

2026-02-27

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw