我要投稿

如何用codeBuddy20分钟处理一单数据分析

发布日期：2025-08-12 08:54:11 浏览次数： 2208

作者：AI山脚学长

微信搜一搜，关注“AI山脚学长”

第一步：导入与理解数据

数据来源说明（内容来源于小红书运营侧）
使用codeBuddy读取数据，展示表头和结构

操作步骤：

打开codeBuddy，上传我们刚刚提供给大家的学习示例数据。
提示词输入：


请加载这份通义灵码小红书数据文件，使用python进行分析，告诉我这份数据一共有多少条记录，包含哪些字段。

86条笔记数据，不同的字段罗列。

跟进指令（字段解释）：

请逐一解释这些字段的含义，以及可能的用途。

第二步：数据清洗

关注点：

为什么需要数据清洗
常见问题：缺失值、不一致格式、异常值等

操作步骤：

提示词输入：

请帮我检查一下数据中是否有缺失值，分别在什么字段上？

如有缺失，继续输入：

请对缺失值做合理填充，便于我下一步数据分析。

这里可以看到他其实是修过了我原来的数据，我的预期结果是希望新建一个清洗过后的excel

因为这只是一个毕设，所以无所谓，也没有回滚或者重新来过了

codebuddy是分为craft跟chat模式的

Craft和Chat模式（具体区别在于，一个强执行，另外一个是对话用的）。

Craft模式下，你可以选择Design mode和Plan mode是否开启。

vibecoding的时候，版本控制非常重要。建议全程用 Git。

每次新功能开发前，确保代码库是干净的。

如果 AI 改错了，直接回退到上一个稳定版本。不要反复在有问题的代码上修补，否则只会让问题越来越多。

有些工具自带回滚功能，但我还是比较相信 Git

清洗前 VS 清洗后

预览一下处理结果，它确实已经进行缺失值处理了

标签字段标准化：

请将数据表中的字段转换为适合数据分析的格式，比如年月日，统计数值等。

第三步：数据可视化

要点：

从哪些角度分析内容质量
图表在数据分析中的作用
除了通过python进行数据可视化以外，可以将处理好的数据结果，使用html的echart.js图表进行数据可视化。

操作步骤：

点赞数分布图：

请根据清洗后的数据（通义灵码小红书数据_清洗后），帮我画出点赞数的分布图，使用直方图展示。

标签热度词云：

请根据“笔记标题”字段生成一个标签词云图，展示出现频率最多的前50个标签。

可以看到过程这里是先做了词频的分割

再生成词云图，但其实做过这类单子的小伙伴可以知道：中文一般没有办法正常显示，但是codebuddy倒是给我自动配置好了，至少通义灵码是要的（狗头保命）

一般我们需要上传一个中文字体包，让它去适配字体显示。【直接搜索汇文仿宋字体需要的小伙伴也可以找我要】

下面是生成的效果，还是很不错的！

如果想改成其他字体也可以先上传字体素材，放到当前目录下即可，再

请你使用我的字体“汇文仿宋v1.001.ttf”，帮我渲染到这个词云图上。

点赞数 Top10 的笔记标题柱状图：

请你继续展示点赞数排名前10的笔记标题及其对应点赞数量，用柱状图表示。

第四步：自动生成分析报告

要点：

如何对接阿里云百炼大模型平台进行数据解读能力
如何从数据生成结构化结论
分析报告内容构成：综述、关键发现、可视化图、运营建议

操作步骤：

在阿里云百炼平台上，提供各类大模型 API 服务（选择通义系列的模型服务）

https://bailian.console.aliyun.com/?tab=home#/home

如果是没用过的小伙伴第一次可以领100w token，但是需要先充一点钱，阿里云的活动很多的，随便都可以领取很多

先去阿里云百炼大模型平台选一个合适的大语言模型，记得选择文本生成

咱们需要拿到两个信息：API Key + 模型的接口文档。然后咱们在开始之前需要准备一个文档，我这里推荐 Markdown 结构的文档；

API-KEY：左下角进入“API-KEY”后，然后点击“创建我的API-KEY”，然后点击查看后复制（记得保存到一个文档里面）

这里复制到一个新文件

这里默认的文档用的是“qwen-plus”，如果需要指定模型id，我们“查看详情”页面中可以去拿模型的code信息。

如果你实在也不知道该拿哪一块信息，直接把上面几个页面（流式、多轮对话都可以）都全选复制粘贴就好了

最后我们会得到这样的一份Markdown文档：

然后把文档放到项目文件夹里，然后输入下面的提示词就完事！它就会自动读取、自动理解，我们需要一些调试的实践，整个过程会把项目代码生成好。

我的apikey是：。。。。。。。。。。。。
下面是请求代码：curl -X POST https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions \-H "Authorization: Bearer $DASHSCOPE_API_KEY" \-H "Content-Type: application/json" \
-d '{"model": "qwen-plus","messages": [{"role": "system","content": "You are a helpful assistant."},{"role": "user","content": "你是谁？"}]}'响应结果：{"choices": [{"message": {"role": "assistant","content": "我是阿里云开发的一款超大规模语言模型，我叫通义千问。"},"finish_reason": "stop","index": 0,"logprobs": null}],"object": "chat.completion","usage": {"prompt_tokens": 3019,"completion_tokens": 104,"total_tokens": 3123,"prompt_tokens_details": {"cached_tokens": 2048}},"created": 1735120033,"system_fingerprint": null,"model": "qwen-plus","id": "chatcmpl-6ada9ed2-7f33-9de2-8bb0-78bd4035025a"}

结合我的api文档，请基于刚才的数据分析内容（通义灵码小红书数据_清洗后）帮我做一个数据分析报告，api主要是用于大模型的能力，能够解读数据特点。

生成一份完整的数据分析报告，（这里就可以根据自己的内容去加了，如果你是写论文，你就给他一些论文的格式）

结构包括：分析目的、数据摘要、关键发现、图表展示（从多个维度进行分析）、运营建议，并附上结论。

请以markdown格式输出这份报告，需要图文并茂，把生成的图填充到markdown文档里面。

最后生成的结果，加上代码已经可以交差了，除去爬数据的时间，报告的时间不超过半小时，市场价大概是700-1