支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


盘点一下上半年工作用到的AI产品和技术

发布日期:2025-07-30 07:31:48 浏览次数: 1557
作者:范勤奋

微信搜一搜,关注“范勤奋”

推荐语

从移动开发到AI应用开发的转型之路,分享半年来的实战经验与技术选型。

核心内容:
1. 端侧语音模型的落地实践与性能优化
2. 开源LLM模型的筛选策略及Ollama部署方案
3. 多模态技术栈的完整解决方案(语音克隆/生图模型)

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
最近两三个月已经彻底脱离了移动开发者这个标签,转向偏模型应用开发这个方向了,简单做了一个项目,虽然是照葫芦画瓢,但也收获蛮多,这周项目节奏缓下来了,我尝试回顾一下最近半年,开发产品中接触到的各种 AI 类的产品和技术。
今年在产品上用到的第一个 AI 相关技术就是,4 月份上线的离线端语音模型 ,之前写过的这篇文章有相关的介绍说明,上线了端语音模型之后,社区效果反馈还不错,具体技术栈是 Sherpa(语音处理框架)+KokoroTTS(模型)
之前我们用的是 AWS 的 TTS 模型,缺点就是技术调用链路有点长和复杂,端语音调用相对更加简单,因为只发生在端侧,但是因为性能问题,需要拆分语句进行生成,否则单次生成较多文本的耗时还是挺长的。
五月份的时候开始调研新的项目,因为没有移动端的开发任务,所以我们两个客户端工程师都转做前端和模型,开始调研各种LLM语言模型。
我负责找模型和搭建语言模型的测试环境。能找到开源模型的地方其实很有限,就像是找开源代码库选 Github 一样,开源模型一般都会放在 Huggingface 上,有的模型还在 Huggingface 上搭建了 Space 来让用户来测试使用。
我们找的参数量并不那么大的,专门针对聊天优化过的模型,我发现这些开源的模型很多都是 Mistral(这个被提到的次数还挺多的)和其他什么模型,合并出来的一个新的模型,不光有儿子模型还有孙子模型,还是针对模型重新拿数据训练过的模型,reddit社区上有很多类似模型使用的讨论,我们挑选模型的时候也会参考社区的反馈。
运行部署模型的工具就是 Ollama,年初在测试DeepSeek小模型的时候其实用过 Ollama,那时候就是在电脑上部署小模型,现在重新用起来后,我直接在 AWS 服务器用 ollama 去运行我们找好的模型,开放接口给客户端用,项目目前跑了差不多两个月,还算稳定,而且我们的主产品也开始在用这种技术方案。
目前还没有遇到太大的瓶颈,之前朋友推荐用vLLM,好处是更加强调并发和吞吐,其实后端就应该用这个。我们那个方案只是临时的,遇到问题还要往这边迁。这是后话。
测试语言模型就是用Gradio这个开源工具去搭建网页,如果你用过 Stable-Diffusion-WebUI 那你一定不会对 Gradio 陌生,因为 SDWebUI 的界面就是用 Gradio 搭建的。风格实在过于明显。
我们的产品涉及多模态,不光是文字,也有语音和图片。克隆语音模型,我们本来是想用 CosyVoice3.0,但当时这个模型只是给了效果,还没有最终开源,通过调研,最终选择了一个商业的语音克隆服务 papla media,我们上传一段语音,模型就能根据这段语音,泛化出任意文本对应的语音。
再接下来就是这一个月重点在关注的生图模型选择,我们把 Stable-Diffusion-WebUI 和 ComfyUI 都实践了一下。
最开始我们生图服务使用的 Stable-Diffusion-WebUI 这个界面/框架,使用的模型是 C 站上找的 realDream_15SD15.safetensors,我们的生图目标是,要针对指定人物进行生图(也就是保持人脸一致),以及人物姿势多样化。
单说保持人脸一致性这个问题就使用过提示词方案、 IPAdapter 方式,但是最后效果都不理想,最终还是选择了效果最好成本也最高的 LoRA 方式实现。
关于人物姿势方面,我们发现因为 LoRA 的素材不够多元化,导致人物的姿势很难遵守提示词,于是又引入了 OpenPose 去做姿势遵从。
针对人物脸部优化,又引入了 AdDetailer 插件,感觉 SDWebUI 这套方案全靠各种插件续命... 当然上面这所有的插件使用调用,最后还要包装成 API 的方案暴露给后端,让后端去调用生图。
但是 SDWebUI 有一项最终也没有搞定,就是手部畸形的问题,我尝试从 C 站上单独下载了手部的 LoRA 模型去优化,最终也没有解决... 问了下卖给我们 LoRA 模型的淘宝卖家,他说 SD1.5甚至 SDXL 基座的生图模型都有类似问题,最终推荐我们用 FLUX 模型。
于是老板接着让继续搞 ComfyUI+FLUX的组合,工作流搞的还算简单,但是人脸一致性这个要继续在淘宝店上找卖家 LoRA模型,为了省钱,老板让我自己研究 LoRA。
最近这一两周基本上我都在忙活 FLUX+LoRA 的技术,整个学习过程就是网上看视频+ChatGPT+自己实践。有基于 ComfyUI 的现成的LoRA工作流,麻烦的是各种参数配置。
说起来我们用来 LoRA 的机器是 A10G 的显卡,我刚开始用这个机器的时候,感觉好快,但是开始 LoRA 的时候发现这个显卡好慢... 2000步数的 LoRA 过程,LoRA 一次差不多需要两个半小时,这还是参数并不大的情况,如果把LoRA训练图片的尺寸搞大一点,时间就更长了... 
今年到现在工作实际产品中用的 AI 技术差不多就是这些。这还没有算我自己使用到的一些 AI 产品,比如各种 AI 编码的内容,上面 LoRA 其实也踩了一些坑,这篇文章篇幅已经太长,这里就不多说了... 

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询