微信扫码
添加专属顾问
我要投稿
AI营养师革新食品问答:多模态知识图谱与生成式AI的完美结合,让饮食建议更精准、更直观。 核心内容: 1. 构建大规模食品多模态知识图谱(13,000食谱+3,000食材+14,000图片) 2. 创新混合检索-生成策略实现94.1%图片复用准确率 3. 通过LLaVA幻觉检测机制将事实错误率从35.2%降至7.3%
我们提出了一个统一的食品领域问答框架,结合了大规模的多模态知识图谱(MMKG)和生成式人工智能。我们的MMKG链接了13,000个食谱、3,000种食材、140,000条关系以及14,000张图片。我们使用40个模板和LLaVA/DeepSeek增强技术生成了40,000对问答。通过联合微调Meta LLaMA 3.1-8B和Stable Diffusion 3.5-Large,将BERT分数提高了16.2%,将FID降低了37.8%,并将CLIP对齐度提升了31.1%。诊断性分析——基于CLIP的不匹配检测(从35.2%降至7.3%)和由LLaVA驱动的幻觉检查——确保了事实性和视觉上的忠实度。一种混合检索-生成策略实现了94.1%的图片复用准确率和85%的合成充分性。我们的结果表明,结构化知识和多模态生成共同提升了食品问答的可靠性和多样性。
本研究通过MMKG与生成式AI的深度融合,解决了食品领域多模态QA的可靠性、多样性与效率问题。实验表明,结构化知识显著提升生成质量,而混合策略与幻觉检测机制为实际应用提供了可扩展方案。未来工作将扩展MMKG规模、优化多样性评估,并探索实时反馈与偏差缓解。
多模态知识图谱(MMKGs)整合了结构化文本、数值数据和图像,这对于饮食建议和食谱检索等烹饪任务至关重要。现有的食品知识图谱大多基于文本,缺乏视觉和生成特征。与此同时,大型语言模型和扩散模型在多模态推理方面取得了进展,但尚未完全融入食品问答领域。
我们提出了一个端到端框架,结合了大型多模态知识图谱(包含13,000个食谱、3,000种成分、140,000条关系、14,000张图片)和通过模板及大型语言模型增强生成的40,000个问答语料库。我们对Meta LLaMA 3.1-8B和Stable Diffusion 3.5-Large进行了微调,在BERTScore(+16.2%)、FID(-37.8%)、CLIP对齐(+31.1%)以及联合文本-图像成功率(+38.9%)方面取得了显著的提升。我们利用聚类指标确保数据集的多样性,并使用基于LLaVA的问答一致性检测幻觉。一种混合检索-生成策略平衡了准确性和延迟。我们还对大型语言模型(T5-Large、Falconsai、LLaVA、GPT-4o)进行了基准测试,以评估知识增强的影响。
烹饪领域涉及复杂的文本描述、精确的营养数据以及纹理和呈现等重要的视觉线索。传统的知识图谱缺乏这种多模态深度,限制了问答和检索能力,而生成系统则可能产生事实错误和幻觉,影响用户信任。
我们的方法将大型多模态知识图谱与生成式大型语言模型和扩散模型相结合,以生成准确且具有上下文意识的文本和图片。混合问答生成平衡了模板精度与大型语言模型的变异性,聚类指标确保了语义多样性,而幻觉检测则保持了事实一致性。动态的检索-生成流程进一步优化了性能,为多样化的用户提供了一个可扩展的解决方案。
现有的食品领域问答系统面临关键限制:
● 无联合文本-图像生成:问答系统仅提供文本答案,缺乏有助于理解的辅助图像。
● 检索-生成权衡:检索受限于知识图谱的范围;生成速度慢,容易产生幻觉;没有混合方法平衡这些因素。
● 缺乏多样性和评估:问答数据集缺少结构化多样性和多模态评估,导致冗余和错误。
我们提出了一个端到端的框架,用于构建大型多模态知识图谱,生成多样的多模态问答对,训练统一的文本-图像模型,检测不匹配和幻觉,并部署混合检索-生成策略,所有这些都以语义、感知和多样性指标进行评估。
输入:食品领域的问答文本。
输出:文本答案和支持图像。
示例:
● 输入:春豌豆黄油中包含哪些成分?配有香葱和柠檬。
● 输出:豌豆、香葱、黄油、柠檬皮屑和盐。
● 图像:
结合结构化文本和视觉内容,多模态知识图谱支持直观、信息丰富的互动,帮助厨师、营养师和家庭厨师识别成分、估计份量以及呈现菜品。
本文通过整合结构化知识、生成式人工智能和强大的评估框架,推进了食品领域的多模态问答。本工作的主要贡献如下:
● 多模态知识图谱设计与视觉数据整合:我们首次构建了一个大规模的多模态知识图谱,该图谱结合了13000个食谱、3000种成分以及140000条含有成分的关系,并链接了通过Selenium WebDriver和SPARQL从DBpedia和Wikidata抓取并验证的14000张高质量图片(每个成分+13000个食谱),从而实现全面的文本和视觉烹饪知识表示(第3.1节)。
● 基于模板的问答生成:我们设计了40个结构化模板,生成20000个高精度问答对,涵盖成分识别、营养价值、替代品、烹饪方法和视觉菜肴识别——确保领域相关的多样性(第3.2.1节)。
● 大型语言模型驱动的问答增强:利用LLaVA和DeepSeek增强模板问答,产生额外的20000个多样化问答对,使数据集大小翻倍,并提升语言多样性(第3.2.2节)。
● 联合多模态模型训练:我们在2000个问答-图片样本上,首次联合微调Meta LLaMA 3.1-8B和Stable Diffusion 3.5-Large共15个周期,取得了66.0%的文本+图片联合成功率(第4.1节)。
● 综合模型评估:以T5-Large、Falconsai、LLaVA和GPT-4V为标杆,观察到+16.2%的BERTScore、-37.8%的FID、+31.1%的CLIP图像/文本对齐度,以及在知识图谱增强后的+38.9%的联合成功率(第5节)。
● 基于聚类的多样性评估:我们首次应用聚类指标——轮廓系数(0.0254→0.4127)、Davies-Bouldin指数(4.7528→3.2891)和Dunn指数(0.3773→0.5421)——来量化大型语言模型增强问答系统的语义分散增益(第6.1节)。
● 图像幻觉检测:我们引入了一个问答一致性框架,用于检测生成的2000张图像中的幻觉,将BERTScore从0.81提高到0.92,ROUGE-L从0.35提高到0.47,BLEU-1从0.21提高到0.29,从而将幻觉发生率降低了15%(第6.2节)。
● 检索与生成策略:我们开发了第一个混合流程,动态融合检索和生成——通过结合纯检索(0.71/0.15秒/2.3%)和纯生成(0.75/6.8秒/12.5%)的优势,实现了0.80的余弦一致性、2.4秒的延迟和5.1%的幻觉率(第6.3节)。
知识图谱(KGs)是关键的结构化知识表示,编码实体和关系以支持问答、推荐和检索。示例包括WordNet(Miller,1994)、BabelNet(Navigli和Ponzetto,2010)、Freebase(Bollacker等人,2008)、DBpedia(Auer等人,2007)、YAGO(Suchanek等人,2007)、Wikidata(Vrandecic和Krotzsch,2014)、CN-DBpedia(Xu等人,2017)和Probase(Wu等人,2012)。
研究扩展到整合文本、图像和属性的多模态知识图谱(MMKGs)。MMKGs增强了在图像检索和视觉问答中对多样化数据的推理。先前的研究(Liu等人,2019)结合视觉和数值属性进行多模态任务。
问答系统在知识图谱(KGs)上使用结构化数据、模板和大型语言模型来增强推理能力。很少有研究系统地评估食品领域问答数据集的多样性,现有方法缺乏对广泛覆盖的语义变化的结构化分析。最近的自然语言处理基准测试评估了语言多样性、事实一致性和相关性,但很少有研究分析知识增强对问答性能的影响。LLaVA(刘等人,2024年)和DeepSeek(DeepSeek-AI等人,2024年)展示了强大的多模态推理能力,但在食品问答方面的探索不足。知识图谱在提高多模态问答准确性方面的作用研究不够充分。
我们的工作介绍了一个整合了文本、营养和图像的食品领域多模态知识图谱(MMKG),用于评估问答多样性。不同于之前专注于表示的MMKGs,我们扩展到使用聚类指标(Rousseeuw,1987年;Ros等人,2023年;Ben Ncir等人,2021年)进行问答生成和评估。我们使用BERTScore(Zhang等人,2020年)和语义相似度(Reimers和Gurevych,2019年)评估问答模型(T5-Large(Raffel等人,2020年),Falconsai,LLaVA(刘等人,2024年))。我们的综合方法推进了由MMKG驱动的问答,提高了食品问答数据集中的覆盖范围、公平性和鲁棒性。
本节描述了我们的多模态知识图谱(MMKG)的构建以及用于训练和评估的问答数据集生成。
为了在食品领域实现丰富多样的多模态问答,我们构建了一个知识图谱,它统一了食谱和成分的文本、数值和视觉信息。构建过程分为四个高级步骤:
数据聚合:我们合并了食品成分与食谱数据集(含图片)(Goel, 2020)、食品营养数据集(Dey, 2024)以及外部来源(DBpedia(Auer等人,2007年)、Wikidata(Vrandeic和Krotzsch, 2014年))的数据。
成分标准化:对含糊不清的成分描述进行标准化处理,使用预训练的LLM进行上下文学习,将其转换为规范名称(例如,“2个大鸡蛋清”→“蛋白”)。(详细内容见附录A)
营养丰富化:为每个成分实体附加营养属性——卡路里、脂肪、蛋白质、碳水化合物,以支持关注健康的查询。
图片链接:我们通过Selenium驱动的SPARQL查询检索并过滤成分与食谱的图片,将每个实体与其视觉表现相链接。
最终的多模态知识图谱包括:
表1:多模态知识图谱的汇总统计。
更多实施细节——包括数据预处理规则、用于标准化的LLM提示设计、多线程图片抓取以及RDF模式——在附录A中提供。
我们通过一个平衡精确性和多样性的混合流程生成高质量问答数据集。
我们设计了40个结构化模板,涵盖:食材识别、营养价值、替代品、烹饪方法和视觉菜肴识别。模板源自MMKG实体-关系对,确保事实一致性和领域覆盖。
为了注入语言多样性与多模态推理,我们使用:
● LLaVA:利用MMKG关联的图片生成视觉-语言问答(例如,“这道菜叫什么名字?”)。
● DeepSeek:对模板问题进行释义和扩展(例如,“我可以在这个食谱中用葱替代吗?”),增强对话深度。
后处理确保质量和平衡:
● 去重:移除冗余的问答对。
● 语义聚类:使用TF-IDF和SBERT嵌入均匀分布问题类型。
● 手动策展:过滤掉虚假或无关的问答。
这种混合方法产生了一个多样化、语义丰富且事实准确的问答数据集,为后续多样性分析和模型评估奠定了基础。附录B详细解释了食材标准化和数据集创建的方法论。
我们的多模态食物问答框架有两个主要阶段:(1)统一的文本和图片答案生成,(2)对事实准确性的图片幻觉检测。
对于像“鸡肉汉堡的成分是什么?”这样的食物问题,Meta LLaMA 3.1-8B会生成一个结构化的文本答案,而Stable Diffusion 3.5-Large则从相同的提示中创建一个说明性的图片。在2000个对齐的问答-图片对上进行联合微调,可以将BERT分数提高16.2%,将FID降低37.8%,并将CLIP相似度提高31.1%,从而提升文本-图片联合成功率38.9%(见第5节)。
图1展示了流程:用户查询进入文本模型,其输出会指导图片模型,产生一个连贯的多模态响应。
该系统集成了:
● Meta LLaMA 3.1-8B用于文本生成
● Stable Diffusion 3.5-Large用于图片合成
· 问题:“鸡肉汉堡的成分是什么?”
● 文本回应(LLaMA):“鸡肉汉堡的成分包括鸡肉、面包、沙拉、蛋黄酱、奶酪、番茄、洋葱、黄瓜和番茄酱。”
● 图像回应(稳定扩散):一张合成尺寸的鸡肉汉堡图片。
我们使用LLaVA-1.5-7B在问答一致性框架中检测图像幻觉。真实图像生成只能通过查看图像来回答的问答对。对合成图像提出相同的问题,并使用BERTScore、ROUGE-L和METEOR比较答案,以衡量视觉保真度。
例如,一张展示炸鸡和柠檬楔子的原始图像产生问答对“盘子里是什么食物?——炸鸡和柠檬楔子。”如果合成图像省略了柠檬楔子,LLaVA的答案会反映出这一缺失的细节。在超过2000个测试案例中,这种方法检测出15%的幻觉率。经过模型优化后,不匹配率从35.2%降至7.3%,提升了图像保真度(见第6.2节)。
● 真实图像:炸鸡和柠檬片。
● 生成的问答:“问题”:“盘子里是什么食物?” “答案”:“炸鸡和柠檬片。”
● 在生成的图像上的答案:“炸鸡”
● 结果:部分匹配的答案→没有图像幻觉(但发现细节缺失)。
通过结合统一的文本-图像生成架构和严格的问答驱动的幻觉检查,我们的方法在食品领域提供了既具信息性又值得信赖的多模态答案。
我们联合微调Meta LLaMA 3.1-8B和Stable Diffusion 3.5-Large在2000个问答图像对上。表2显示,BERTScore从0.68提高到0.79(+16.2%),FID从25.4降至15.8(-37.8%),CLIP余弦相似度提高了31.1%。文本-图像的综合成功率从47.5%提高到66.0%,表明更好的多模态一致性。
表2:微调前后联合文本-图像模型的性能。
表3 比较了有无知识图谱增强的问答模型。所有模型都有所提升:LLaVA 的 F1 值从 0.61 提升到 0.71,Falconsai 的 F1 值提高了 7.8%,而 T5-Large 显示出更好的召回率。句子级相似度(表4)显示,使用知识图谱后,Falconsai 的分数翻倍增长,而 LLaVA 在两种设置下均表现优异。
表3:有无知识图谱增强的问答模型的 BERTScore 比较。
表4:使用全MiniLM-L6-v2和全mpnet-base-v2嵌入的问答模型在有无知识图谱增强情况下的句子级语义相似度得分。
表5显示,GPT-4o-mini在2163个FoodQA测试问题上作为强大的纯文本文本基线,具有0.8956的BERTScore和0.8767的Sentence-BERT分数,同时BLEU和ROUGE指标表明其具有强大的n-gram精确度和召回率。
表5:GPT-4o-mini的语义相似度分数、BLEU分数和ROUGE分数。
我们通过三种诊断方法评估了我们的多模态问答系统:问答语料库多样性、文本与图像一致性以及图像提供的权衡。
使用SBERT嵌入和K均值(k=50)对40,000个问答对进行聚类后,我们计算了轮廓系数、Davies-Bouldin指数和Dunn指数(表6)。仅有模板的问题显示出低轮廓系数(0.0254)、高Davies-Bouldin指数(4.7528)和低Dunn指数(0.3773),表明存在冗余。LLM增强的问答提高了轮廓系数(0.4127)、降低了Davies-Bouldin指数(3.2891)并提升了Dunn指数(0.5421),确认了更大的语义多样性。
表6:针对模板与LLM增强问答的基于聚类的多样性指标。
我们使用CLIP相似度评估了1000个问答图像对中的图像-文本不匹配情况,微调后不匹配率从35.2%降至7.3%(表7)。为了检测幻觉,我们使用BERTScore、ROUGE-L和BLEU-1比较了LLaVA-1.5-7B在真实图像与生成图像上的答案。经过改进后,BERTScore从0.81上升到0.92,ROUGE-L从0.35上升到0.47,BLEU-1从0.21上升到0.29,反映出幻觉减少了15%(表8)。
表7:微调前后图像-文本不匹配率。
表8:生成图像上的幻觉检测得分(得分越高,表示幻觉越少)。
我们比较了图像提供的检索、生成和混合策略(表9)。重新检索速度最快(0.15秒,0.71余弦相似度,2.3%幻觉),生成速度最慢(6.8秒,0.75余弦相似度,12.5%幻觉),而我们的混合方法实现了最佳平衡(2.4秒,0.80余弦相似度,5.1%幻觉)。这证实了混合方法有效地平衡了速度、准确性和可靠性,适用于可扩展的多模态问答。
表9:检索、生成和混合策略的对比。
在生成流程中嵌入结构化的多模态知识图谱(MMKG)可以提升多模态问答(QA)的效果。联合微调Meta LLaMA 3.1-8B和Stable Diffusion 3.5-Large模型,可以提高答案准确性、图像质量以及文本与图像的对齐度,整体成功率提升了近40%。混合检索生成策略平衡了精确性和合成性,在中等延迟下实现了0.80的余弦相似度和5.1%的幻觉率。
聚类指标显示,LLM增强的问答对在语义上比仅有模板的问题更加多样化。LLaVA驱动的幻觉检测将图像与文本的不匹配率从35.2%降低到7.3%,并将幻觉率降低了15%。
剩余的挑战包括扩展规模、减少复杂场景中的幻觉以及改进多样性评估。探索模型集成和更稳健的指标是一个有前景的方向。本研究建立了一个可扩展的、基于知识的多模态食品问答方法,未来的工作将致力于MMKG的扩展、实时反馈以及改进偏见缓解。
我们提出了一个统一的食品领域问答框架,结合了大型MMKG(13k个食谱、3k种食材、140k条关系、14k张图片)、混合问答生成(来自模板和LLM的40k对)以及联合文本-图像模型(Meta LLaMA 3.1-8B+ Stable Diffusion 3.5-Large)。微调带来了显著的提升(BERTScore提升16.2%、FID降低37.8%、CLIP对齐度提升31.1%、联合成功率提升38.9%),聚类指标显示语义多样性提高了四倍。诊断技术将图像与文本的不匹配率降至7.3%的准确率提升和15%的幻觉减少,而混合检索生成策略实现了0.80的对齐度、2.4秒的延迟和5.1%的幻觉。
未来的工作包括:
● 规模与覆盖度:将MMKG和问答数据集扩展到超过50,000个条目,包含更多样化的食谱和成分。
● 高级多样性指标:使用基于变压器的聚类和主题建模进行更深层次的语义理解。
● 交互式检索:开发增强检索的流程,用于动态获取知识图谱子图。
● 幻觉缓解:应用对比性视觉语言预训练和多目标检测。
● 偏见与公平性:审计并缓解文化、饮食和性别偏见。
● 以用户为中心的评估:进行涉及人类参与的研究,以评估答案质量、图像真实性和可用性。
尽管我们的统一多模态问答框架取得了强劲的性能提升,但它存在一些限制。Meta LLaMA 3.1-8B和Stable Diffusion 3.5-Large的联合微调依赖于大量成对的问答对和图片以及高端GPU资源,这可能限制了可复现性和在标注示例较少的领域的扩展性。
基于LLaVA-1.5-7B问答一致性的幻觉检测机制,严重依赖于生成问题的质量和特异性;歧义或模型错误可能导致误报或漏报,并且对于边缘案例需要手动验证。同样,混合检索生成策略依赖于一个必须仔细调整的置信度阈值,且可能无法无缝地推广到新的菜系或视觉风格,除非进一步校准。
我们的多样性评估和评价指标——轮廓系数、Davies-Bouldin 指数、邓恩指数、BERT分数、FID、CLIP余弦相似度、BLEU 和 ROUGE——提供了定量见解,但并未完全捕捉人类对问题新颖性、图像真实性或感知连贯性的判断。需要定性用户研究和更细致的语义指标来验证这些发现于实际环境中的适用性。
最后,我们的实验覆盖了多达15K张图片和40K个问答对;将流程扩展至更大或更多样化的数据集将需要对数据摄取、索引和实时推理流程进行优化。解决这些挑战对于在食品领域及其他领域部署真正健壮、大规模的多模态问答系统至关重要。
本附录提供了第3.1节中描述的MMKG构建过程的扩展说明,重点在于每个阶段的理论依据、方法和定性结果。
我们整合了四个主要数据源:(1)带有图片的食谱数据集,(2)营养事实数据集,(3)DBpedia和(4)维基百科。对条目进行了规范化处理——去除数量和单位,字符串转为小写,并消除重复项。例如,“2个大鸡蛋清”和“鸡蛋清(2片)”都规范为“蛋白”。对500条随机记录进行手动检查,确认名称规范的一致性超过95%。
原始原料描述在同义词、修饰词和复合术语方面表现出高度变异性。我们采用一种上下文学习方法,配合大型语言模型来解决这些歧义。
示例:“新鲜细切罗勒叶”“罗勒”
示例:“去皮去骨鸡胸肉”“鸡胸肉”
在500种成分的验证样本中,LLM辅助标准化准确率为95%,而基于规则的启发式方法准确率为78%,大幅减少了下游实体碎片化。
营养值(卡路里、脂肪、蛋白质、碳水化合物)与每个标准化成分相关联。这使得可以进行如下查询:
“哪些成分每份量超过10克蛋白质?”
对200种成分进行定性审查,其中98%的成分其营养值与来源表格匹配,支持可靠的饮食计划查询。
我们通过SPARQL从DBpedia/Wikidata和烹饪资源库中检索成分和食谱的图片。相关性检查过滤掉了非食品内容(如品牌标志)和低分辨率图片。
· 示例链接:“香草麦片” → bulgur-with-herbs-354978.jpg
● 示例链接:“豌豆黄油” → spring-pea-butter.jpg
对300个随机抽样的链接进行手动评估,在关联正确的菜肴图片方面显示出96%的精确度,确保多模态问答的视觉可靠性。
实体和关系被编码为RDF三元组。关键关系包括hasIngredient(含有成分)、calories(卡路里)和imagePath(图片路径)。
· 示例三元组:<Recipe123><hasIngredient><Ingredient456>
● 示例属性:<Ingredient456><calories>"52"8sd:float
覆盖统计(表1)确认了图的规模和互联性:13000个食谱、3000种成分、140000个关系和14000张图片。
丰富的MMKG极大地提升了问答生成和检索的效果:
● 基于模板的问答现在能精确引用营养和视觉属性(例如,“鳄梨的脂肪含量是多少?”会返回“15克”以及一张鳄梨的图片)。
● 视觉语言问答任务(LLaVA)能够正确识别视觉细节(例如,“酱汁是什么颜色?”柠檬黄油酱的答案为“鲜黄色”)。
对试点界面的用户反馈显示,结合文本和图片的回答提高了答案的清晰度和用户的信任度。
这一详细的分析强调了MMKG所采用的严谨方法和强大的定性成果,为所有后续的问答和生成实验奠定了坚实的基础。
我们的MMQA系统自动创建多样的问答对,并生成多模态回答。
我们根据知识图谱实体关系制作了20个一跳模板和20个两跳模板:
·“{食物项}的主要成分是什么?”
●“我应该如何储存{成分}?”
●“{食物项}适合素食饮食吗?”
●“制作{食物项}需要哪些成分,它们的营养价值是什么?”
●“用{替代品}替换{成分}会如何影响{食物项}的营养成分?”
每个模板通过替换MMKG中的实体名称进行程序化实例化。对于一跳模板,我们直接查询知识图谱节点属性(例如,“卡路里含量”问题的卡路里值)。两跳模板需要遍历关系(例如,通过hasIngredient链接的成分)并聚合属性。
对于每个生成的问答对,我们将存储在MMKG中的相应图片附上:
● 通过imagePath属性检索到的图片。
这使我们能够生成如下响应:
问题:“你是如何准备印度薄饼的?”
答案:“将发酵的米饭和扁豆面糊放在热锅上煎至金黄色;折叠后与腌菜一起食用。”
图片:
我们的流程自动化了问答生成和响应组装:
用知识图谱实体实例化模板。
执行SPARQL查询以获取答案和图片路径。
后处理输出:去重、基于聚类的过滤以及人工验证。
这一端到端的工作流程确保了数据集中40K+个问答对的可扩展性和一致性。
我们手动检查了100个随机问答对的子集,以评估语言多样性和事实正确性:
● 模板问答:高度精确但重复的措辞(例如,“什么是……的脂肪含量”)。
● 大语言模型增强问答:更丰富的变化(例如,“我可以用黄油替换这个食谱中的椰子油吗?”),同时保持事实一致性。
● 视觉问答:如“酱汁是什么颜色?”之类的问题。展示了图像链接查询的实用性。
这些观察结果证实,我们的混合方法平衡了控制和多样性,生成的问答对既可靠又多样。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-07-13
多模态商品图文生成系统可落地的完整方案
2025-07-08
Coze、Dify、Ragflow等AI平台对比指南
2025-07-02
基于 Ollama 多模态引擎的 Qwen 2.5 VL 模型部署及其应用
2025-07-01
Dify落地知识库场景的小思考及多模态RAG结合图像信息的几种策略评估
2025-06-30
RAG知识库构建新框架-EasyDoc小模型+多模态大模型结合的文档智能解析框架
2025-06-23
Dify v1.4.0中的Multi-Modal LLM Output:基本操作和原理
2025-06-19
搜索 ≠ 简单匹配!0代码实现语义级图文互搜
2025-06-11
AI提效99.5%!英国政府联手 Gemini,破解城市规划审批困局
2025-05-14
2025-04-27
2025-04-28
2025-05-16
2025-05-16
2025-05-25
2025-05-08
2025-05-15
2025-05-12
2025-05-13