微信扫码
添加专属顾问
我要投稿
Meta最新研究颠覆认知:思维链质量不取决于长度,而在于"少走弯路"的失败步骤比例(FSF)。核心内容:1. 研究揭示思维链有效性的关键指标——失败步骤比例(FSF)2. 挑战"越长越好"的传统假设,提出质量导向新范式3. 高质量推理结构可提升12.3%准确率并节省计算资源
🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。
“ Meta最新研究揭示:有效思维链的关键不是“想得多”,而是“错得少”。失败步骤比例(FSF)成为预测推理准确率的最强指标,为AI推理质量评估与优化指明新方向。”
大家好,我是肆〇柒。你是否有过类似的困惑:为什么AI有时思考几千字却答错,而简短推理反而更准?来自 Meta Superintelligence Labs 与 纽约大学 的最新研究,系统评估了10个大型推理模型在数学与科学任务中的思维链表现,发现真正决定推理质量的并非长度或回顾行为,而是一个被长期忽视的结构指标——失败步骤比例(Failed-Step Fraction, FSF)。这项工作不仅颠覆了“越长越好”的直觉,更为测试时推理优化提供了可落地的新范式。
当你向AI提问时,是否经常遇到这样的情况:模型生成了冗长的思考过程,最终却给出错误答案?而有时简短的思考反而更准确?这项研究揭示了背后的原因——有效推理的关键不在于思考多久,而在于"少走弯路"。对于每天与AI交互的开发者和用户,这意味着我们可以从"追求更长思维链"转向"追求更高质量的推理结构",不仅提升准确率(最高可达12.3%),还能显著减少计算资源消耗。
想象一下这个场景:面对同一道数学题,Claude 3.7生成的5000字符思维链可能给出错误答案,而另一段仅2000字符的思维链却能准确解决问题。是什么决定了这种差异?这一现象挑战了当前大型推理模型(Large Reasoning Models, LRM)领域中的一个核心假设:思维链(CoT)越长,推理质量越高。
为什么在控制问题级别因素后,较短的思维链通常与更高准确率相关?这挑战了我们对"思考越久越好"的直觉认知。一个可能的解释是:较长的思维链往往包含更多探索无效路径的"弯路",这些弯路不仅消耗计算资源,还会偏置后续推理方向,使模型更难找到正确答案。这引出了一个关键问题:我们如何区分"有价值的深入思考"与"无谓的反复试错"?
近年来,随着LRMs的兴起,测试时计算规模扩展成为提升推理能力的关键策略。S1方法报告称,通过向生成过程附加"wait"令牌可以增加测试时计算,从而提升推理性能。这种方法鼓励模型生成更长的思维链并增加回顾(Review)行为,包括检查、验证或回溯先前步骤。然而,最近研究对此提出了质疑,指出过长的思维链反而可能导致性能下降,甚至出现振荡表现。
这些相互矛盾的发现引发了核心问题:什么真正表征了有效的推理?是长度、结构,还是其他更深层的特征?为系统解答这一问题,研究者对10个大型推理模型在数学与科学推理任务上进行了全面评估,挑战了"越长越好"的传统假设,并揭示了预测推理质量的更可靠指标。这项研究不仅澄清了关于思维链长度的争议,还为测试时扩展策略提供了新的质量导向视角。
要准确评估思维链特征与推理性能的关系,必须解决一个关键挑战:问题难度的混杂效应。例如,难题可能需要更长的思维链且准确率更低,这会导致长度与准确率之间出现虚假正相关。为解决这一问题,研究者采用了条件相关性分析方法。
研究使用了两个互补的数据集:HARP数学数据集和GPQA-Diamond科学推理数据集。HARP包含5,409道来自美国数学竞赛的题目,分为6个难度级别;研究者从中每个级别抽取50道题进行分析。GPQA-Diamond包含198道科学推理题,同样有人类标注的难度级别。这种设计使研究能够评估指标在不同领域和难度级别上的稳健性。
具体而言,研究者为每个问题生成16条思维链,然后减去问题级别的均值,分析残差相关性。这种方法控制了问题级别的混杂因素,确保观察到的相关性反映的是同一问题内不同生成之间的差异,而非问题难度本身的效应。为验证这一方法的可靠性,研究者还采用了贝叶斯广义线性混合效应模型(GLMM)进行交叉验证,结果高度一致。
条件相关性分析类似于医学研究中的"病例对照"设计。想象我们要研究运动与健康的关系,但年龄是一个混杂因素(老年人运动少且健康状况较差)。简单相关性可能显示运动与健康负相关,但这只是因为老年人既运动少又健康差。条件相关性分析则是在相同年龄段内比较不同运动量的人,从而隔离年龄的影响。同样,在思维链研究中,条件相关性分析通过为每个问题生成多条思维链并减去问题级均值,确保观察到的是同一问题内不同生成之间的差异,而非问题难度本身的效应。
上图展示了GLMM系数估计结果,与条件相关性分析高度一致:每当条件相关性分析标记出显著效应时,GLMM都会产生相同符号和显著性的系数。这种一致性为研究发现提供了第二条证据线,增强了结论的可信度。特别值得注意的是,FSF在所有模型和数据集上均显示出显著的负相关,而其他指标的相关性则因模型和任务而异。
研究定义了三个关键指标,确保跨模型比较的公平性:
上表提供了混淆矩阵,详细展示了标注的可靠性。当将review视为正类时,该流程展现出低类型I错误率——将progress误判为review的比例仅为1.2%。这一低误报率至关重要,因为它确保了Review Ratio指标的准确性:我们几乎不会将推进推理的步骤错误地归类为回顾行为。研究者允许模型将部分review误判为progress,因为这为review提供了一个下限估计,避免了过度高估回顾行为。
通过人工验证,Maverick模型的标注与人类标签达到90%的一致性。基于此,研究定义了回顾比例(Review Ratio):回顾字符数/总字符数。
上图展示了思维链的自然语言表达与结构化图表示之间的对应关系。值得注意的是,研究中的"失败尝试"标签是局部推理轨迹中的放弃分支,而非对步骤正确性的绝对判断。这意味着一个最终正确的思维链可能包含多个局部失败尝试,这些尝试代表模型在探索不同推理路径时的"试错"过程。如图所示,一个包含16个步骤的思维链中有5个失败步骤(标记为粉色节点),FSF为5/16=31.25%。关键发现是:即使最终答案正确,"弯路"过多也会降低推理效率——因为找到正确路径的概率随失败尝试的增加而降低。这提示我们:有效的推理不是"思考多久",而是"少走弯路"。
基于此图表示,研究定义了失败步骤比例(Failed-Step Fraction, FSF):失败节点数/总节点数。这一指标捕捉了推理过程中探索无效路径的程度,为理解思维链质量提供了结构视角。
条件相关性分析揭示了令人惊讶的模式:在同一问题内,较短的思维链通常与更高的准确率相关。在HARP数学数据集上,10个模型中有9个显示长度与准确率显著负相关(p≤0.001);在GPQA-Diamond科学推理数据集上,这一比例为8/10。
类似地,回顾比例也表现出负相关性:9/10的模型中,较低的Review Ratio与更高的准确率相关。唯一的例外是Claude 3.7在数学推理任务中显示Review Ratio与准确率的正相关,但在科学推理任务中仍遵循负相关模式。
这些相关性在更难的问题上更为显著。在HARP Level-6(最难级别)上,所有模型都显示出显著的负相关;在GPQA的Hard Graduate级别上,相关性比Hard Undergraduate级别更强。这表明在解决复杂问题时,简洁高效的推理路径比冗长的试错过程更为重要。
上图揭示了一个关键模式:Failed-Step Fraction(FSF)在所有10个模型和两个数据集上均显示显著负相关(深色单元格),而Length和Review Ratio的相关性则因模型和任务而异。特别值得注意的是,即使在Claude 3.7这种在数学推理中显示Review Ratio正相关的模型中,FSF仍稳定预测其性能。这表明FSF捕捉了比表面指标更深层的推理质量特征。FSF之所以优于Length和Review Ratio,关键在于它直接捕捉了推理过程中探索无效路径的程度。Length可能因模型风格而异——某些模型天生更简洁,某些则更冗长;Review Ratio可能反映模型的验证习惯,而非推理质量。而FSF则直接度量了推理过程中的"弯路"数量,这些弯路不仅消耗计算资源,还会偏置后续推理方向。
这些token级指标的相关性模式提示我们:Length和Review Ratio可能是更深层结构属性的表面代理。为探究这一假设,研究者引入了思维链图表示法,将自然语言推理转换为结构化图,从而能够评估图级指标。
研究的核心发现是失败步骤比例(FSF)作为推理质量预测指标的优越性。FSF衡量的是推理图中被标记为失败/放弃分支的节点比例,它捕捉了推理过程中探索无效路径的程度。
FSF展现出惊人的稳健性:在10个模型和2个数据集上的所有条件下,FSF与准确率均显示显著负相关(p≤0.001)。即使在Claude 3.7这种在Review Ratio上表现异常的模型中,FSF仍稳定预测其性能。
研究还评估了其他图级指标,包括恢复效率(Recovery Efficiency)、分支质量(Branching Quality)、信息级联(Information Cascade)等。这些指标定义如下:
下图进一步证实了这一点:其他图级指标在许多模型上表现出非平凡相关性,但效果明显弱于FSF;且相关性在数学推理任务中一致显著,但在科学推理任务中稀疏,表明这些指标的泛化能力不如FSF。这进一步凸显了FSF作为核心结构指标的优势。
研究还考察了进步性(Progressiveness)和答案熵(Entropy)作为推理质量指标的潜力。通过在CoT的不同截断点(0%、25%、50%、75%)提示模型给出最终答案,研究者测量了答案置信度的变化。结果发现,无论最终答案是否正确,模型在推理结束时都表现出低熵(高置信度)——即使错误也表现得很自信。此外,在同一问题内,较短CoT组在所有截断率下都比长CoT组具有更高准确率,这再次支持了"短而聚焦"优于"长而曲折"的核心发现。
为验证FSF是否具有因果效应,研究者设计了测试时选择实验。对于AIME-2025(30道题)和GPQA-Diamond的每个问题,他们生成64条独立思维链,然后基于不同指标对这些候选进行排序,选择top-1结果。
实验比较了四种选择器:(i)FSF(越低越好),(ii)长度(越短越好),(iii)Review Ratio(越低越好,Claude 3.7除外),(iv)随机选择。结果显示,FSF选择器在所有模型和数据集上表现最佳。
为深入探究FSF影响性能的机制,研究者进行了受控的思维链编辑实验。他们识别出80条DeepSeek R1和160条GPT oss 120B的错误思维链中的失败分支起点,然后创建三种变体:
对每种变体,研究者进行8次延续生成以可靠评估准确率,共执行11,520次延续生成。结果显示,移除失败分支显著提高了准确率:
提供失败分支的简短摘要也能提高准确率,但效果不如完全移除失败分支。这一发现表明,模型无法完全"忘记"先前的错误:即使回溯后,错误路径仍会偏置后续探索方向。
CoT编辑实验揭示了一个关键机制:模型无法完全"忘记"先前的错误路径。当模型回溯并尝试新路径时,它无法完全"重置"其推理状态。编辑实验显示,仅移除失败分支就能使Deepseek R1的准确率从20.89%提升至28.14%(+7.25%),GPT oss 120B从28.05%提升至36.41%(+8.36%)。提供失败分支的简短摘要也能提高准确率,但效果不如完全移除,这表明错误路径的影响程度与其在上下文中的存在形式相关。研究还考察了"首次失败步骤深度"(First Failed Step Depth)与准确率的关系,发现相关性很弱,这表明是失败尝试的存在和数量,而非它们发生的时间点,对性能产生负面影响。这一观察支持了FSF作为关键指标的合理性。
作为补充证据,研究者还进行了CoT截断实验(如下图):在CoT的不同位置(0%、25%、50%、75%)截断并提示模型给出答案。结果发现,无论最终答案是否正确,模型在推理结束时都表现出高置信度(低熵);更重要的是,在同一问题内,较短CoT组在所有截断点都比长CoT组具有更高准确率。这一发现与编辑实验共同支持:推理质量的关键不在于长度,而在于避免无效路径。
研究揭示了有效推理的几个关键特征:
首先,有效思维链的关键不是长度,而是失败步骤少。较短的思维链往往更聚焦,避免了探索失败路径;高质量的推理表现为"直奔主题"而非"反复试错"。这解释了为什么在控制问题级别因素后,较短的思维链通常与更高准确率相关。
想象你在解一道数学题,尝试了三种方法,前两种失败,第三种成功。从结果看,你最终得到了正确答案;但从过程看,你走了两条"弯路"。FSF衡量的正是这种"弯路"的比例。关键发现是:即使最终答案正确,"弯路"过多也会降低推理效率——因为找到正确路径的概率随失败尝试的增加而降低。这提示我们:有效的推理不是"思考多久",而是"少走弯路"。
其次,模型无法完全"忘记"错误路径,失败分支会持续影响后续推理。编辑实验证明,即使移除失败分支,模型也能更有效地找到正确答案。失败分支的存在本身就偏置了后续推理方向,降低了找到正确路径的概率。
第三,基于FSF的测试时选择比随机选择平均提升5-13%的准确率,在AIME-2025上最高可达12.3%。这种提升在所有10个模型上一致出现,表明FSF作为推理质量指标的普适性。
最后,简单移除失败分支即可显著提高推理质量,无需增加额外计算。这一发现为测试时扩展提供了新思路:质量优于数量。与其无差别地生成长思维链,不如关注推理结构的质量,特别是减少失败尝试的比例。
研究还考察了动机水平(Motivation Score)这一指标,它衡量模型在回顾行为中是否表现出清晰目标。具体而言,对于每个回顾块,研究者根据其动机明确性分为三类:
动机分数按字符级别计算:review字符中清晰动作为1.0,半清晰为0.5,不清晰为0。然而,相关性分析显示,动机水平与准确率的关系在不同模型间不一致,这表明虽然对人类推理很重要,但对LRMs而言并非一致的性能预测指标。
尽管FSF展现出跨模型的稳健性,研究也揭示了一些模型特定的行为模式。Claude 3.7作为唯一在数学推理中显示Review Ratio正相关的模型,其行为模式值得特别关注。
Claude 3.7是唯一在数学推理任务中显示Review Ratio与准确率正相关的模型,但在科学推理任务中仍遵循负相关模式。不过,FSF对Claude 3.7的表现仍有稳定预测力,证明了其普适性。
研究还考察了其他特征,如动机水平(Motivation Score)、回顾位置(Review Centroid)等,发现它们表现出较强的模型依赖性。某些模型倾向于"过度验证"(over-verify),但若最终解决问题则不影响准确率。这表明,风格特征(如长度和Review Ratio)往往是模型特定的,而结构特征(FSF)更能跨模型预测性能。
研究存在几个重要局限。首先,所有相关性都是在测试时测量的,如何在训练中引导低FSF推理行为仍不清楚。当前LRMs主要通过强化学习从可验证奖励中学习(Reinforcement Learning from Verifiable Reward),但这种训练可能过度拟合特定问题模式,导致在HARP数据集上Qwen模型表现出异常行为(下图)。未来工作需探索如何在训练中直接优化推理结构质量,而不仅仅是最终答案正确性。
其次,研究假设给定的思维链反映了模型的真实推理,但思维链的忠实度问题可能影响结果解释。CoT可能并不总是真实反映模型的内部推理过程。
未来应更进一步研究:
这项研究从根本上挑战了"越长越好"的关于思维链的认知,揭示了有效推理的真正特征:失败步骤少而非长度长。短而聚焦的思维链通常优于长而曲折的推理,因为后者包含更多可能偏置后续探索的失败路径。
失败步骤比例(FSF)被证明是预测推理质量的最稳健指标,超越了长度和Review Ratio等表面指标。这一发现为测试时扩展提供了新的质量导向视角:与其盲目增加测试时计算,不如关注推理结构的质量。
这项研究从根本上重新定义了有效推理的特征:有效思维链的关键不是长度,而是失败步骤少。这一发现对实践具有直接指导意义:
实践上,这一研究建议采用质量导向的测试时扩展策略:
具体实施路径可包括:(1)在生成过程中实时检测失败分支起点,当FSF超过阈值时触发分支修剪;(2)使用轻量级模型(如Claude 3.7)快速评估候选CoT的FSF,优先选择低FSF路径;(3)开发针对性的失败分支摘要机制,在保留关键信息的同时减少错误路径影响。这些策略可在不显著增加计算成本的情况下提升推理质量,实现"质量优先"的测试时扩展范式。
这种方法不仅能提高准确率(平均提升5-13%),还能减少计算资源消耗,提升用户体验。在大型推理模型日益依赖测试时计算的背景下,这一"质量优先"原则具有重要实践意义。
理论层面,研究标志着从"测试时计算量"范式向"推理结构质量"范式的转变,为理解大型推理模型的内部工作机制提供了新视角。未来推理模型的开发应关注避免失败路径的推理策略、有效管理错误传播的机制,以及结构感知的测试时扩展方法。
总之,这项研究告诉我们:在推理的世界里,少即是多。有效的思维不在于思考多久,而在于避免无效的弯路。当大型推理模型学会"少走弯路"时,它们的推理能力将实现质的飞跃。各位,看过此文有什么感想?如有其他想法可以在评论区留言,我们聊聊。或者加入“觉察流”社区群,与群里的小伙伴一起学习、交流。加入方法,私信回复“入群”“加群”即可。
如果你关注AI大模型相关的技术,可以点击订阅主题👉“AI模型”。
参考资料
#觉察流 #AI全栈 #AI论文 #AI社区 #开源 #开源项目 #思维链#CoT #失败步骤比例 #FSF #推理质量 #测试时扩展 #大型推理模型 #LLM #Meta #结构化推理
关联阅读
◆Agent的三大训练法则" data-itemshowtype="0" linktype="text" data-linktype="2">8B模型为何能打败GPT-4o?UserRL揭秘“用户中心”Agent的三大训练法则
◆效率与性能的平衡:DeepSeek-V3.2-Exp 用稀疏注意力将长上下文成本砍掉85%
◆30小时持续编码、0%错误率:Claude Sonnet 4.5 的技术突破与实战价值
◆无标签进化:EVOL-RL用“多数选择+新颖变异”破解大模型“熵坍缩”困局
◆从探索到验证:Parallel-R1 如何塑造大模型的"思考"哲学
◆月之暗面之 kimi 更新!模型厂的 chatbot agent 化
◆WebResearcher:从线性累积到迭代进化,重塑AI研究范式的三大支柱
◆WebWeaver:一个模仿人类思维的AI研究员是如何炼成的?
◆超越规模神话:WebSailor-V2 的数据-环境协同之道
◆从AgentFounder看未来:智能体基础模型的崛起与"持续预训练"新范式
◆环境即智能:从AgentScaler看下一代AI智能体的进化论
◆🔥3B小模型吊打32B大模型?BAAI 的新研究 InfoSeek 数据炼金术
◆告别碎片化训练:VERLTOOL开源如何塑造工具使用型LLM的强化学习
◆统一视角下的HPT:动态融合SFT与RL,释放LLM后训练新潜能
◆"顿悟"会传染,94%性能跃升:SAPO如何用“共享经验”重构小模型RL训练
◆🔥OpenAI 论文:为什么AI宁可胡说也不说“我不知道”?
◆牛津&SH AI lab万字综述:Agentic RL——下一代企业级AI智能体的终极路线图
◆Curtains up 🎭 Meet Qwen3-Next
◆IJRR2025|万字长文解读视觉RL在多目标操作中的痛点与ASIMO的突破
◆🔥维度的囚笼:Embedding 检索模型无法逾越的数学边界
◆150秒的叙事革命:AudioStory如何用“解耦思维”重塑长篇音频生成
◆🔥从"调用工具"到"思考策略":Chain-of-Agents实现智能体技术的临界点突破
◆工具集成推理(TIR)的认知革命:当大模型学会“与工具协同思考”
◆🔥记忆即智能,无需微调LLM:Memento重新定义LLM智能体学习范式
◆🔥微软 Agent Lightning:零代码接入RL,“解耦”任何AI Agent学会“在实践中学习”
◆GPT-5空间智能大考:简单任务称王,复杂挑战平手,所有模型都输给了人类(万字)
◆MiroMind-M1:如何用CAMPO算法打造高效且可复现的全栈开源推理模型(万字)
◆CoT 的边界:模式匹配还是逻辑推理?数据分布如何决定CoT的成败
◆🔥GPT-5 不止于性能:System Card 中的专业评估新范式(万字)
◆🔥OpenAI 真开源!全新开源模型 GPT-OSS 系列的模型卡解读!
◆🔥思考越久越危险:AI安全中的Inference-time计算悖论
◆可验证、可泛化、可信赖:CompassJudger-2的"可验证奖励"如何炼成通用判断新范式(万字)
◆领导者的认知跃迁:MLPO如何通过多智能体训练实现能力突破
◆🔥Routine:把 GPT-4o 准确率从 41% 拉到 96% 的企业级 Agent 稳定器(万字)
◆从自然语言到“胡言乱语”:PROMPTQUINE 框架的Prompt进化术
◆OctoThinker:借“中期训练”之力,缩小 Llama 和 Qwen 模型的差距
◆终结奖励欺骗?Google Deepmind 提出 Crome 框架(万字)
◆Skywork-Reward-V2:人类-AI协同创新,解锁奖励模型新潜力
◆模型合并 之 PMA 策略:大型语言模型预训练的 “加速引擎”
◆AgentRM 奖励建模:智能体泛化能力的“导航仪”与“加速器”(万字)
◆🔥AM-Thinking-v1:解锁 32B 模型推理潜力的密码(万字)
◆ALPHAONE(α1):LRM 自适应推理效率与准确性的平衡之道
◆🔥AutoRefine:RL加持RAG,边想边搜并精炼,革新LLM推理(万字)
◆🔥当异常奖励遇上 AI 推理:一场意料之外的智力提升(万字)
◆IBM 研究:可验证奖励强化学习(RLVR)通过 GRPO 提升模型推理能力(万字)
◆🔥并行扩展(Parallel Scaling):一种新型语言模型扩展范式(万字)
◆Windsurf 发 SWE-1:以数据+智能飞轮驱动软件工程 AI 进化
◆智能体式推理与工具集成:ARTIST 基于强化学习的新思路(万字)
◆交互式生成视频(IGV):重塑游戏、智能与驾驶的交互革命(二万字长文)
◆🔥OpenAI发布:企业AI落地指南——应用场景识别与规模化应用策略
◆🔥OpenAI 发布企业 AI 集成技术手册:从评估到自动化
◆SQL-R1-7B:用强化学习优化复杂SQL查询,性能比肩32B模型
◆🔥GLM-4 开源32B推理模型,OpenAI 发布 GPT-4.1
◆Thinking Intervention:掌控 AI 思考推理的新范式
◆🔥Llama 4 发布:10M 长上下文,MOE,多模态,2 万亿总参数 SOTA 是亮点
◆Claude 3.7 Sonnet:AI 如何重塑劳动市场与经济格局
◆MCP!Anthropic 疑将发 500K 上下文 Claude Sonnet3.7 ?" data-itemshowtype="8" linktype="text" data-linktype="2">🚀重磅!千问体验站即将接入 MCP!Anthropic 疑将发 500K 上下文 Claude Sonnet3.7 ?
◆CompassJudger-1:AI模型Judger的全栈解决方案(万字长文)
◆🏃LoRA 微调:如何在不损害 LLM 的情况下添加新知识
注:本文素材由AI辅助翻译,内容由人工整理/审核发出
欢迎点 、加
、关注。公号加⭐️精彩不错过
我是肆〇柒🐝,一名热爱AI的互联网人。在这里,我分享自己的观察与思考,希望我的探索能激发同样热爱科技与生活的你,为你带来灵感与思考。
期待我们的不期而遇。点击👇🏻关注
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-07
今天聊一聊Context Engineering
2025-10-07
Anthropic官方站台,颠覆认知:给模型"松绑",它反而更听话
2025-10-07
OpenAI 刚刚发布了「AI 原生版」抖音,还有 Sora 2
2025-10-07
实测腾讯版Claude Code,能微信登陆,还能用GPT5、Claude4和Gemini 2.5 pro御三家
2025-10-07
OpenAI 开发者大会DevDay 2025发布了什么?
2025-10-07
大开放!OpenAI 开发者日 2025 S开幕主题演讲精要
2025-10-07
看完OpenAI发布会,我悟了:大模型公司正在谋杀AI创业公司
2025-10-07
一文读懂OpenAI DevDay:应用、Agent、代码三连击,勾勒AI商业帝国的统治蓝图
2025-08-21
2025-08-21
2025-08-19
2025-09-16
2025-07-29
2025-09-08
2025-08-19
2025-09-17
2025-09-29
2025-08-20
2025-10-07
2025-10-04
2025-09-30
2025-09-29
2025-09-28
2025-09-27
2025-09-27
2025-09-25