文/国金证券股份有限公司首席信息官 王洪涛
国金证券股份有限公司科技研发部总经理 熊友根
国金证券股份有限公司科技研发部人工智能实验室 李双宏 李增鹏
国金证券股份有限公司信息技术部 李卓
在当今快速发展的人工智能时代,尤其是以大语言模型为代表的AIGC技术的广泛应用,已深刻改变了各行业的运营模式。证券行业作为高度依赖数据处理与分析的领域,面临着算力需求激增的局面。然而,算力资源的供给不足、供需匹配难度加大及能耗问题的日益突出,已成为影响行业稳定运行与创新发展的瓶颈。因此,如何实现高效、可持续的算力管理与应用,成为推动证券行业高质量发展的关键挑战。
为应对这一挑战,工业和信息化部联合多个部门发布了《算力基础设施高质量发展行动计划》,为算力产业的质量提升提供了政策指导。这一行动计划的出台,不仅为证券公司在算力基础设施方面的发展提供了明确方向,也为算力评估提供了实践框架。通过对大模型推理性能的全面评测,可以精确优化资源配置、提升算力使用效率,并有效降低能耗,助力证券行业实现可持续发展,迎接数字化转型和智能化升级的时代。
在这一背景下,人工智能技术特别是大模型的应用,正在以前所未有的深度与广度,推动证券行业迎来新的变革。DeepSeek大模型作为由深度求索公司推出的高性能、低成本开源大模型,凭借其在性能上的突出表现,尤其是DeepSeek-R1版本已达到与OpenAI GPT-4相媲美的水平,并显著降低了部署成本,受到全球范围内的关注。国金证券依托自身在金融科技领域的技术积累,积极拥抱人工智能的技术变革,推动DeepSeek-R1模型在多个业务场景中的本地化部署,包括信息检索、文档处理、行业研究与市场研判等,同时计划进一步拓展至智能服务、风险管理、投资分析等核心业务领域,全面提升公司智能化运营水平,创造更大投资价值。
因此,算力评估实践与DeepSeek大模型的训练与应用探索,对于证券行业的转型升级具有深远意义。它不仅能够帮助合理配置算力资源、提升算力利用效率,还能通过金融科技的创新突破传统证券业务的局限,提升业务响应速度和处理精度,助力证券行业在全球竞争中脱颖而出。通过深入挖掘大模型的潜力,证券公司将能够在智能化转型的浪潮中抢占先机,为行业创新发展注入源源不断的活力,从而推动行业迈向高质量发展的新阶段。

国金证券股份有限公司首席信息官 王洪涛
推动算力赋能,综合评估算力资源性能
在人工智能技术高速发展的背景下,大模型的广泛应用使得证券公司对计算资源的依赖不断加大。国金证券的数字化转型目标是“融合业务,平台赋能,打造一流券商科技组织”。为进一步强化AI中台能力,国金证券积极利用大模型等人工智能技术,提升运营效率,赋能业务发展。国金证券全面展开算力资源性能测试,旨在探究不同GPU显卡在部署以DeepSeek-R1-Distill-7B为代表的大模型时的性能表现,以评估其是否能够满足高性能计算需求。在多种英伟达服务器以及信创服务器上,验证DeepSeek-R1-Distill-7B大模型的兼容性,评估DeepSeek-R1-Distill-7B大模型的性能指标。
在A品牌信创GPU型号1、A品牌信创GPU型号2、B品牌信创GPU型号1、英伟达GPU型号1、英伟达GPU型号2、英伟达GPU型号3上,不同调用次数下DeepSeek-R1-Distill-7B大模型的响应时间、回答长度测试结果如表1所示。
表1 不同GPU型号DeepSeek-R1-Distill-7B大模型推理性能测试结果

基于上述实验结果,在单卡/单服务器环境下,以单次调用平均响应时间作为性能指标,以英伟达服务器1的单卡性能作为参照(按100%计),DeepSeek-R1-Distill-7B大模型的性能对比情况如表2所示。
表2 单卡/单服务器环境下性能对比

总结,经过以上测试可以看出,英伟达GPU型号1性能最强,信创A品牌GPU型号2表现良好,性能稳定在英伟达GPU型号1性能的90%左右,英伟达GPU型号2、GPU型号3和信创B品牌GPU型号1的性能稍低,能够满足基本需求。由此可见,信创自主可控算力资源已接近当前国际主流高性能算力水平,若加以合理应用,完全有能力满足高性能大模型推理的需求。
利用加速框架,DeepSeek速度和算力利用率提升
在人工智能技术迅猛发展的背景下,大型模型的应用日益广泛,证券行业对高性能计算资源的需求随之显著增长。作为行业的重要参与者,国金证券正通过推进数字化转型来实现其战略目标,即利用“业务融合、平台赋能”的策略构建一个领先的券商科技组织。为比较Ollama、vLLM与Safetensors部署方案在部署DeepSeek-R1-Distill-7B时的性能差异,通过评估计算资源利用率及模型响应时间等关键参数,分析在高性能计算任务中的实际效能。
1. 推理框架测试过程
本文分别在基于Safetensors格式、Ollama框架、vLLM框架本地化部署的环境下,验证了DeepSeek-R1-Distill-7B大模型的兼容性,并评估DeepSeek-R1-Distill-7B大模型的主要性能指标。
以DeepSeek-R1-Distill-7B大模型为例,通过重复调用大模型接口测试其响应时间。在不同调用次数或并发量下,基于Safetensors格式、Ollama框架、vLLM框架部署的DeepSeek-R1-Distill-7B大模型的响应时间、单次调用平均响应时间,以及回答长度测试结果分别如表3和表4所示。
表3 不同部署方式DeepSeek-R1-Distill-7B串行测试结果

表4 不同部署方式DeepSeek-R1-Distill-7B并行测试结果

2. 大模型推理方式测试结果
串行结果对比 :在单卡/单服务器环境下,以单次调用平均响应时间作为性能指标,以Ollama性能作为参照(按100%计),DeepSeek-R1-Distill-7B大模型的串行性能对比情况如表5所示。
表5 串行访问DeepSeek-R1-Distill-7B性能对比
并行结果对比 :在单卡/单服务器环境下,以单次调用平均响应时间作为性能指标,以vLLM性能作为参照(按100%计),DeepSeek-R1-Distill-7B大模型的并行性能对比情况如表6所示。
表6 并行访问DeepSeek-R1-Distill-7B性能对比
3. 实验结果分析
基于上述实验结果,可以观察到基于Safetensors格式部署的大模型推理速度最慢,在串行场景Ollama框架比vLLM框架的响应速度更快,而在并行场景vLLM框架比Ollama框架的响应速度更快。
一方面,Ollama框架使用的模型权重文件为gguf格式,文件大小只有4.7GB,而vLLM框架使用的模型权重文件大小有14GB。Ollama框架使用的gguf格式是一种经过高度优化的模型权重存储格式,会使模型推理速度变快,但是准确度有一定程度的下降。
另一方面,Ollama和vLLM框架二者在架构设计方面存在差异。Ollama是一个轻量级的模型服务工具,专注于简单易用和高性能推理。它采用串行请求处理的方式,确保每个请求都能获得稳定的资源分配,避免了多线程或并行任务之间的竞争和上下文切换开销。Ollama的设计更倾向于单用户或少量用户的高效响应,因此在串行请求场景下表现优异。
总而言之,vLLM是一个更通用的大规模推理框架,支持批量处理和多任务并发。它的目标是最大化硬件利用率,尤其是在高并发、多用户场景下表现更好。
探索蒸馏技术,DeepSeek-R1训练学生模型生成思维链
1. 知识蒸馏简介
知识蒸馏(Knowledge Distillation)是一种将大型复杂模型(教师模型)的知识迁移到小型高效模型(学生模型)的优化技术,教师模型通常具有较高的性能,但计算成本高昂,而学生模型则更加轻量级,推理速度更快,且内存占用更少。知识蒸馏的核心目标是在保持模型性能的同时,显著降低模型的计算复杂度和存储需求,使其更适合在资源受限的环境中部署。
知识蒸馏技术的核心在于知识的传递和压缩。具体来说,教师模型通过其复杂的结构和大量的参数,学习到数据中的复杂模式和特征。学生模型则通过模仿教师模型的输出,学习这些模式和特征,从而获得类似的性能。知识蒸馏的过程通常包括以下几个步骤。
教师模型训练:首先训练一个性能强大的教师模型,该模型通常具有大量的参数和复杂的结构。
训练数据准备:从教师模型中提取推理数据样本,这些数据将用于训练学生模型。
学生模型训练:使用教师模型的输出作为监督信号,对较小的学生模型进行训练。
模型优化与调整:通过调整学生模型的结构和参数,使其在保持高效的同时,尽可能接近教师模型的性能。
DeepSeek-R1知识蒸馏技术将数据蒸馏与模型蒸馏相结合,实现了从大型复杂模型到小型高效模型的知识迁移,这种结合方式不仅提升了模型的性能,还显著降低了计算成本。
数据蒸馏通过优化训练数据,帮助小模型更高效地学习。DeepSeek-R1利用强大的教师模型生成或优化数据,这些数据包括数据增强、伪标签生成和优化数据分布。例如,教师模型可以对原始数据进行扩展或修改,生成丰富的训练数据样本,从而提高数据的多样性和代表性。
模型蒸馏通过监督微调的方式,将教师模型的知识迁移到学生模型中。具体来说,DeepSeek-R1使用教师模型生成的80余万个推理数据样本对较小的基础模型(例如Qwen和Llama系列模型)进行监督微调。由于这一过程不包括额外的强化学习(RL)阶段,使得模型蒸馏过程更加高效。
数据蒸馏与模型蒸馏的结合,使得DeepSeek的蒸馏模型在推理基准测试中取得了显著的性能提升。例如,DeepSeek-R1-Distill-Qwen-7B在AIME 2024测评集上实现了55.5%的准确率,在MATH-500上实现了94.3%的准确率,超越了先前最先进的开源模型QwQ-32B-Preview。上述结果表明,DeepSeek-R1的知识蒸馏模型不仅在性能上接近甚至超越了原始的大型模型,还在计算效率上具有显著优势。
2. DeepSeek-R1知识蒸馏
DeepSeek的蒸馏模型训练过程包括多个关键步骤,通过精心设计的训练策略和优化方法,确保了模型的高效训练和性能提升。
知识蒸馏数据集。知识蒸馏训练数据主要来自教师模型(DeepSeek-R1)生成的推理数据样本。一方面,使用教师模型(DeepSeek-R1)对大量输入数据进行处理,生成高质量的输出数据,这些数据作为学生模型的训练样本。另一方面,为了提高数据的多样性和代表性,采用数据增强技术,通过对原始数据进行扩展、修改和优化,生成了丰富的训练数据样本,从而提高了学生模型的学习效率(如图1所示)。
图1 基于Qwen2-7B的DeepSeek-R1大模型知识蒸馏损失函数
损失函数。损失函数的作用在于衡量大型模型预测结果与实际值之间的偏差。在模型微调训练阶段,损失函数的数值用于引导模型参数的优化,旨在使模型的预测结果尽可能地逼近真实数据。损失函数的设计往往依据不同的任务需求而定,它直接关系到模型训练的成效及其泛化能力。通过降低损失函数的值,可以促使大型模型学习到更优的特征表达和决策界限。
基于两块NVIDIA A800显卡,使用DeepSeek-R1知识蒸馏数据集对Qwen2-7B大模型进行LoRA参数微调,训练结束时损失函数的值为0.0027。
知识蒸馏结果。基于DeepSeek-R1构建的数据集,经过知识蒸馏训练得到的Qwen2-7B大模型。在金融场景下,分别对Qwen2-7B的原始模型和知识蒸馏模型DeepSeek-R1-Qwen-Distill的问答进行对比,部分实验结果如表7所示。
表7 知识蒸馏前后Qwen2-7B模型性能比较
从实验结果中可以观察到,Qwen2-7B模型在经过DeepSeek-R1的知识蒸馏后获得了自我思考能力,能够从多个维度分析用户意图,给出全面的证券次级债相关介绍,相较于原模型其回答的信息量、逻辑性、准确度等方面均实现显著的提升。
DeepSeek-R1的蒸馏模型(DeepSeek-R1-Qwen-Distill)在推理效率方面表现出显著的提升,这主要得益于模型结构的优化和蒸馏技术的应用。通过将知识从大型复杂模型(教师模型)迁移到小型高效模型(学生模型),DeepSeek的蒸馏模型在计算资源、内存使用、推理速度、自我思考等方面都实现了显著的优化。
计算资源优化:蒸馏模型的参数量大幅减少,例如DeepSeek-R1-Distill-Qwen的参数量仅为7B,相比原始的DeepSeek-R1(671B参数),计算复杂度显著降低。这使得模型在推理时所需的计算资源大幅减少,更适合在资源受限的环境中部署。
内存占用减少:由于参数量的减少,蒸馏模型在内存占用方面也表现出色。以DeepSeek-R1-Qwen-Distill为例,其内存占用仅为原始模型的1/80左右。这意味着模型可以在更小的内存空间中运行,降低了硬件要求。
推理速度提升:推理速度是衡量模型效率的重要指标。DeepSeek的蒸馏模型在推理速度上实现了显著提升。例如,DeepSeek-R1-Qwen-Distill在处理复杂的推理任务时,推理速度比原始模型提高了约50倍。这种速度的提升使得模型能够更快地响应用户请求,提供实时的推理结果。
金融数据优化,DeepSeek-R1训练提升金融垂直能力
1. DeepSeek-R1大模型微调动机
在人工智能领域,DeepSeek-R1等大模型的问世为诸多复杂任务提供了强有力的解决方案。尽管经过预训练的DeepSeek-R1有着广泛的适用性,但在特定任务上可能难以取得最优性能。因此,微调(Fintuning)成为提升DeepSeek-R1在特定任务上表现的关键环节,具体原因如下。
第一,破解预训练成本高昂难题。预训练Deep-Seek-R1等具有超大参数量的模型需要耗费大量的计算资源与时间,对于大多数企业而言是艰巨的挑战。大模型的预训练意味着处理海量的数据并进行复杂运算,导致高昂的经济成本与时间耗费。通过对DeepSeek-R1进行微调,能够显著削减训练成本,并快速实现模型的高效应用。
第二,提示工程存在天花板。提示工程(Prompt Engineering)能够在一定程度上优化模型输出,但其效能存在局限。DeepSeek-R1的令牌(Token)上限以及推理成本限制了提示工程的有效性。在处理长文本和复杂任务时,仅仅依靠提示工程难以实现预期的效果。通过对模型进行微调,可以在DeepSeek-R1的内部结构上开展更深层次的优化,突破提示工程的限制,使模型在特定任务上的表现更为出色。
第三,基座模型缺少特定领域数据。DeepSeek-R1使用以通用场景为主的数据集进行预训练,尽管在一般性任务上表现良好,但在特定领域中的表现或许并不理想。比如,金融、法律等专业领域需要深厚的专业知识,而基座模型可能无法满足这些需求。通过在特定领域的数据集上对DeepSeek-R1进行微调,能够让大模型掌握更多领域特定的知识,提升其在这些领域的表现。
第四,数据安全和隐私。在金融场景下,数据的安全性和隐私保护非常关键。当采用API接口调用的方式对DeepSeek-R1模型进行预训练时,往往涉及将数据上传至云端进行处理,这个过程可能潜藏数据泄露的风险。通过在本地对DeepSeek-R1进行模型微调,有效地避免了敏感数据的外传,从而极大地提升数据安全性并确保用户隐私得到严格保护。
第五,个性化服务需求。随着人工智能的推广,用户对个性化服务的需求日益增长。由于用户的需求与偏好各不相同,单一地预训练DeepSeek-R1模型难以涵盖所有用户的个性化需求。通过模型微调,可以快速依据用户的具体需求调整模型参数,提供更具个性化和定制化的服务。
2. 指令微调数据集
指令微调作为一种重要技术手段,旨在提升或激发大语言模型在特定领域的表现,尤其是指令遵循能力。这类微调所使用的数据集通常遵循alpaca格式,每条数据由五个核心部分构成:instruction、input、output、system以及history。
3. 微调训练过程
损失函数 :基于两块NVIDIA A800显卡针对Deep-Seek-R1-Distill-7B大模型进行LoRA参数微调,训练结束时损失函数的值为0.0374(如图2所示)。
图2 DeepSeek-R1-Distill-7B大模型微调训练损失函数
微调训练结果:通过微调训练后的DeepSeek-R1-Distill-GJZQ大模型封装API接口。在自我认知场景下,分别对DeepSeek-R1-Distill-7B的原始模型和微调模型问答进行对比,部分实验结果如表8所示。
表8 自我认知场景DeepSeek-R1-Distill模型性能比较
DeepSeek-R1-Distill-7B大模型在微调训练后,其自我认知修正为“由国金证券人工智能实验室打造的人工智能助手DeepSeek-R1”,同时在回答“可转债的定义”问题时仍然展现出独特的自我思考能力,能够从可转债的核心特点、市场定位、应用场景等多个角度进行思考并做出回答。
因此,通过微调训练,DeepSeek-R1-Distill-7B大模在特定领域的知识得到了增强,并且其特有独立思考能力依然得以保留。
为进一步衡量DeepSeek-R1-Distill-7B大模型在微调后针对金融领域的性能表现,采用FinanceIQ数据集对其进行微调训练。作为金融领域的权威中文评估数据集,FinanceIQ涵盖10个金融大类和36个金融小类,总计7173个单项选择题,该数据集主要用于评估大模型在金融场景下的知识和推理能力。
利用两块NVIDIA A800显卡对DeepSeek-R1-Distill-7B大模型进行LoRA参数微调,训练完成时损失函数的值为0.2641(如图3所示)。
图3 DeepSeek-R1-Distill-7B大模型基于FinanceIQ数据集微调训练损失函数
通过随机抽取20%的FinanceIQ金融试题,对原模型DeepSeek-R1-Distill-7B和微调模型Deep-Seek-R1-Distill-FinanceIQ的准确性进行对比测评,部分实验结果如表9所示。
表9 自我认知场景DeepSeek-R1-Distill模型性能比较
DeepSeek-R1-Distill-7B模型微调前后的性能比较如表10所示,从中可以观察到,原模型DeepSeek-R1-Distill-7B的准确率为41.55%,微调模型Deep-Seek-R1-Distill-FinanceIQ的准确率为61.27%。通过对问答结果进行详细分析,原模型由于在训练阶段缺乏金融场景的语料,导致其存在一定的局限性,容易陷入主观推测的误区,输出看似合理但错误的答案。此外,在金融场景下原模型的自我思考过程较为耗时。相较之下,大模型经过指令微调后,微调模型的金融问答表现得到大幅提升,显著强化了模型的专业度,并且因为简化自我思考过程能够快速输出准确的答案。
表10 DeepSeek-R1-Distill模型微调前后性能比较
总结与展望
本文通过对证券行业大模型应用的深入研究,探讨了算力资源的性能评估与优化策略,并验证了多种技术手段的有效性。实验结果表明,信创算力资源已具备国际先进水平,其中vLLM框架在提升推理速度和优化算力资源利用率方面展现出显著优势,为证券行业的大模型推理性能优化提供了有力借鉴。同时,本文探索的蒸馏技术通过训练学生模型生成思维链,进一步优化了DeepSeek-R1的推理效率并降低了计算成本,拓展了其在证券行业的应用边界。此外,大模型参数微调技术在样本数量有限的情况下仍能取得优异性能,并有效补充了模型在特定领域的知识,提升了回答的准确性和专业度,为证券行业快速落地大模型应用提供了可行方案。未来,以DeepSeek-R1为代表的大模型有望重塑证券行业生态和业务模式,广泛应用于信息检索、知识问答、投资研究等环节,显著提升证券服务效率和质量,推动行业步入智能化、高效化的新时代,为金融市场的繁荣与发展注入新的活力。
(此文刊发于《金融电子化》2025年3月下半月刊)