简介:在 Windows 本地部署完 DeepSeek AI 模型后,得进行个性化的数据培养,这样才能给出咱们想要的数据。而这个数据喂养的过程得依靠 RAG 工具。RAG 呢,就是 Retrieval Augmented Generation 这三个单词的首字母,R 代表 Retrieval(检索),A 代表 Augmented(增强),G 代表 Generation(生成),所以 RAG 说的就是检索增强生成。具体来讲,RAG 是一种把大规模语言模型和外部知识源的检索结合起来的工程框架,能改进问答的能力。它能用上来自私有或者专有的数据源的信息来帮着生成文本,从而弥补原来大规模语言模型存在的局限性。
这篇文章主要讲的是在 Windows 服务器环境部署 DeepSeek AI 模型并且进行数据投喂训练的整个过程,详细的情况请看下文。
一、准备阶段
1. RAG介绍
说明:RAG的流程包括索引、检索和生成三个步骤,可以把问答内容输入到数据库中,给出问题,然后直接去数据库中搜索,搜索完成后把查询结果和问题拼接起来送给模型去生成内容。
2.安装RAG工具
(1)RAG工具介绍
目前出现的RAG工具很多,各种开源免费的RAG可供选择,相比这些常见工具,这里选择ollama提供的nomic-embed-text工具。
(2)下载nomic-embed-text工具包
说明:访问Ollama官网https://ollama.com/library/nomic-embed-text,下载适用于Windows的nomic-embed-text安装包。
重要提示:可以在命令行中使用ollama pull nomic-embed-text进行拉取,该工具包大概274M大小,提取完成会出现【success】字样。
二、数据训练阶段
1.设置RAG工具
说明:打开WebUI界面,会看到一个RAG设置文本嵌入模型。文本嵌入模型就是把投喂的各种文档数据量化成DeepSeek认识的数据。
2.训练AI大数据模型
说明:RAG工具准备好后,可以开始给DeepSeek投喂数据,工具实际需要准备好文档数据后喂养给DeeSeek AI模型。
(1)训练前
(2)训练中
说明:将准备好的介绍有关JasonTang资料投喂给DeepSeek大数据模型。文档情况如下:
重要提示:将该txt文档投喂给DeepSeek数据模型。如下图
(3)训练后
备注:经过投喂数据并实现讯据训练后,JasonTang已经被识别了。