本地部署Llama 3.1大模型

崎山小鹿 · 发表于 2024-9-8 09:03:02

Meta推出的Llama 3.1系列包括80亿、700亿、4050亿参数版本，上下文长度扩展至12.8万tokens，并增加了对八种语言的支持。
微信截图_20240925153343.png

部署模型需要用到Ollama的一个工具，访问官方网站
https://ollama.com
ollama 大部分代码基于 go 开发。当然你可以自己构建自己的模型从 GGUF/pyTorch or Safetensors 等等

微信截图_20240908085916.png

点击下载，选择下载你对应的操作系统下的工具
微信截图_20240908090054.png

运行下载下来的程序OllamaSetup.exe
微信截图_20240908090638.png

默认情况下，Ollama会被安装到C盘，但你可以通过自定义安装路径来更改安装位置。

打开CMD窗口，输入：ollama run llama3.1 开始部署llama3.1，需要4.7G的空间

部署完成

这样就可以在本地使用llama3.1大模型了，可以在CMD里面直接输入问题，测试一下效果：

>>> hello
Hello! It's nice to meet you. Is there something I can help you with or would you like to chat?

>>> 切换成中文对话
好的！我可以切换为中文对话。我们可以从哪里开始聊天呢？

>>> 能给我解释一下万有引力吗？
当然可以！万有引力是牛顿在17世纪提出的一种物理力，它使得任何两个物体之间都有一定程度的吸引力。牛顿第三定律描述了这个
现象：两块物体相互作用时，反作用的力量大小与作用力的大小相同，而且方向相反。

地球和月球之间就有万有引力的作用。在日常生活中，我们也可以感受到万有引力的影响，比如：

* 东西掉在地上的时候，它们会向下拉回去，这是因为地球对它们的吸引力。
* 水流在河道里向下流动，尽管水表面看起来平稳，但实际上是受到了地球的吸引力。
* 人类和其他物体之间也会相互吸引（但是很弱，不足以改变生活），因为我们都受到地球的万有引力。

牛顿的万有引力定律简化为：

F = G \* (m1 \* m2) / r^2

其中：

* F 是两物体之间的吸引力。
* G 是万有引力的常数。
* m1 和 m2 是两块物体的质量。
* r 是它们之间的距离。

这是一个非常重要的理论，它解释了很多自然现象，包括星球、行星和其他天体之间的运动。

效果是不是很不错呢？

对llama3.1进行微调，微调的核心原因是赋予大模型更加定制化的功能。通用大模型虽然强大，但在特定领域可能表现不佳。通过微调，可以使模型更好地适应特定领域的需求和特征。
这里介绍一款微调框架：unsloth

unsloth微调Llama 3, Mistral和Gemma速度快2-5倍，内存减少80% !unsloth是一个开源项目，它可以比HuggingFace快2-5倍地微调Llama 3、Mistral和Gemma语言模型，同时内存消耗减少80%。
github:https://github.com/unslothai/unsloth

附：
更改模型默认保存路径
Ollama 下载的模型模型保存在 C 盘（Windows: C:\Users\<username>\.ollama\models），如果想更改默认路径的话，可以通过设置 OLLAMA_MODELS 进行修改。
在CMD中输入命令如下：
setx OLLAMA_MODELS "G:\ollama_model"

重启终端（setx命令在Windows中设置环境变量时，这个变量的更改只会在新打开的命令提示符窗口或终端会话中生效。）
重启ollama服务(在Windows下面没有好的命令，可以重启计算机)

不能科学上网，或者网络不稳定可以下面的地址下载：
https://www.alipan.com/s/i6E9cNCsFFL

参考：
Ollama 可以在 Windows 上运行了 https://blog.csdn.net/engchina/article/details/136125933