如何在一台机器上利用Llama 3 Docker容器免费并行运行多个模型?
- 内容介绍
- 文章标签
- 相关推荐
本文共计922个文字,预计阅读时间需要4分钟。
如果您在单台机器上同时运行Llama 3和其他模型时遇到内存溢出、端口冲突或服务相互干扰的问题,很可能是因为Ollama默认的单实例机制导致多个模型无法分离运行。以下是一些解决此问题的步骤:
一、基于Docker Compose的多容器隔离部署
该方法通过为每个模型分配独立容器,实现进程、网络、存储与GPU资源的硬隔离,避免端口抢占和内存混用。每个容器绑定唯一API端口,并可单独配置GPU显存限制。
1、创建docker-compose-multi.yml文件,内容如下:
version: '3.8'
services:
ollama-llama3:
image: ollama/ollama:0.17.5
container_name: ollama-llama3
ports: - 11435:11434
volumes: - ./data/llama3:/root/.ollama
environment: - OLLAMA_HOST=0.0.0.0:11434
deploy: resources: limits: devices: - driver: nvidia count: 1 capabilities: [gpu]
ollama-mistral:
image: ollama/ollama:0.17.5
container_name: ollama-mistral
ports: - 11436:11434
volumes: - ./data/mistral:/root/.ollama
environment: - OLLAMA_HOST=0.0.0.0:11434
deploy: resources: limits: devices: - driver: nvidia count: 1 capabilities: [gpu]
2、在终端中执行docker compose -f docker-compose-multi.yml up -d启动两个容器。
3、分别向不同端口发送请求验证:curl http://localhost:11435/api/tags 和 curl http://localhost:11436/api/tags 应各自返回对应容器内加载的模型列表。
二、GPU显存按需切分(nvidia-container-toolkit)
该方法适用于单块GPU显存充足但需严格划分给不同模型的场景,利用NVIDIA Container Toolkit的MIG或memory限制功能,防止模型间显存争抢。
1、确认宿主机已安装NVIDIA驱动与nvidia-container-toolkit,并重启docker服务。
2、修改docker run命令,为Llama3容器指定显存上限:
docker run -d --gpus '"device=0",{"capabilities":["gpu"],"memory":6144}' -p 11435:11434 -v $(pwd)/llama3-data:/root/.ollama --name ollama-llama3 ollama/ollama:0.17.5
3、为Mistral-7B容器分配另一段显存区间(如4096MB),使用相同参数但修改memory值及端口。
4、执行nvidia-smi -L与nvidia-smi --query-compute-apps=pid,used_memory,process_name --format=csv验证两进程显存占用互不重叠。
三、Ollama内置模型别名+API路由代理方案
该方法复用单一Ollama容器,通过模型别名加载与反向代理分流请求,节省容器开销,适合CPU或低显存环境,无需额外GPU设备支持。
1、进入Ollama容器并拉取多模型:
docker exec -it ollama-llama3 ollama pull llama3:8b
docker exec -it ollama-llama3 ollama pull mistral:7b
2、为各模型创建别名以区分调用路径:
docker exec -it ollama-llama3 ollama create llama3-8b-alias -f -
docker exec -it ollama-llama3 ollama create mistral-7b-alias -f -
3、部署轻量级反向代理(如Caddy),配置路由规则将/api/llama3/*转发至http://localhost:11434/api/并注入{"model":"llama3-8b-alias"},同理处理mistral路径。
四、CPU-only多模型轮询加载策略
该方法完全规避GPU依赖,在仅有CPU资源的机器上通过时间片轮换方式复用同一Ollama进程,适用于测试、调试或低并发场景,显著降低内存峰值压力。
1、停止默认Ollama服务:docker stop ollama-llama3
2、编写shell脚本model-switcher.sh,内容包含:
while true; do
ollama run llama3:8b && sleep 300
ollama run mistral:7b && sleep 300
done
3、将脚本挂载进容器并后台运行:docker run -d -v $(pwd)/model-switcher.sh:/switch.sh --name model-switcher ollama/ollama:0.17.5 /bin/sh /switch.sh
4、配合外部健康检查接口,仅在当前加载模型就绪后才开放对应API响应,确保客户端请求不落空。
本文共计922个文字,预计阅读时间需要4分钟。
如果您在单台机器上同时运行Llama 3和其他模型时遇到内存溢出、端口冲突或服务相互干扰的问题,很可能是因为Ollama默认的单实例机制导致多个模型无法分离运行。以下是一些解决此问题的步骤:
一、基于Docker Compose的多容器隔离部署
该方法通过为每个模型分配独立容器,实现进程、网络、存储与GPU资源的硬隔离,避免端口抢占和内存混用。每个容器绑定唯一API端口,并可单独配置GPU显存限制。
1、创建docker-compose-multi.yml文件,内容如下:
version: '3.8'
services:
ollama-llama3:
image: ollama/ollama:0.17.5
container_name: ollama-llama3
ports: - 11435:11434
volumes: - ./data/llama3:/root/.ollama
environment: - OLLAMA_HOST=0.0.0.0:11434
deploy: resources: limits: devices: - driver: nvidia count: 1 capabilities: [gpu]
ollama-mistral:
image: ollama/ollama:0.17.5
container_name: ollama-mistral
ports: - 11436:11434
volumes: - ./data/mistral:/root/.ollama
environment: - OLLAMA_HOST=0.0.0.0:11434
deploy: resources: limits: devices: - driver: nvidia count: 1 capabilities: [gpu]
2、在终端中执行docker compose -f docker-compose-multi.yml up -d启动两个容器。
3、分别向不同端口发送请求验证:curl http://localhost:11435/api/tags 和 curl http://localhost:11436/api/tags 应各自返回对应容器内加载的模型列表。
二、GPU显存按需切分(nvidia-container-toolkit)
该方法适用于单块GPU显存充足但需严格划分给不同模型的场景,利用NVIDIA Container Toolkit的MIG或memory限制功能,防止模型间显存争抢。
1、确认宿主机已安装NVIDIA驱动与nvidia-container-toolkit,并重启docker服务。
2、修改docker run命令,为Llama3容器指定显存上限:
docker run -d --gpus '"device=0",{"capabilities":["gpu"],"memory":6144}' -p 11435:11434 -v $(pwd)/llama3-data:/root/.ollama --name ollama-llama3 ollama/ollama:0.17.5
3、为Mistral-7B容器分配另一段显存区间(如4096MB),使用相同参数但修改memory值及端口。
4、执行nvidia-smi -L与nvidia-smi --query-compute-apps=pid,used_memory,process_name --format=csv验证两进程显存占用互不重叠。
三、Ollama内置模型别名+API路由代理方案
该方法复用单一Ollama容器,通过模型别名加载与反向代理分流请求,节省容器开销,适合CPU或低显存环境,无需额外GPU设备支持。
1、进入Ollama容器并拉取多模型:
docker exec -it ollama-llama3 ollama pull llama3:8b
docker exec -it ollama-llama3 ollama pull mistral:7b
2、为各模型创建别名以区分调用路径:
docker exec -it ollama-llama3 ollama create llama3-8b-alias -f -
docker exec -it ollama-llama3 ollama create mistral-7b-alias -f -
3、部署轻量级反向代理(如Caddy),配置路由规则将/api/llama3/*转发至http://localhost:11434/api/并注入{"model":"llama3-8b-alias"},同理处理mistral路径。
四、CPU-only多模型轮询加载策略
该方法完全规避GPU依赖,在仅有CPU资源的机器上通过时间片轮换方式复用同一Ollama进程,适用于测试、调试或低并发场景,显著降低内存峰值压力。
1、停止默认Ollama服务:docker stop ollama-llama3
2、编写shell脚本model-switcher.sh,内容包含:
while true; do
ollama run llama3:8b && sleep 300
ollama run mistral:7b && sleep 300
done
3、将脚本挂载进容器并后台运行:docker run -d -v $(pwd)/model-switcher.sh:/switch.sh --name model-switcher ollama/ollama:0.17.5 /bin/sh /switch.sh
4、配合外部健康检查接口,仅在当前加载模型就绪后才开放对应API响应,确保客户端请求不落空。

