如何在一台机器上利用Llama 3 Docker容器免费并行运行多个模型？

2026-04-30 16:231阅读0评论SEO问题

内容介绍
文章标签
相关推荐

本文共计922个文字，预计阅读时间需要4分钟。

如果您在单台机器上同时运行Llama 3和其他模型时遇到内存溢出、端口冲突或服务相互干扰的问题，很可能是因为Ollama默认的单实例机制导致多个模型无法分离运行。以下是一些解决此问题的步骤：

一、基于Docker Compose的多容器隔离部署

该方法通过为每个模型分配独立容器，实现进程、网络、存储与GPU资源的硬隔离，避免端口抢占和内存混用。每个容器绑定唯一API端口，并可单独配置GPU显存限制。

1、创建docker-compose-multi.yml文件，内容如下：

version: '3.8'

services:

ollama-llama3:

image: ollama/ollama:0.17.5

container_name: ollama-llama3

ports: - 11435:11434

volumes: - ./data/llama3:/root/.ollama

environment: - OLLAMA_HOST=0.0.0.0:11434

deploy: resources: limits: devices: - driver: nvidia count: 1 capabilities: [gpu]

ollama-mistral:

image: ollama/ollama:0.17.5

container_name: ollama-mistral

ports: - 11436:11434

volumes: - ./data/mistral:/root/.ollama

environment: - OLLAMA_HOST=0.0.0.0:11434

deploy: resources: limits: devices: - driver: nvidia count: 1 capabilities: [gpu]

2、在终端中执行docker compose -f docker-compose-multi.yml up -d启动两个容器。

3、分别向不同端口发送请求验证：curl http://localhost:11435/api/tags 和 curl http://localhost:11436/api/tags 应各自返回对应容器内加载的模型列表。

二、GPU显存按需切分（nvidia-container-toolkit）

该方法适用于单块GPU显存充足但需严格划分给不同模型的场景，利用NVIDIA Container Toolkit的MIG或memory限制功能，防止模型间显存争抢。

1、确认宿主机已安装NVIDIA驱动与nvidia-container-toolkit，并重启docker服务。

2、修改docker run命令，为Llama3容器指定显存上限：

docker run -d --gpus '"device=0",{"capabilities":["gpu"],"memory":6144}' -p 11435:11434 -v $(pwd)/llama3-data:/root/.ollama --name ollama-llama3 ollama/ollama:0.17.5

3、为Mistral-7B容器分配另一段显存区间（如4096MB），使用相同参数但修改memory值及端口。

4、执行nvidia-smi -L与nvidia-smi --query-compute-apps=pid,used_memory,process_name --format=csv验证两进程显存占用互不重叠。

三、Ollama内置模型别名+API路由代理方案

该方法复用单一Ollama容器，通过模型别名加载与反向代理分流请求，节省容器开销，适合CPU或低显存环境，无需额外GPU设备支持。

1、进入Ollama容器并拉取多模型：

docker exec -it ollama-llama3 ollama pull llama3:8b

docker exec -it ollama-llama3 ollama pull mistral:7b

2、为各模型创建别名以区分调用路径：

docker exec -it ollama-llama3 ollama create llama3-8b-alias -f -

docker exec -it ollama-llama3 ollama create mistral-7b-alias -f -

3、部署轻量级反向代理（如Caddy），配置路由规则将/api/llama3/*转发至http://localhost:11434/api/并注入{"model":"llama3-8b-alias"}，同理处理mistral路径。

四、CPU-only多模型轮询加载策略

该方法完全规避GPU依赖，在仅有CPU资源的机器上通过时间片轮换方式复用同一Ollama进程，适用于测试、调试或低并发场景，显著降低内存峰值压力。

1、停止默认Ollama服务：docker stop ollama-llama3

2、编写shell脚本model-switcher.sh，内容包含：

while true; do

ollama run llama3:8b && sleep 300

ollama run mistral:7b && sleep 300

done

3、将脚本挂载进容器并后台运行：docker run -d -v $(pwd)/model-switcher.sh:/switch.sh --name model-switcher ollama/ollama:0.17.5 /bin/sh /switch.sh

4、配合外部健康检查接口，仅在当前加载模型就绪后才开放对应API响应，确保客户端请求不落空。

标签：llama3 Docker llama ollama

本文共计922个文字，预计阅读时间需要4分钟。

一、基于Docker Compose的多容器隔离部署

1、创建docker-compose-multi.yml文件，内容如下：

version: '3.8'

services:

ollama-llama3:

image: ollama/ollama:0.17.5

container_name: ollama-llama3

ports: - 11435:11434

volumes: - ./data/llama3:/root/.ollama

environment: - OLLAMA_HOST=0.0.0.0:11434

deploy: resources: limits: devices: - driver: nvidia count: 1 capabilities: [gpu]

ollama-mistral:

image: ollama/ollama:0.17.5

container_name: ollama-mistral

ports: - 11436:11434

volumes: - ./data/mistral:/root/.ollama

environment: - OLLAMA_HOST=0.0.0.0:11434

deploy: resources: limits: devices: - driver: nvidia count: 1 capabilities: [gpu]

2、在终端中执行docker compose -f docker-compose-multi.yml up -d启动两个容器。

3、分别向不同端口发送请求验证：curl http://localhost:11435/api/tags 和 curl http://localhost:11436/api/tags 应各自返回对应容器内加载的模型列表。

二、GPU显存按需切分（nvidia-container-toolkit）

该方法适用于单块GPU显存充足但需严格划分给不同模型的场景，利用NVIDIA Container Toolkit的MIG或memory限制功能，防止模型间显存争抢。

1、确认宿主机已安装NVIDIA驱动与nvidia-container-toolkit，并重启docker服务。

2、修改docker run命令，为Llama3容器指定显存上限：

docker run -d --gpus '"device=0",{"capabilities":["gpu"],"memory":6144}' -p 11435:11434 -v $(pwd)/llama3-data:/root/.ollama --name ollama-llama3 ollama/ollama:0.17.5

3、为Mistral-7B容器分配另一段显存区间（如4096MB），使用相同参数但修改memory值及端口。

4、执行nvidia-smi -L与nvidia-smi --query-compute-apps=pid,used_memory,process_name --format=csv验证两进程显存占用互不重叠。

三、Ollama内置模型别名+API路由代理方案

该方法复用单一Ollama容器，通过模型别名加载与反向代理分流请求，节省容器开销，适合CPU或低显存环境，无需额外GPU设备支持。

1、进入Ollama容器并拉取多模型：

docker exec -it ollama-llama3 ollama pull llama3:8b

docker exec -it ollama-llama3 ollama pull mistral:7b

2、为各模型创建别名以区分调用路径：

docker exec -it ollama-llama3 ollama create llama3-8b-alias -f -

docker exec -it ollama-llama3 ollama create mistral-7b-alias -f -

3、部署轻量级反向代理（如Caddy），配置路由规则将/api/llama3/*转发至http://localhost:11434/api/并注入{"model":"llama3-8b-alias"}，同理处理mistral路径。

四、CPU-only多模型轮询加载策略

该方法完全规避GPU依赖，在仅有CPU资源的机器上通过时间片轮换方式复用同一Ollama进程，适用于测试、调试或低并发场景，显著降低内存峰值压力。

1、停止默认Ollama服务：docker stop ollama-llama3

2、编写shell脚本model-switcher.sh，内容包含：

while true; do

ollama run llama3:8b && sleep 300

ollama run mistral:7b && sleep 300

done

3、将脚本挂载进容器并后台运行：docker run -d -v $(pwd)/model-switcher.sh:/switch.sh --name model-switcher ollama/ollama:0.17.5 /bin/sh /switch.sh

4、配合外部健康检查接口，仅在当前加载模型就绪后才开放对应API响应，确保客户端请求不落空。

标签：llama3 Docker llama ollama

一、基于Docker Compose的多容器隔离部署

二、GPU显存按需切分（nvidia-container-toolkit）

三、Ollama内置模型别名+API路由代理方案

四、CPU-only多模型轮询加载策略

相关推荐

一、基于Docker Compose的多容器隔离部署

二、GPU显存按需切分（nvidia-container-toolkit）

三、Ollama内置模型别名+API路由代理方案

四、CPU-only多模型轮询加载策略

相关推荐