如何在一台机器上利用Llama 3 Docker容器免费并行运行多个模型?

2026-04-30 16:231阅读0评论SEO问题
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计922个文字,预计阅读时间需要4分钟。

如何在一台机器上利用Llama 3 Docker容器免费并行运行多个模型?

如果您在单台机器上同时运行Llama 3和其他模型时遇到内存溢出、端口冲突或服务相互干扰的问题,很可能是因为Ollama默认的单实例机制导致多个模型无法分离运行。以下是一些解决此问题的步骤:

一、基于Docker Compose的多容器隔离部署

该方法通过为每个模型分配独立容器,实现进程、网络、存储与GPU资源的硬隔离,避免端口抢占和内存混用。每个容器绑定唯一API端口,并可单独配置GPU显存限制。

1、创建docker-compose-multi.yml文件,内容如下:

version: '3.8'

services:

  ollama-llama3:

    image: ollama/ollama:0.17.5

    container_name: ollama-llama3

    ports: - 11435:11434

    volumes: - ./data/llama3:/root/.ollama

    environment: - OLLAMA_HOST=0.0.0.0:11434

    deploy: resources: limits: devices: - driver: nvidia count: 1 capabilities: [gpu]

  ollama-mistral:

    image: ollama/ollama:0.17.5

    container_name: ollama-mistral

    ports: - 11436:11434

    volumes: - ./data/mistral:/root/.ollama

    environment: - OLLAMA_HOST=0.0.0.0:11434

    deploy: resources: limits: devices: - driver: nvidia count: 1 capabilities: [gpu]

2、在终端中执行docker compose -f docker-compose-multi.yml up -d启动两个容器。

3、分别向不同端口发送请求验证:curl http://localhost:11435/api/tagscurl http://localhost:11436/api/tags 应各自返回对应容器内加载的模型列表。

二、GPU显存按需切分(nvidia-container-toolkit)

该方法适用于单块GPU显存充足但需严格划分给不同模型的场景,利用NVIDIA Container Toolkit的MIG或memory限制功能,防止模型间显存争抢。

1、确认宿主机已安装NVIDIA驱动与nvidia-container-toolkit,并重启docker服务。

2、修改docker run命令,为Llama3容器指定显存上限:

docker run -d --gpus '"device=0",{"capabilities":["gpu"],"memory":6144}' -p 11435:11434 -v $(pwd)/llama3-data:/root/.ollama --name ollama-llama3 ollama/ollama:0.17.5

3、为Mistral-7B容器分配另一段显存区间(如4096MB),使用相同参数但修改memory值及端口。

4、执行nvidia-smi -Lnvidia-smi --query-compute-apps=pid,used_memory,process_name --format=csv验证两进程显存占用互不重叠。

三、Ollama内置模型别名+API路由代理方案

该方法复用单一Ollama容器,通过模型别名加载与反向代理分流请求,节省容器开销,适合CPU或低显存环境,无需额外GPU设备支持。

1、进入Ollama容器并拉取多模型:

docker exec -it ollama-llama3 ollama pull llama3:8b

docker exec -it ollama-llama3 ollama pull mistral:7b

2、为各模型创建别名以区分调用路径:

docker exec -it ollama-llama3 ollama create llama3-8b-alias -f -

docker exec -it ollama-llama3 ollama create mistral-7b-alias -f -

3、部署轻量级反向代理(如Caddy),配置路由规则将/api/llama3/*转发至http://localhost:11434/api/并注入{"model":"llama3-8b-alias"},同理处理mistral路径。

四、CPU-only多模型轮询加载策略

该方法完全规避GPU依赖,在仅有CPU资源的机器上通过时间片轮换方式复用同一Ollama进程,适用于测试、调试或低并发场景,显著降低内存峰值压力。

1、停止默认Ollama服务:docker stop ollama-llama3

2、编写shell脚本model-switcher.sh,内容包含:

while true; do

  ollama run llama3:8b && sleep 300

  ollama run mistral:7b && sleep 300

done

3、将脚本挂载进容器并后台运行:docker run -d -v $(pwd)/model-switcher.sh:/switch.sh --name model-switcher ollama/ollama:0.17.5 /bin/sh /switch.sh

4、配合外部健康检查接口,仅在当前加载模型就绪后才开放对应API响应,确保客户端请求不落空。

本文共计922个文字,预计阅读时间需要4分钟。

如何在一台机器上利用Llama 3 Docker容器免费并行运行多个模型?

如果您在单台机器上同时运行Llama 3和其他模型时遇到内存溢出、端口冲突或服务相互干扰的问题,很可能是因为Ollama默认的单实例机制导致多个模型无法分离运行。以下是一些解决此问题的步骤:

一、基于Docker Compose的多容器隔离部署

该方法通过为每个模型分配独立容器,实现进程、网络、存储与GPU资源的硬隔离,避免端口抢占和内存混用。每个容器绑定唯一API端口,并可单独配置GPU显存限制。

1、创建docker-compose-multi.yml文件,内容如下:

version: '3.8'

services:

  ollama-llama3:

    image: ollama/ollama:0.17.5

    container_name: ollama-llama3

    ports: - 11435:11434

    volumes: - ./data/llama3:/root/.ollama

    environment: - OLLAMA_HOST=0.0.0.0:11434

    deploy: resources: limits: devices: - driver: nvidia count: 1 capabilities: [gpu]

  ollama-mistral:

    image: ollama/ollama:0.17.5

    container_name: ollama-mistral

    ports: - 11436:11434

    volumes: - ./data/mistral:/root/.ollama

    environment: - OLLAMA_HOST=0.0.0.0:11434

    deploy: resources: limits: devices: - driver: nvidia count: 1 capabilities: [gpu]

2、在终端中执行docker compose -f docker-compose-multi.yml up -d启动两个容器。

3、分别向不同端口发送请求验证:curl http://localhost:11435/api/tagscurl http://localhost:11436/api/tags 应各自返回对应容器内加载的模型列表。

二、GPU显存按需切分(nvidia-container-toolkit)

该方法适用于单块GPU显存充足但需严格划分给不同模型的场景,利用NVIDIA Container Toolkit的MIG或memory限制功能,防止模型间显存争抢。

1、确认宿主机已安装NVIDIA驱动与nvidia-container-toolkit,并重启docker服务。

2、修改docker run命令,为Llama3容器指定显存上限:

docker run -d --gpus '"device=0",{"capabilities":["gpu"],"memory":6144}' -p 11435:11434 -v $(pwd)/llama3-data:/root/.ollama --name ollama-llama3 ollama/ollama:0.17.5

3、为Mistral-7B容器分配另一段显存区间(如4096MB),使用相同参数但修改memory值及端口。

4、执行nvidia-smi -Lnvidia-smi --query-compute-apps=pid,used_memory,process_name --format=csv验证两进程显存占用互不重叠。

三、Ollama内置模型别名+API路由代理方案

该方法复用单一Ollama容器,通过模型别名加载与反向代理分流请求,节省容器开销,适合CPU或低显存环境,无需额外GPU设备支持。

1、进入Ollama容器并拉取多模型:

docker exec -it ollama-llama3 ollama pull llama3:8b

docker exec -it ollama-llama3 ollama pull mistral:7b

2、为各模型创建别名以区分调用路径:

docker exec -it ollama-llama3 ollama create llama3-8b-alias -f -

docker exec -it ollama-llama3 ollama create mistral-7b-alias -f -

3、部署轻量级反向代理(如Caddy),配置路由规则将/api/llama3/*转发至http://localhost:11434/api/并注入{"model":"llama3-8b-alias"},同理处理mistral路径。

四、CPU-only多模型轮询加载策略

该方法完全规避GPU依赖,在仅有CPU资源的机器上通过时间片轮换方式复用同一Ollama进程,适用于测试、调试或低并发场景,显著降低内存峰值压力。

1、停止默认Ollama服务:docker stop ollama-llama3

2、编写shell脚本model-switcher.sh,内容包含:

while true; do

  ollama run llama3:8b && sleep 300

  ollama run mistral:7b && sleep 300

done

3、将脚本挂载进容器并后台运行:docker run -d -v $(pwd)/model-switcher.sh:/switch.sh --name model-switcher ollama/ollama:0.17.5 /bin/sh /switch.sh

4、配合外部健康检查接口,仅在当前加载模型就绪后才开放对应API响应,确保客户端请求不落空。