vLLM是什么？OpenWrt安装Docker启动vLLM服务

2024-07-14

0评论

阅读

爱搜啊

今天给大家带来一篇关于vLLM的内容以及如何在OpenWrt上通过Docker部署vLLM的教程。

vLLM是一款用于大语言模型推理和服务的快速且易于使用的库。它的优点简直太多了，让我们一起来看看吧！

超高的服务吞吐量：vLLM利用PagedAttention高效管理注意力键和值内存，连续批量处理传入请求。

快速模型执行：支持CUDA/HIP图形，量化技术包括GPTQ、AWQ、SqueezeLLM、FP8 KV缓存，优化的CUDA内核。

灵活易用：无缝集成热门的Hugging Face模型，支持并行采样、束搜索等多种解码算法，流式输出。

因此，vLLM简直是LLM推理和服务的绝绝子！

接下来，我们进入核心教程环节，看看如何在OpenWrt上通过Docker部署vLLM。

第一步：准备工作

系统要求：vLLM需要安装OpenWrt的X86设备，支持AVX512指令集架构，推荐的编译器为gcc/g++>=12.3.0。建议从OpenWrt.ai下载刷入固件。

OpenWrt

安装Docker：确保你已经在OpenWrt上安装并配置好Docker，可通过“系统”-“软件包”安装哦。

Docker

安装git-http插件：需要使用git命令克隆项目。

第二步：克隆git项目

我们打开命令行终端（“服务”-“终端”），进入到/data/Docker目录，使用git克隆项目：https://github.com/vLLM-project/vllm.git

cd /data/docker
git clone https://github.com/vllm-project/vllm.git

第二步：构建Docker镜像

进入vllm目录，使用官方提供的Dockerfile.cpu来构建vLLM的CPU环境镜像：

cd vllm
docker build -f Dockerfile.cpu -t vllm-cpu-env --shm-size=4g .

这个命令会创建一个名为vllm-cpu-env的Docker镜像，并分配4GB的共享内存。但这个构建的过程需要一定时间，请耐心等待。

第三步：运行Docker容器

使用以下命令运行刚才创建的Docker镜像：

docker run -it --rm --network=host vllm-cpu-env

这样就可以启动vLLM的服务啦！如果你有特定的CPU或内存要求，可以添加相应的参数，比如：

docker run -it \
    --rm \
    --network=host \
    --cpuset-cpus=<cpu-id-list> \
    --cpuset-mems=<memory-node> \
    vllm-cpu-env

是不是很简单？就像ABC一样！这个最主要用来提供类似OpenAI的API接口，可以给其他前端服务进行调用。

vLLM

更多功能

vLLM不仅支持最流行的Hugging Face模型，还能处理Transformer类LLM、Mixture-of-Expert LLM以及多模态LLM，比如Llama、Mixtral和LLaVA。

点击链接加入群聊三群：751529538

点击链接加入群聊二群：376877156

本站附件分享，如果附件失效，可以去找找看

诚通网盘附件、百度网盘附件

饿了么红包

标签: vLLM OpenWrt Docker

于2024-07-14发布