通知 爱刷机 路由器教程 →→《省钱助手

vLLM是什么?OpenWrt安装Docker启动vLLM服务

2024-07-14
0评论
/
阅读
爱搜啊

今天给大家带来一篇关于vLLM的内容以及如何在OpenWrt上通过Docker部署vLLM的教程。

vLLM是一款用于大语言模型推理和服务的快速且易于使用的库。它的优点简直太多了,让我们一起来看看吧!


超高的服务吞吐量:vLLM利用PagedAttention高效管理注意力键和值内存,连续批量处理传入请求。

快速模型执行:支持CUDA/HIP图形,量化技术包括GPTQ、AWQ、SqueezeLLM、FP8 KV缓存,优化的CUDA内核。

灵活易用:无缝集成热门的Hugging Face模型,支持并行采样、束搜索等多种解码算法,流式输出。

因此,vLLM简直是LLM推理和服务的绝绝子!


接下来,我们进入核心教程环节,看看如何在OpenWrt上通过Docker部署vLLM。


第一步:准备工作

系统要求:vLLM需要安装OpenWrt的X86设备,支持AVX512指令集架构,推荐的编译器为gcc/g++>=12.3.0。建议从OpenWrt.ai下载刷入固件。

OpenWrt

安装Docker:确保你已经在OpenWrt上安装并配置好Docker,可通过“系统”-“软件包”安装哦。

Docker

安装git-http插件:需要使用git命令克隆项目。

第二步:克隆git项目

我们打开命令行终端(“服务”-“终端”),进入到/data/Docker目录,使用git克隆项目:https://github.com/vLLM-project/vllm.git

cd /data/docker
git clone https://github.com/vllm-project/vllm.git

第二步:构建Docker镜像

进入vllm目录,使用官方提供的Dockerfile.cpu来构建vLLM的CPU环境镜像:

cd vllm
docker build -f Dockerfile.cpu -t vllm-cpu-env --shm-size=4g .

这个命令会创建一个名为vllm-cpu-env的Docker镜像,并分配4GB的共享内存。但这个构建的过程需要一定时间,请耐心等待。

第三步:运行Docker容器

使用以下命令运行刚才创建的Docker镜像:

docker run -it --rm --network=host vllm-cpu-env

这样就可以启动vLLM的服务啦!如果你有特定的CPU或内存要求,可以添加相应的参数,比如:

docker run -it \
    --rm \
    --network=host \
    --cpuset-cpus=<cpu-id-list> \
    --cpuset-mems=<memory-node> \
    vllm-cpu-env

是不是很简单?就像ABC一样!这个最主要用来提供类似OpenAI的API接口,可以给其他前端服务进行调用。

vLLM

更多功能

vLLM不仅支持最流行的Hugging Face模型,还能处理Transformer类LLM、Mixture-of-Expert LLM以及多模态LLM,比如Llama、Mixtral和LLaVA。


点击链接加入群聊三群:751529538

点击链接加入群聊二群:376877156

点击链接加入群聊【路由器交流群:622891808已满】

本站附件分享,如果附件失效,可以去找找看

诚通网盘附件百度网盘附件


饿了么红包

饿了么红包

于2024-07-14发布