chatbi通用大模型部署
更新时间: 2024-12-19 16:29:10
阅读 33
背景
chatbi通用大模型适配bi的各个版本,之后就不用升级bi后还要同步升级大模型版本了。
部署包的地址
通用大模型地址如下:
ChatBI v1.19.0 下载地址:
59.111.178.240:20280/chatbi/chatbi-v1.19.0.tar.gz
通用大模型下载地址:
59.111.178.240:20280/chatbi/general_llm.tar.gz
如何部署
通用大模型为选装,GPU规格同Nl2sql模型。
从run_gensql_tgi.sh复制出一个 run_general_tgi.sh ,变动内容如下:
1.CUDA_VISIBLE_DEVICES:基于客户场景显卡时间情况来定,确认通用大模型运行的显卡
2.PORT:改为18080
3.--name : 改为general_tgi
4.模型映射:解压下载的general_llm.tar.gz放在对应的models目录下,获取general_llm目录实际路径
变动:-v $PWD/../models/gen_sql_0910_v1.19_hf_v2:/base
更为:-v <general_llm目录实际路径>:/base
完整示例:
run_general_tgi.sh
CUDA_VISIBLE_DEVICES=2,3
PORT=18080
NUM_SHARD=`echo "$CUDA_VISIBLE_DEVICES" | awk -F',' "{print NF}"`
if [ $NUM_SHARD -lt 1 ]; then
echo "Please set CUDA_VISIBLE_DEVICES correctly"
exit 1
fi
docker run --rm -d \
--runtime nvidia \
-p $PORT:$PORT \
--privileged \
--name general_tgi \
-e NVIDIA_DISABLE_REQUIRE=1 \
-e CUDA_VISIBLE_DEVICES=$CUDA_VISIBLE_DEVICES \
-e TOKENIZER_DIR=/base \
-e MAX_CONCURRENT_REQUESTS=4 \
-e MAX_INPUT_LENGTH=6500 \
-e MAX_TOTAL_TOKENS=7400 \
-e MAX_BATCH_TOTAL_TOKENS=7400 \
-e MAX_BATCH_PREFILL_TOKENS=6500 \
-e MAX_WAITING_TOKENS=2 \
-e NUM_SHARD=$NUM_SHARD \
-e MAX_BEST_OF=1 \
-e CUDA_MEMORY_FRACTION=0.7 \
-e PORT=$PORT \
-e NCCL_P2P_DISABLE=1 \
-e server_port=8041 \
-e LICENSE=/license.txt \
-v $PWD/../models/general_llm:/base \
-v $PWD/../gen_sql/tgi-enc/code.zip:/workspace/code.zip \
-v $PWD/../license.txt:/license.txt \
--tmpfs /dev/shm \
hub-inner.cn-east-p1.netease.com/deeplearning/nl2sql:0.0.4_cu118_tgi_1.3.4_hf
更改好之后,变动full_stack_cpu.yaml
gensql_app开启环境变量:
GENERAL_URL: "http://大模型机器ip:18080/v1" # 通用大模型地址
同时平台的web/inner-web开启环境变量:
CHAT_BI_ENABLE_CHOOSE_TABLE: true
文档反馈
以上内容对您是否有帮助?