背景

chatbi通用大模型适配bi的各个版本,之后就不用升级bi后还要同步升级大模型版本了。

部署包的地址

通用大模型地址如下:

ChatBI v1.19.0 下载地址:
59.111.178.240:20280/chatbi/chatbi-v1.19.0.tar.gz

通用大模型下载地址:
59.111.178.240:20280/chatbi/general_llm.tar.gz

如何部署

通用大模型为选装,GPU规格同Nl2sql模型。

从run_gensql_tgi.sh复制出一个 run_general_tgi.sh ,变动内容如下:

1.CUDA_VISIBLE_DEVICES:基于客户场景显卡时间情况来定,确认通用大模型运行的显卡

2.PORT:改为18080

3.--name : 改为general_tgi

4.模型映射:解压下载的general_llm.tar.gz放在对应的models目录下,获取general_llm目录实际路径

变动:-v $PWD/../models/gen_sql_0910_v1.19_hf_v2:/base
更为:-v <general_llm目录实际路径>:/base

完整示例:

run_general_tgi.sh

CUDA_VISIBLE_DEVICES=2,3
PORT=18080


NUM_SHARD=`echo "$CUDA_VISIBLE_DEVICES" | awk -F',' "{print NF}"`
if [ $NUM_SHARD -lt 1 ]; then
 echo "Please set CUDA_VISIBLE_DEVICES correctly"
 exit 1
fi

docker run --rm -d \
  --runtime nvidia \
  -p $PORT:$PORT \
  --privileged \
  --name general_tgi \
  -e NVIDIA_DISABLE_REQUIRE=1 \
  -e CUDA_VISIBLE_DEVICES=$CUDA_VISIBLE_DEVICES \
  -e TOKENIZER_DIR=/base \
  -e MAX_CONCURRENT_REQUESTS=4 \
  -e MAX_INPUT_LENGTH=6500 \
  -e MAX_TOTAL_TOKENS=7400 \
  -e MAX_BATCH_TOTAL_TOKENS=7400 \
  -e MAX_BATCH_PREFILL_TOKENS=6500 \
  -e MAX_WAITING_TOKENS=2 \
  -e NUM_SHARD=$NUM_SHARD \
  -e MAX_BEST_OF=1 \
  -e CUDA_MEMORY_FRACTION=0.7 \
  -e PORT=$PORT \
  -e NCCL_P2P_DISABLE=1 \
  -e server_port=8041 \
  -e LICENSE=/license.txt \
  -v $PWD/../models/general_llm:/base \
  -v $PWD/../gen_sql/tgi-enc/code.zip:/workspace/code.zip \
  -v $PWD/../license.txt:/license.txt \
  --tmpfs /dev/shm \
  hub-inner.cn-east-p1.netease.com/deeplearning/nl2sql:0.0.4_cu118_tgi_1.3.4_hf

更改好之后,变动full_stack_cpu.yaml

gensql_app开启环境变量:

GENERAL_URL: "http://大模型机器ip:18080/v1"  # 通用大模型地址

同时平台的web/inner-web开启环境变量:

CHAT_BI_ENABLE_CHOOSE_TABLE: true