背景

chatbi通用大模型适配bi的各个版本，之后就不用升级bi后还要同步升级大模型版本了。

部署包的地址

通用大模型地址如下：

ChatBI v1.19.0 下载地址：
59.111.178.240:20280/chatbi/chatbi-v1.19.0.tar.gz

通用大模型下载地址：
59.111.178.240:20280/chatbi/general_llm.tar.gz

如何部署

通用大模型为选装，GPU规格同Nl2sql模型。

从run_gensql_tgi.sh复制出一个 run_general_tgi.sh ，变动内容如下：

1.CUDA_VISIBLE_DEVICES：基于客户场景显卡时间情况来定，确认通用大模型运行的显卡

2.PORT：改为18080

3.--name : 改为general_tgi

4.模型映射：解压下载的general_llm.tar.gz放在对应的models目录下，获取general_llm目录实际路径

变动：-v $PWD/../models/gen_sql_0910_v1.19_hf_v2:/base
更为：-v <general_llm目录实际路径>:/base

完整示例：

run_general_tgi.sh

CUDA_VISIBLE_DEVICES=2,3
PORT=18080


NUM_SHARD=`echo "$CUDA_VISIBLE_DEVICES" | awk -F',' "{print NF}"`
if [ $NUM_SHARD -lt 1 ]; then
 echo "Please set CUDA_VISIBLE_DEVICES correctly"
 exit 1
fi

docker run --rm -d \
  --runtime nvidia \
  -p $PORT:$PORT \
  --privileged \
  --name general_tgi \
  -e NVIDIA_DISABLE_REQUIRE=1 \
  -e CUDA_VISIBLE_DEVICES=$CUDA_VISIBLE_DEVICES \
  -e TOKENIZER_DIR=/base \
  -e MAX_CONCURRENT_REQUESTS=4 \
  -e MAX_INPUT_LENGTH=6500 \
  -e MAX_TOTAL_TOKENS=7400 \
  -e MAX_BATCH_TOTAL_TOKENS=7400 \
  -e MAX_BATCH_PREFILL_TOKENS=6500 \
  -e MAX_WAITING_TOKENS=2 \
  -e NUM_SHARD=$NUM_SHARD \
  -e MAX_BEST_OF=1 \
  -e CUDA_MEMORY_FRACTION=0.7 \
  -e PORT=$PORT \
  -e NCCL_P2P_DISABLE=1 \
  -e server_port=8041 \
  -e LICENSE=/license.txt \
  -v $PWD/../models/general_llm:/base \
  -v $PWD/../gen_sql/tgi-enc/code.zip:/workspace/code.zip \
  -v $PWD/../license.txt:/license.txt \
  --tmpfs /dev/shm \
  hub-inner.cn-east-p1.netease.com/deeplearning/nl2sql:0.0.4_cu118_tgi_1.3.4_hf

更改好之后，变动full_stack_cpu.yaml

gensql_app开启环境变量：

GENERAL_URL: "http://大模型机器ip:18080/v1"  # 通用大模型地址

同时平台的web/inner-web开启环境变量：

CHAT_BI_ENABLE_CHOOSE_TABLE: true

以上内容对您是否有帮助？

鼠标选中文档，精准反馈问题

选中存在疑惑的内容，即可快速反馈问题，我们会跟进处理

不再提示我知道了

文档反馈