FAQ-spark任务生成的hdfs文件名称，带后缀gz.parquet

更新时间: 2025-12-01 14:03:51 | 阅读 2930

复制

FAQ-spark任务生成的hdfs文件名称，带后缀gz.parquet

问题描述/异常栈

spark任务向表写入数据，对应hdfs的文件后缀名称带gz.parquet

发现版本

spark 3.3

问题原因

写入文件不同模式，文件名称不同

1、Data Source 模式写入文件时，文件名带 .. 后缀，如

part-00000-740e0249-c090-4240-90ed-b4e170dd8899-c000.snappy.parquet

2、Hive SerDe 模式写入文件时，开源版本文件名不带 .. 后缀，如

part-00000-5a481e57-caf3-471c-9cf3-0ec26e94e7a3-c000

解决方案

Parquet 的压缩作用在 Column Chunk 级别，文件名只起标识作用，不影响实际内容的压缩方式

Spark 3.3.1.17 起可通过配置参数控制启用datasource模式，来决定文件名称是否带后缀

spark.sql.hive.fileExtensionParquet.enabled=true

spark.sql.hive.fileExtensionOrc.enabled=true

鼠标选中文档，精准反馈问题

选中存在疑惑的内容，即可快速反馈问题，我们会跟进处理

不再提示我知道了

当前文档 python 关键字 1 个。

1/1

所有文档

EasyData用户手册 EasyData FAQ 数据分析与可视化用户手册有数BI FAQ EasyStream用户手册 NDH用户手册

EasyData数据开发治理平台FAQ

EasyData用户手册 EasyData FAQ 数据分析与可视化用户手册有数BI FAQ EasyStream用户手册 NDH用户手册

EasyData数据开发治理平台FAQ