常用函数
更新时间: 2022-12-30 16:08:42
阅读 146
Sloth内置函数
Flink1.12
sql | 描述 |
---|---|
ROW_KIND() | 返回row对应的changlog类型:+I表示insert, +U表示update_after,-U表示update_before,-D表示delete。 |
常用系统(内置)函数
Flink Table API & SQL 为用户提供了一组内置的数据转换函数。本页简要介绍了它们。如果你需要的函数尚不支持,你可以实现 用户自定义函数。如果你觉得这个函数够通用,请 创建一个 Jira issue并详细 说明。
标量函数
标量函数将零、一个或多个值作为输入并返回单个值作为结果。
字符串函数
sql | 描述 |
---|---|
string1 || string2 | 返回 STRING1 和 STRING2 的连接。 |
CHAR_LENGTH(string) CHARACTER_LENGTH(string) | 返回字符串中的字符数。 |
UPPER(string) | 以大写形式返回字符串。 |
LOWER(string) | 以小写形式返回字符串。 |
POSITION(string1 IN string2) | 返回 STRING2 中第一次出现 STRING1 的位置(从 1 开始);如果在 STRING2 中找不到 STRING1 返回 0。 |
TRIM([ BOTH | LEADING | TRAILING ] string1 FROM string2) | 返回从 STRING1 中删除以字符串 STRING2 开头/结尾/开头且结尾的字符串的结果。默认情况下,两边的空格都会被删除。 |
LTRIM(string) | 返回从 STRING 中删除左边空格的字符串。 例如 ‘ This is a test String.’.ltrim() 返回 ‘This is a test String.’。 |
RTRIM(string) | 返回从 STRING 中删除右边空格的字符串。 例如 ‘This is a test String. ‘.ltrim() 返回 ‘This is a test String.’。 |
REPEAT(string, int) | 返回 INT 个 string 连接的字符串。 例如 REPEAT(‘This is a test String.’, 2) 返回 “This is a test String.This is a test String.”。 |
REGEXP_REPLACE(string1, string2, string3) | 返回 STRING1 所有与正则表达式 STRING2 匹配的子字符串被 STRING3 替换后的字符串。 例如 ‘foobar’.regexpReplace(‘oo|ar’, ‘’) 返回 “fb”。 |
OVERLAY(string1 PLACING string2 FROM integer1 [ FOR integer2 ]) | 返回一个字符串,该字符串从位置 INT1 用 STRING2 替换 STRING1 的 INT2(默认为 STRING2 的长度)字符。 例如 ‘xxxxxtest’.overlay(‘xxxx’, 6) 返回 “xxxxxxxxx”; ‘xxxxxtest’.overlay(‘xxxx’, 6, 2) 返回 “xxxxxxxxxst”。 |
SUBSTRING(string FROM integer1 [ FOR integer2 ]) | 返回 STRING 从位置 INT1 开始,长度为 INT2(默认到结尾)的子字符串。 |
REPLACE(string1, string2, string3) | 返回一个新字符串,它用 STRING1 中的 STRING3(非重叠)替换所有出现的 STRING2。 例如 ‘hello world’.replace(‘world’, ‘flink’) 返回 ‘hello flink’; ‘ababab’.replace(‘abab’, ‘z’) 返回 ‘zab’。 |
REGEXP_EXTRACT(string1, string2[, integer]) | 将字符串 STRING1 按照 STRING2 正则表达式的规则拆分,返回指定 INTEGER1 处位置的字符串。正则表达式匹配组索引从 1 开始, 0 表示匹配整个正则表达式。此外,正则表达式匹配组索引不应超过定义的组数。 例如 REGEXP_EXTRACT(‘foothebar’, ‘foo(.*?)(bar)’, 2) 返回 “bar”。 |
INITCAP(string) | 返回新形式的 STRING,其中每个单词的第一个字符转换为大写,其余字符转换为小写。这里的单词表示字母数字的字符序列。 |
CONCAT(string1, string2, …) | 返回连接 string1,string2, … 的字符串。如果有任一参数为 NULL,则返回 NULL。 例如 CONCAT(‘AA’, ‘BB’, ‘CC’) 返回 “AABBCC”。 |
CONCAT_WS(string1, string2, string3, …) | 返回将 STRING2, STRING3, … 与分隔符 STRING1 连接起来的字符串。在要连接的字符串之间添加分隔符。 如果 STRING1 为 NULL,则返回 NULL。与 concat() 相比,concat_ws() 会自动跳过 NULL 参数。 例如 concat_ws(‘~’, ‘AA’, Null(STRING), ‘BB’, ‘’, ‘CC’) 返回 “AA~BB~~CC”. |
LPAD(string1, integer, string2) | 返回从 string1 靠左填充 string2 到 INT 长度的新字符串。如果 string1 的长度小于 INT 值,则返回 string1 缩 短为整数字符。例如 LPAD(‘hi’, 4, ‘??’) 返回 “??hi”;LPAD(‘hi’, 1, ‘??’) 返回 `“h”。 |
RPAD(string1, integer, string2) | 返回从 string1 靠右边填充 string2 到 INT 长度的新字符串。如果 string1 的长度小于 INT 值,则返回 string1 缩 短为长度为 INT 的新字符串。例如 RPAD(‘hi’, 4, ‘??’) 返回 “hi??”, RPAD(‘hi’, 1, ‘??’) 返回 “h”。 |
FROM_BASE64(string) | 返回字符串 string1 的 base64 解码的结果;如果字符串为 NULL,则返回 NULL。 例如 FROM_BASE64(‘aGVsbG8gd29ybGQ=’) 返回 “hello world”。 |
TO_BASE64(string) | 返回字符串 string 的 base64 编码的结果;如果字符串为 NULL,则返回 NULL。 例如 TO_BASE64(‘hello world’) 返回 “aGVsbG8gd29ybGQ=”。 |
ASCII(string) | 返回字符串 string 第一个字符的数值。如果字符串为 NULL 则返回 NULL。 例如 ascii(‘abc’) 返回 97,ascii(CAST(NULL AS VARCHAR)) 返回 NULL。 |
CHR(integer) | 返回二进制等于 integer 的 ASCII 字符。如果整数 integer 大于 255,我们先将得到整数对 255 取模数, 并返回模数的 CHR。如果整数为 NULL,则返回 NULL。例如 chr(97) 返回 a,chr(353) 返回 a, ascii(CAST(NULL AS VARCHAR)) 返回 NULL。 |
DECODE(binary, string) | 使用提供的字符集(‘US-ASCII’,‘ISO-8859-1’,‘UTF-8’,‘UTF-16BE’,‘UTF-16LE’,‘UTF-16’)解码。 如果任一参数为空,则结果也将为空。 |
ENCODE(string1, string2) | 使用提供的字符集(‘US-ASCII’,‘ISO-8859-1’,‘UTF-8’,‘UTF-16BE’,‘UTF-16LE’,‘UTF-16’)编码。 如果任一参数为空,则结果也将为空。 |
INSTR(string1, string2) | 返回 string2 在 string1 中第一次出现的位置。如果有任一参数为 NULL,则返回 NULL。 |
LEFT(string, integer) | 返回字符串中最左边的长度为 integer 值的字符串。如果 integer 为负,则返回 EMPTY 字符串。如果有任一参数 为 NULL 则返回 NULL。 |
RIGHT(string, integer) | 返回字符串中最右边的长度为 integer 值的字符串。如果 integer 为负,则返回 EMPTY 字符串。如果有任一参数 为 NULL 则返回 NULL。 |
LOCATE(string1, string2[, integer]) | 返回 string2 中 string1 在位置 integer 之后第一次出现的位置。未找到返回 0。如果有任一参数为 NULL 则返回 NULL。 |
PARSE_URL(string1, string2[, string3]) | 从 URL 返回指定的部分。string2 的有效值包括“HOST”,“PATH”,“QUERY”,“REF”,“PROTOCOL”,“AUTHORITY”,“FILE”和“USERINFO”。 如果有任一参数为 NULL,则返回 NULL。例如 parse_url(‘ http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1‘, ‘HOST’) 返回 ‘facebook.com’。 还可以通过提供关键词 string3 作为第三个参数来提取 QUERY 中特定键的值。例如 parse_url(‘http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1‘, ‘QUERY’, ‘k1’) 返回 ‘v1’。 |
REGEXP(string1, string2) | 如果 string1 的任何(可能为空)子字符串与 Java 正则表达式 string2 匹配,则返回 TRUE,否则返回 FALSE。 如果有任一参数为 NULL,则返回 NULL。 |
REVERSE(string) | 返回反转的字符串。如果字符串为 NULL,则返回 NULL。 |
SPLIT_INDEX(string1, string2, integer1) | 通过分隔符 string2 拆分 string1,返回拆分字符串的第 integer(从零开始)个字符串。如果整数为负,则返回 NULL。 如果有任一参数为 NULL,则返回 NULL。 |
STR_TO_MAP(string1[, string2, string3]]) | 使用分隔符将 string1 拆分为键值对后返回一个 map。string2 是 pair 分隔符,默认为 ‘,’。string3 是键值分隔符,默认为 ‘=’。 |
SUBSTR(string[, integer1[, integer2]]) | 返回字符串的子字符串,从位置 integer1 开始,长度为 integer2(默认到末尾)。 |
时间函数
sql | 描述 |
---|---|
DATE string | 以“yyyy-MM-dd”的形式返回从字符串解析的 SQL 日期。 |
TIME string | 以“HH:mm:ss”的形式返回从字符串解析的 SQL 时间。 |
TIMESTAMP string | 以“yyyy-MM-dd HH:mm:ss[.SSS]”的形式返回从字符串解析的 SQL 时间戳。 |
INTERVAL string range | 从“dd hh:mm:ss.fff”形式的字符串解析 SQL 毫秒间隔或者从“yyyy-mm”形式的字符串解析 SQL 月数间隔。间隔范围可以 是 DAY,MINUTE,DAY TO HOUR 或 DAY TO SECOND,以毫秒为间隔;YEAR 或 YEAR TO MONTH 表示几个月的间隔。例 如 INTERVAL ‘10 00:00:00.004’ DAY TO SECOND,INTERVAL ‘10’ DAY 或 INTERVAL ‘2-10’ YEAR TO MONTH 返回间隔。 |
YEAR(date) | 创建 numeric 年的间隔。 |
LOCALTIME | 返回本地时区的当前 SQL 时间,返回类型为 TIME(0)。在流模式下为每条记录进行取值。 但在批处理模式下,它在查询开始时计算一次,并对每一行使用相同的结果。 |
LOCALTIMESTAMP | 返回本地时区的当前 SQL 时间,返回类型为 TIMESTAMP(3)。在流模式下为每条记录进行取值。 但在批处理模式下,它在查询开始时计算一次,并对每一行使用相同的结果。 |
CURRENT_TIME | 返回本地时区的当前 SQL 时间,这是 LOCAL_TIME 的同义词。 |
CURRENT_DATE | 返回本地时区中的当前 SQL 日期。在流模式下为每条记录进行取值。 但在批处理模式下,它在查询开始时计算一次,并对每一行使用相同的结果。 |
CURRENT_TIMESTAMP | 返回本地时区的当前 SQL 时间戳,返回类型为 TIMESTAMP_LTZ(3)。在流模式下为每条记录进行取值。 但在批处理模式下,它在查询开始时计算一次,并对每一行使用相同的结果。 |
NOW() | 返回本地时区的当前 SQL 时间戳,这是 CURRENT_TIMESTAMP 的同义词。 |
CURRENT_ROW_TIMESTAMP() | 返回本地时区的当前 SQL 时间戳,返回类型为 TIMESTAMP_LTZ(3)。无论是在批处理模式还是流模式下,都会为每条记录进行取值。 |
EXTRACT(timeinteravlunit FROM temporal) | 返回从时间的时间间隔单位部分提取的 long 值。例如 EXTRACT(DAY FROM DATE ‘2006-06-05’) 返回 5。 |
FROM_UNIXTIME(numeric[, string]) | 以字符串格式 string 返回数字参数 numberic 的表示形式(默认为 ‘yyyy-MM-dd HH:mm:ss’)。numeric 是一个内部 时间戳值,表示自’1970-01-01 00:00:00’ UTC 以来的秒数,由 UNIX_TIMESTAMP() 函数生成。返回值以会话时区表示 (在 TableConfig 中指定)。例如,如果在 UTC 时区,FROM_UNIXTIME(44) 返回 ‘1970-01-01 00:00:44’,如果在 ‘Asia/Tokyo’ 时区,则返回 ‘1970-01-01 09:00:44’。 |
UNIX_TIMESTAMP() | 以秒为单位获取当前的 Unix 时间戳。此函数不是确定性的,这意味着将为每个记录重新计算该值。 |
UNIX_TIMESTAMP(string1[, string2]) | 使用表配置中指定的时区将格式为 string2 的日期时间字符串 string1(如果未指定默认情况下:yyyy-MM-dd HH:mm:ss) 转换为 Unix 时间戳(以秒为单位)。 |
TO_DATE(string1[, string2]) | 将格式为 string2(默认为 ‘yyyy-MM-dd’)的字符串 string1 转换为日期。 |
TO_TIMESTAMP(string1[, string2]) | 将 ‘UTC+0’ 时区下格式为 string2(默认为:‘yyyy-MM-dd HH:mm:ss’)的字符串 string1 转换为时间戳。 |
CURRENT_WATERMARK(rowtime) | 返回给定时间列属性 rowtime 的当前水印,如果管道中的当前操作没有可用的上游操作的公共水印时则为 NULL。 函数的返回类型被推断为与提供的时间列属性匹配,但调整后的精度为 3。例如时间列属性为 TIMESTAMP_LTZ(9),则函数将返回 TIMESTAMP_LTZ(3)。 |
类型转换函数
sql | 描述 |
---|---|
CAST(value AS type) | 返回被强制转换为类型 type 的新值。例如 CAST(‘42’ AS INT) 返回 42; CAST(NULL AS VARCHAR) 返回 VARCHAR 类型的 NULL。 |
TYPEOF(input) | TYPEOF(input, force_serializable) | 返回输入表达式的数据类型的字符串表示形式。默认情况下返回的字符串是一个摘要字符串,可能会为了可读性而省略某些细节。 如果 force_serializable 设置为 TRUE,则字符串表示可以保留在目录中的完整数据类型。请注意, 特别是匿名的内联数据类型没有可序列化的字符串表示。在这种情况下返回 NULL。 |
集合函数
sql | 描述 |
---|---|
CARDINALITY(array) | 返回数组中元素的数量。 |
array ‘[‘ INT ‘]’ | 返回数组中 INT 位置的元素。索引从 1 开始。 |
ELEMENT(array) | 返回数组的唯一元素(其基数应为 1);如果数组为空,则返回 NULL。如果数组有多个元素,则抛出异常。 |
CARDINALITY(map) | 返回 map 中的 entries 数量。 |
map ‘[’ value ‘]’ | 返回 map 中指定 key 对应的值。 |
分组函数
sql | 描述 |
---|---|
GROUP_ID() | 返回唯一标识分组键组合的整数。 |
GROUPING(expression1 [, expression2] ) | GROUPING_ID(expression1 [, expression2] ) | 返回给定分组表达式的位向量。 |
聚合函数
聚合函数将所有的行作为输入,并返回单个聚合值作为结果。
sql | 描述 |
---|---|
COUNT([ ALL ] expression | DISTINCT expression1 [, expression2]*) | 默认情况下或使用关键字 ALL,返回不为 NULL 的表达式的输入行数。使用 DISTINCT 则对所有值去重后计算。 |
COUNT(*) | COUNT(1) | 返回输入行数。 |
AVG([ ALL | DISTINCT ] expression) | 默认情况下或使用关键字 ALL,返回所有输入行中表达式的平均值(算术平均值)。使用 DISTINCT 则对所有值去重后计算。 |
SUM([ ALL | DISTINCT ] expression) | 默认情况下或使用关键字 ALL,返回所有输入行的表达式总和。使用 DISTINCT 则对所有值去重后计算。 |
MAX([ ALL | DISTINCT ] expression) | 默认情况下或使用关键字 ALL,返回所有输入行中表达式的最大值。使用 DISTINCT 则对所有值去重后计算。 |
MIN([ ALL | DISTINCT ] expression ) | 默认情况下或使用关键字 ALL,返回所有输入行中表达式的最小值。使用 DISTINCT 则对所有值去重后计算。 |
STDDEV_POP([ ALL | DISTINCT ] expression) | 默认情况下或使用关键字 ALL,返回所有输入行中表达式的总体标准偏差。使用 DISTINCT 则对所有值去重后计算。 |
STDDEV_SAMP([ ALL | DISTINCT ] expression) | 默认情况下或使用关键字 ALL,返回所有输入行中表达式的样本标准偏差。使用 DISTINCT 则对所有值去重后计算。 |
VAR_POP([ ALL | DISTINCT ] expression) | 默认情况下或使用关键字 ALL,返回所有输入行中表达式的总体方差(总体标准差的平方)。使用 DISTINCT 则对所有值去重后计算。 |
VAR_SAMP([ ALL | DISTINCT ] expression) | 默认情况下或使用关键字 ALL,返回所有输入行中表达式的样本方差(样本标准差的平方)。使用 DISTINCT 则对所有值去重后计算。 |
COLLECT([ ALL | DISTINCT ] expression) | 默认情况下或使用关键字 ALL,返回跨所有输入行的多组表达式。NULL 值将被忽略。使用 DISTINCT 则对所有值去重后计算。 |
VARIANCE([ ALL | DISTINCT ] expression) | VAR_SAMP() 的同义方法。 |
RANK() | 返回值在一组值中的排名。结果是 1 加上分区顺序中当前行之前或等于当前行的行数。排名在序列中不一定连续。 |
DENSE_RANK() | 返回值在一组值中的排名。结果是一加先前分配的等级值。与函数 rank 不同,dense_rank 不会在排名序列中产生间隙。 |
ROW_NUMBER() | 在窗口分区内根据 rows 的排序为每一行分配一个唯一的序列号,从一开始。ROW_NUMBER 和 RANK 相似。ROW_NUMBER 按 顺序对所有行进行编号(例如 1,2,3,4,5)。RANK 为等值 row 提供相同的序列值(例如 1,2,2,4,5)。 |
LEAD(expression [, offset] [, default]) | 返回窗口中当前行之后第 offset 行处的表达式值。offset 的默认值为 1,default 的默认值为 NULL。 |
LAG(expression [, offset] [, default]) | 返回窗口中当前行之前第 offset 行处的表达式值。offset 的默认值为 1,default 的默认值为 NULL。 |
FIRST_VALUE(expression) | 返回一组有序值中的第一个值。 |
LAST_VALUE(expression) | 返回一组有序值中的最后一个值。 |
LISTAGG(expression [, separator]) | 接字符串表达式的值并在它们之间放置分隔符值。字符串末尾不添加分隔符时则分隔符的默认值为“,”。 |
文档反馈
以上内容对您是否有帮助?