数据集
一、功能价值
数据集是一个数据的集合,是数据分析的核心组件,后续的数据探索和数据管理都是基于数据集而做的。
二、数据集创建
根据数据集来源和用途不同,提供了多种数据集的创建方式:文件上传、数据连接、SQL查询、多表联合、数据聚合、数据合并。
1.本地文件数据集
本地文件数据集是指通过上传本地文件创建数据集。文件类型包括csv、xls、xlsx、xlsm四种类型,支持对文件进行选择行列和行列反转操作。
参考下面的步骤创建本地文件数据集:
(1)在数据集界面,点击新建数据集,选择本地文件。
(2)上传本地文件,可以通过拖拽方式或选择的方式进行上传。
(3)预览文件,选择数据。 支持对数据设置表头、选择行列、行列转换等操作。
- 设置表头:可以选取任意行作为表头。 设置表头后,表头以上的内容将被舍弃。 表头以下的数据为数据集的内容。
- 选择行列: 可以动态选定数据内容。
- 行列转换:将行列进行转换。 当文件超过1000行时,不支持进行转换。
- CSV类型的文件支持选择文件的列分隔符和文件编码。
(4)点击下一步,进入数据结构配置页面,可以勾选字段,设置字段别名和类型。
取消勾选的字段会隐藏字段的形式存放在数据集中,用户需要的时候可以通过显示字段设置将其展现出来。
(5)导入数据,编辑数据集名称,选择输出数据源。
(6)数据集创建成功。
如果上传的文件包含多个sheet,这些sheet都会展示出来,可以选择指定的 sheet进行预览查看和导入。一个sheet导入完成后,再继续导入其他sheet。
2.数据连接数据集
数据连接数据集是指以数据连接作为数据源来创建数据集。可以通过设置过滤条件对数据进行行级别的选择加工和过滤清洗操作,选择需要的数据。过滤功能支持简单过滤和表达式过滤。
创建数据集
参考下面的步骤创建数据连接数据集。
(1)在数据集界面,点击新建数据集,选择数据连接。
(2)选择创建数据集使用的数据连接。
如果没有找到期望的数据连接,需要联系数据管理员将所需的数据连接进行授权后使用。
(3)编辑数据集内容。
可以通过过滤条件来定义数据集条件,筛选数据集内容。支持简单过滤和表达式过滤。
- 简单过滤: 用户通过选项设置过滤条件。当有多个过滤条件时,可以设置条件选取方式‘全部条件’或‘任一条件’。 全部条件指筛选的数据需要满足所有的过滤条件。 任一条件指筛选数据只要满足其中一个条件即可。
- 表达式过滤:用户通过表达式设置过滤条件,更加灵活的进行数据筛选。过滤表达式必须返回布尔值。 在表达式编辑区右侧是函数列表,供表达式使用。 说明:编写完过滤条件后必须进行预览数据,才能进行下一步。
(4)点击下一步,进入数据结构配置页面,可以勾选字段,设置字段别名和类型。
取消勾选的字段会隐藏字段的形式存放在数据集中,用户需要的时候可以通过显示字段将其打开进行展示。
支持设置开启加速引擎,将数据集导入加速引擎中。
(5)点击导入后,编辑数据集名称,完成数据集创建。
3.SQL查询数据集
SQL查询数据集是指通过自定义SQL语句定义数据集条件来获取数据的一种数据集。
创建数据集
请参照如下步骤创建SQL查询数据集:
(1)在数据集界面,点击新建数据集,选择SQL查询数据集。
(2)在数据连接中选择创建数据集使用的数据连接。
如果没有找到期望的数据连接,需要联系数据管理员将所需的数据连接进行授权后使用。
(3)在编辑区内编写SQL代码,定义数据集条件。 点击执行查看效果,确认没问题后点击下一步。每次SQL语句修改,都需要点击执行,执行成功后,才能继续下一步。
(4)进入数据结构页面,可以设置字段别名和类型。
(5)点击导入后,设置数据集名称,完成数据集创建。
动态宏
SQL查询数据集支持动态宏,可以动态的定义数据集创建条件,数据集的内容随动态宏变化而变化。
动态宏定义方式:动态宏以 {{!! 开始,以 }} 结束,中间代码为SQL类型,如图所示。
动态宏中的代码必须返回String或者数字类型的值,并且只能有一个字段且只有一个值,否则抛出异常。
SQL数据集的处理顺序是先进行参数和用户属性替换,再进行动态宏的解析执行。
4.多表联合数据集
多表联合数据集是指将多个数据集进行联合生成新的数据集。
创建步骤:
(1)新建数据集:进入数据集页面,点击新建数据集,选择多表联合。
(2)建立数据集之间的关联关系: 拖拽左侧的数据集表列到页面右侧的编辑区,选择关联字段和关联模式,建立数据集之间的关联关系。数据集可以通过多个字段进行关联。关联方式支持左连接、右连接、内连接、外连接。 点击预览数据确认结果。
只支持同源数据集的多表联合。如果要对异源数据集进行多表联合,需要将数据集开启加速引擎,在引擎中进行多表联合。
支持的关联方式与数据集数据源类型支持的join类型一致。 mysql、amazon_aurora、memsql、tidb、mongodb数据源支持3种关联方式:left join,right join,inner join。其他数据源支持4种关联方式:leftjoin,right join,inner join以及full join。
(3)设置过滤条件筛选数据。支持简单过滤和表达式过滤。
- 简单过滤: 用户通过选项设置过滤条件。当有多个过滤条件时,可以设置条件选取方式‘全部条件’或‘任一条件’。 全部条件指筛选的数据需要满足所有的过滤条件。 任一条件指筛选数据只要满足其中一个条件即可。
- 表达式过滤:用户通过表达式设置过滤条件,更加灵活的进行数据筛选。过滤表达式必须返回布尔值。 在表达式编辑区右侧是函数列表,供表达式使用。
(4)设置多表联合数据集的数据结构。设置字段显示或隐藏,设置字段别名。多表联合数据结构中展示了每个字段的来源数据集。点击界面右侧的“全部字段”可以查看生成数据集中重名的字段和字段的个数,点击字段可查看重名字段。
(5)导入数据,完成数据集创建。
数据集复用
多表联合允许同一数据集多次拖入画布,如下图所示,支持在画布中修改数据集名称,保存后画布中的名称不随数据集的名称变化而变化。数据集复用解决了包含层级维度表与自身进行多次关联的问题,无需通过复制数据集来解决,方便用户操作。
数据集开启公共字典功能后,不能作为多表联合的基础表。 即第一个拖入编辑区的表。
5.数据聚合数据集
通过数据聚合生成的数据集简称为聚合数据集,它是对已有的数据集进行预先的聚 合计算,将大表变成小表,供数据分析使用。
创建步骤:
(1)新建数据集。进入数据集页面,点击新建数据集,选择数据聚合。
(2)选择基础数据集。在可用数据集中选择一个数据集进入下一步。如果选择的数据集是一个模型表,则会带入整个模型。
(3) 编辑聚合数据集。拖入维度、度量、过滤器相关信息,创建聚合数据集。维度中允许拖入字段,度量中允许拖入字段和指标,过滤器中允许拖入字段、指标、图内指标,此外在过滤器表达式中可以使用参数和用户属性。
(4)保存数据,完成数据集创建。
当数据集开启公共字典后不能进行数据合并。
可以将聚合数据集开启加速引擎,在数据可视化时,加快计算和呈现速度。
6.数据合并数据集
数据合并数据集可以将多个数据集的数据汇聚到一个数据集中。合并时可以根据需求选择合并的字段,过滤出需要的数据。
创建步骤:
(1)新建数据集。进入数据集页面,点击新建数据集,选择数据合并。
(2)选择基础数据表。在数据集选择页面,选择基础数据集。
(3)追加数据集信息。在数据合并编辑页面,将需要追加的数据集拖入到右侧编辑区,然后选择需要追加的字段。
可通过下面三种方式进行字段追加:
- 追加同名字段:选中操作行,点击下方的追加同名字段,将名称相同的字段全部追加。
- 追加多个字段:选中操作行中的某一操作区后,依此点击下方的字段完成追加。
- 追加单个字段:单击选中操作区,点击下方的字段,追加字段到选定的位置。
- 追加字段类型转换:
日期字段、数字字段追加到文本字段将转换为文本类型显示。
文本字段追加到日期或数字字段,如果能转换为日期或数字,则显示为日期或数字,否则显示为null。
数字追加到日期字段上,如果能转换为日期,则显示为日期,否则追加失败,提示不支持从integer/number到date的转换。
(4)增加过滤条件。 数据追加完后可以添加过滤条件选择需要的数据。用户通过选项设置过滤条件。当有多个过滤条件时,可以设置条件选取方式‘全部条件’或‘任一条件’。 全部条件指筛选的数据需要满足所有的过滤条件。 任一条件指筛选数据只要满足其中一个条件即可。
说明: 支持对每个合并的数据集添加简单过滤条件。 每个数据集的过滤条件是独立的,互不影响。
(5)预览数据。点击预览追加,显示预览数据。
(6)配置数据结构。点击下一步,进入数据结构页面。可以修改字段别名,设置字段显示或隐藏。
当数据集开启公共字典后不能进行数据合并。
只支持同源数据集的数据合并。如果要对异源数据集进行数据合并,需要将数据集开启加速引擎,在引擎中进行数据合并。
三、数据集管理
1.数据集操作
点击数据集的三点菜单,可以看见数据集常见操作。
包括以下几种操作:
- 新建数据集。
- 删除:删除数据集时,如果数据集已被关联模型或者图表引用,则无法删除,只能删除未被引用的数据集。
- 重命名:可以将数据集重新命名使其更贴合业务逻辑。
- 创建副本:创建数据集副本,生成一个新的数据集。
- 替换数据集:对数据集进行替换,详见替换数据集。
- 隐藏:隐藏的数据集仍可以参与关联模型或者数据集加工,只是在仪表盘和图表页面看不到隐藏的数据集。同时,可通过点击显示将数据集设置为可见状态。
2. 数据集管理
数据探索之外的一个重要工作就是对数据进行预处理。在系统中,数据集管理页面就是实现这样一个功能的地方。 点击数据集,打开一个数据集。这里是一个二维表的结构,展示了dataset的数据,表头中包含了以下操作。
3. 字段选择
点击【字段选择】图标,弹出字段选择列表,选择用户关心的字段,然后点击应用,数据集页面就会显示所选字段的数据。字段选择是临时的,刷新页面就会清除所选项。
4. 筛选数据
点击【筛选数据】图标,弹出数据筛选弹窗,在弹窗中添加筛选条件,然后点击【确定】。筛选数据也是临时的,刷新页面就会清除所选项。
5. 数据管理
数据管理中可以对数据集进行追加数据集、本地文件追加、编辑数据集、导出数据等操作。
(1)追加数据集。
(2)追加文件数据:只有本地文件数据集才有【追加文件数据】菜单。
(3)编辑数据集:对于SQL查询数据集、多表联合数据集、数据聚合数据集、合并数据集,会有编辑数据集菜单。编辑数据集时,会有引用检查,已被其他地方引用的字段无法去除,必须保留。
(4)导出数据:当应用处于创作模式时,所有数据集数据集都可以导出。
6. 数据信息
数据信息里面展示了数据元信息,包括:
(1)数据集名称。
(2)数据集类型:文字表明这个数据集的来源:数据连接、本地文件、SQL查询等,图标表明这个数据集的存储类型。
(3)数据连接: 数据集使用的数据连接行数/列数/大小:显示目前数据集在系统所占用的空间情况。
(4)原始表:数据连接数据集的原始表名。
(5)引擎表:存储类型为引擎连接的数据集在引擎中的表名。
(6)开启加速引擎:关闭/开启加速引擎。
(7)公共字典: 开启公共字典,不同数据源之间可以进行建模。
(8)立即更新:对于导入引擎的数据集,会启动更新任务,从数据源重新检视数据,生成数据探索所需要的信息。对于直连数据集,立即更新会更新元数据信息。
(9)更新计划:设置更新计划,详见更新计划。
7. 字段管理
字段管理主要对字段进行操作,如字段分组、新建字段、字段类型修改等。
(1)新建字段
新建字段有三种方式:表达式、列值分组、JSON拆分。
(1.1)表达式
在数据管理中,点击【新建字段】 。
- 输入字段别名,在表达式中可以输入固定值,也可以使用各种函数编写复杂的表达式。字段类型由表达式返回类型来自动确定。
- 输入表达式过程中,点击左边的字段/参数/用户属性,所选字段/参数/用户属性会自动跳到表达式光标处。 展开表达式右上角的函数,可以展开函数列表,悬浮于函数并点击i帮助图标可以查看函数说明。点击函数,函数会跳到表达式窗口区。
- 输入表达式后,点击右下角的【预览】可以预览表达式结果。可以拖动中间的分隔条来调整上下窗口大小。
(1.2)列值分组
在字段管理中,点击字段操作三点菜单,点击【列值分组】,弹出列值分组窗口。
列值分组分为“离散值分组”和“连续值分组”,可选参数包括文本、数字、日期;目前文本仅支持离散值分组,日期仅支持连续值分组,数字二者均支持。
- 离散值分组:离散值分组需要新建分组。 新建分组后,在右上角 移动到 下拉列表中选择目标分组,在中间字段值区域选择一个字段值,点击+号将字段值逐个移动到目标分组中。
全部移动 :点击下方的 全部移动 将字段区域的字段值全部移动到目标分组中。
独立分组 :点击 独立分组 ,字段区域中的每个字段值都独立成组。
- 连续值分组:选择日期或数字字段,进行列值分组,默认是连续值分组。 系统会默认分成3组,可以在共分为x组处修改组数,在组名处修改组名,在分组区间里可以修改各个分组的范围值。
拆分:选中一行,该组名右侧会出现拆分 ,点击拆分 ,该分组会拆分为两组。
合并:选中多个分组,组名右侧会出现合并到本组,点击之后,会将其他选中的组合并到本组。
(1.3)JSON拆分
对于支持JSON类型的数据源,JSON字段会被识别成JSON类型,打开数据集,切换到字段管理 tab,打开JSON字段的三点菜单,会出现JSON拆分。
点击JSON拆分 ,系统会自动识别可以拆分出来的字段,可以逐个点击添加到右侧,也可以点击下方的 全部移动 全部移动到右侧。在右侧可以修改字段别名、字段类型。
如果不想拆分某个字段,可以点击-号取消拆分。点击手动添加 ,可以手动输入JSON路径来进行自定义的拆分。点击保存,拆分字段出现在字段管理列表中。打开数据集,查看拆分结果。
(2)修改字段类型
字段管理中可以对字段类型、别名、字段描述进行修改和管理。 说明:只有当数据列没有被引用时,才可以改变数据列的类型,否则会修改失败。(被引用是指在图表、仪表盘、新增字段/指标、其他数据集中使用了本数据列)。
(3)修改字段名
支持批量修改字段名、使用原始字段ID批量命名、使用原始字段描述批量命名、通过批量命名模板批量命名。
(4)数字展示格式
- 支持修改小数位数、数字单位。
- 前缀/后缀:输入前缀/后缀,将会在字段值前后加上前缀和后缀。
- 显示千分位分隔符。
- 显示百分比。
- 显示为科学记数法。
- 重置:点击重置按钮,可以清空已设置的所有格式,重置为初始默认格式,然后点击应用 -> 保存 即可生效。
(5)NULL替换
可以设置将数字列中的NULL值替换为0、1或其他自定义值。设置之后,在数据集/图表或用到该列的所有地方,NULL值都显示为设置的值,在计算时,也会使用设置的值。这是为了绕过在数据库中NULL与任何值进行计算结果都是NULL的问题。
(6)设置是否显示
隐藏字段主要有两个目的:
- 方便用户查看关心的数据。比如原始列生成了新列,用户只需要查看新列,那么可以将原始列隐藏。
- 加快速度。用数据集进行多层链路加工时,可以将不需要的字段隐藏,从而在生成新的数据集时会用到较少的字段,加快处理速度。
如上图所示,取消选择需要隐藏的字段,保存后完成字段的隐藏。字段隐藏除在字段管理中操作外,也可以在创建数据集的数据结构设置页面中操作。
隐藏字段的一些注意事项:
隐藏字段不可用于作图,但可用于添加新字段和计算指标创建数据集时过滤器使用的字段可以隐藏权限控制中设置了行权限的字段不能隐藏;
图表中使用的字段不能隐藏;
仪表盘过滤器使用的字段不能隐藏;
用于创建多表联合数据集、聚合数据集、合并/追加数据集的字段不能隐藏。
(7)字段排序
点击【排序】,将会弹出自定义排序窗口。可以拖动字段来排序,排序后,在字段管理和数据管理处,均可以看到字段已经按照设置的顺序进行显示。排序只能排序已显示的列,隐藏列不参与排序。
(8)字段分组
用户可以点击字段分组,将当前数据集中所有字段统一进行分组,从而在字段数量较多时可对所需字段进行快速定位。
隐藏字段也须在分组中一并设置;
分组功能不影响当前字段排序,也不影响数据集表格中的字段排序;
删除数据集,则字段的分组设置也须相应删除;
数据集创建副本,字段的分组设置须保留;
替换数据集,字段的分组设置须保留。
(9)日期解析
对于系统不能自动识别为日期类型的字段,可以手动将字段从文本类型更改为日期类型,然后手动指定格式。完整的格式字符串说明请参考文档日期时间解析格式。
8. 指标管理
指标是对分组数据进行整体加工,指标本身不具有分组意义,存储形式非具体的计算值,而是聚合计算表达式。指标只有在作图时才会生效,会根据所选维度动态进行聚合计算。指标的使用比较灵活,根据选择的维度适用于不同场景。我们在算人均、日均、同环比时都可以使用指标。
新建指标:点击右上角的新建指标打开新建指标页面。输入指标别名,输入聚合表达式,点击保存,指标创建成功。
编辑别名:点击别名旁边的编辑图标,可以直接编辑指标名称。
编辑指标:在指标列表页面,点击一个指标的编辑图标,打开编辑指标页面。编辑指标页面与新建指标页面完全一样。
删除指标:选择一个指标,点击删除图标,确认之后删除该指标。已被引用的指标删除时会提示指标已被引用,可以选择强制删除,也可以选择取消操作。
复制指标:点击操作中的复制图标,可以复制当前指标为一个新的指标。
展示格式:可以设置数字指标的展示格式,在图表中使用指标时会自动设置为该格式。
指标分组:类似于字段分组,指标也支持分组。点击指标分组将会弹出 指标分组弹窗,将当前数据集中所有指标统一进行分组,从而在指标数量较多时可对所需指标进行快速定位。
指标复制,新指标默认选择原指标的分组;
删除数据集,则指标的分组设置也须相应删除;
数据集创建副本,指标的分组设置须保留;
替换数据集,指标的分组设置须保留。
使用指标:在图表中,可以将指标拖入度量或者过滤器中,但不能将指标拖入维度中。
四、数据追加
1. 本地文件追加
当原始数据文件中的数据有新增的行,或者想要将多个数据文件中的数据汇总到一个数据集中,可以使用追加数据功能。追加数据功能会将新上传的文件中的数据进行字段校验,将原有数据的字段与新增数据字段进行对比,防止追加错误,点击确认后新增数据追加到当前数据集的最后。
在预览文件时,可以“设置表头”:选取某行为表头,下一步设置数据结构时,则以此为标准。也可以进行选择行列和行列反转的操作。 选择行列的作用是选择文件的某个范围作为Dataset来导入。行列反转的作用是使得文件的行变成列来使用。
追加有多个工作表的excel文件时,可以选择具体追加哪个工作表。
追加CSV类型文件时,可以选择文件的列分隔符和文件编码。
当字段不完全匹配时,追加时会提示不匹配的字段将填充为 NULL,新字段将添加到数据集中。
2. 数据集追加
当需要将多个数据集的数据汇总到一个数据集中,可以使用数据集追加功能,数据集追加可根据需求选择需要的字段进行追加,并添加过滤选择需要的数据。通过数据连接创建的数据集,在做数据追加前,必须先开启加速引擎,直连的数据集不支持追加数据集的功能。
步骤一:将需要参与追加的数据集开启加速引擎。
已发布的应用不支持关闭加速引擎。
步骤二:打开要追加的原始数据集 在菜单中点击按钮追加数据集,页面跳转到追加数据集界面,界面分为三个区域,左侧为数据集列表区,列出应用中所有开启加速引擎的应用;右侧初始分为上下两部分,上方为数据集追加的操作区域,可点击过滤条件切换至过滤器,下方为所选追加数据集字段的展示区域:
步骤三:选择数据集追加
字段追加有三种操作:
选中操作行,点击左下方的追加同名字段,一次追加全部同名字段;
选中操作行中的某一操作区后,依此点击下方的字段完成追加;
单击选中操作区,点击下方的字段,追加字段到选定的位置;
对于误操作的数据集,可点击数据集前的小减号,取消追加;对于误操作追加的字段,可拖动至正确的位置,也可点击字段上的小减号取消该字段的追加。
步骤四:添加过滤条件 点击右上侧添加数据集过滤条件,选择数据集,数据集之间的过滤条件时“或”的关系,数据集内的过滤条件是“并”的关系。
步骤五:预览数据。
步骤六:保存数据,完成数据集的追加。
五、替换数据集
只有直连数据集、SQL查询数据集和本地文件数据集在数据集的三点菜单中有替换数据集的选项。替换数据集通常用于测试环境和生产环境的应用迁移,将测试环境中的分析模型导出应用模板后,在生产环境中导入模板,数据集不可用的情况。
1. 选择数据源
替换数据集有四种方式:本地文件、SQL查询、数据连接和引用数据集。替换数据集与创建数据集时的步骤一样。
2. 字段匹配
预览数据后,点击下一步进入“字段匹配”页面。
“字段匹配”页面会列出原始数据集中被引用的字段,包括被新字段、新指标、图表、仪表盘过滤器、其他数据集所引用的字段。因为这些字段被用到了,所以在替换数据集时这些字段是必需的。
在上图中,左边是原始数据集的必需字段,右边是用于匹配的字段,系统会优先匹配字段名相同且类型匹配的字段,用户也可以在下拉列表中自己选择要匹配的字段。
3. 追加字段
选择匹配字段之后,前进到“追加字段”页面,在这里会列出替换数据集的所有字段,必需字段是无法取消选择的,也无法修改类型。其他字段可以取消选择,也可以修改类型。
未能解决你的问题?请联系在线客服
请问有什么疑问?
请问有什么疑问?