源: Thoughts

1. 功能概述

数据准备模块是一个可视化 ETL 工具,用户无需编程即可通过拖拽和配置完成数据的提取、清洗、转换与加载。它支持对多源原始数据进行清洗、计算、聚合与合并,生成高质量数据集,直接支撑图表、数据看板与门户构建。


2. 操作流程详解

整个数据准备过程主要分为四个核心步骤:连接数据、清洗与加工、合并与连接、输出与发布。

第一步:连接数据源

1.新建/进入任务:进入 DataATM 系统,在左侧导航栏选择“数据准备”,点击“新建数据准备”或进入现有任务 。

2.添加数据原料

a.点击左侧面板【数据原料】旁边的【+】号,可选择已保存在首页的数据表格,同时也支持Excel 文件、企微智能表等多种数据源。通过关键字搜索能够更加快速的定位到所需的数据源。

b.点击所需要的数据源右侧的【+】号即可添加到数据原料且批量添加。

3.拖拽至画布

a.选中所需的数据原料,将需要的数据直接拖拽到中间的空白画布区域

b.点击画布中的节点可预览数据,可以在下方弹出框预览该表的字段信息(如字段名、类型)和具体数据内容,以便确认数据无误 。

示例:此处以国内各区域2025年海投达成率为例,展示数据准备创建的完整过程。

选择数据表【2025海投募集量-演示用】和智能表格【数据准备演示文档】作为数据原料,其中【2025海投募集量-演示用】记录了各区域和大区的2025年海投实际募集量,【数据准备演示文档】记录了各区域和大区的2025年海投募集量目标

第二步:清理与加工

在这一步,您可以对单表数据进行深度的清洗和逻辑处理。DataATM 支持反复叠加多种处理节点 。

1.设置筛选条件:过滤掉不需要的数据行。

示例:此处将2025年海投实际募集量为0的数据删除

2.添加分组标签:根据业务逻辑对数据进行分类(例如:将不同的区域归类为“华北”、“华南”等)。

添加分组标签时,点击画布中节点右侧的【+】号,选择【新增字段】,此时画布中会自动为您创建出一个【新增字段】的节点

点击【字段列表】中字段右侧的【箭头】按钮,选择【添加分组标签】即可进行添加分组标签的操作

创建分组标签的操作可详见数据表功能介绍中数据分组标签功能介绍,根据实际数据按需创建分组标签。创建成功之后可点击【预览数据】检查分组之后的效果是否符合预期。

示例:将”江阴Office”区域和”无锡Office”区域都归类到”无锡Office”区域,其余区域数据保持原状

3.组内排序:在【新增字段】节点中,点击字段右侧的【箭头】,选择【添加组内排序字段】即可进行添加组内排序操作,具体用法可参考数据表功能介绍中添加组内排序字段部分

4.代码计算字段 (SQL)

在【新增字段】节点中,点击字段右侧的【箭头】,选择【添加代码计算字段】即可通过写SQL的方式来进行字段内或字段间的复杂运算(例如:字段A / 字段B 计算达成率) 。

5.数据聚合

支持根据不同的维度(Group By)来对同一数据源节点进行不同的聚合操作,如求和、平均值、计数等。

示例:按“区域”分组,对“2025海投募集量”进行求和 。

a.聚合时,点击画布中节点右侧的【+】号,选择【聚合】,此时画布中会自动为您创建出一个【聚合】节点,之后就能进行添加聚合操作

b.选择需要聚合的维度(一般是非数值类型字段)以及统计指标(一般是数值类型的字段),并为统计指标设置聚合方式,目前的聚合方式支持(求和sum,平均值avg,最小值min,最大值max,计数count,去重计数count_distinct等),选择完毕之后点击保存。

示例:将2025海投募集量数据根据”区域”聚合

第三步:合并与连接

当业务逻辑需要获取多张数据表的字段时,需要将它们进行关联操作。若是想把具有相同字段的多张数据表合并为一个大的数据集,则进行合并操作。

1.关联操作

先保证需要关联的多张数据表都一并添加到画布中,再进行接下来的操作:

a.建立连接:在画布中,长按住第一个数据源节点并拖拽至另一个数据节点上并选择【连接】,即可创建连接关系 。

b.选择连接类型:系统支持以下连接方式:

  • 左连接 (Left Join)
  • 内连接 (Inner Join)
  • 右连接 (Right Join)
  • 全连接 (Full Join)

c.配置连接条件:选择两张表中相关联的字段(Key)作为连接依据(例如:两张表都包含的“区域名称”),同时也支持一键更换左右表。设置完成后点击【保存】 。

示例:将各区域2025海投募集量达成数据与2025各区域海投募集目标连接

2.合并操作

先保证需要合并的多张数据表都一并添加到画布中,再进行接下来的操作:

a.建立连接:在画布中,长按住第一个数据源节点并拖拽至另一个数据节点上并选择【合并】,即可创建合并关系 。

b.配置字段对应关系:系统会根据所选择合并的两个数据节点自动识别合并关系,但是为了提高数据的正确性,建议务必检查两个数据节点的字段对应关系,并将错误的字段对应关系通过手动脱拽的方式纠正。配置完成后点击【保存】。

示例:将2024年海投募集量与2025年海投募集量数据合并

第四步:输出与发布

这是流程的最后一步,决定最终生成的数据集结构 。

1.创建输出节点:点击节点右侧的【+】号,选择“输出”节点 。

2.配置输出字段(重要)

a.重命名:为输出的字段设置易读的业务名称(如将 main_ar_area 改为 大区)。

b.数据类型与聚合方式特别注意,对于数值类型的字段,必须在输出设置中指定聚合方式(如:求和 Sum、平均 Avg),否则系统可能会识别错误。

3.保存与发布:配置确认无误后,点击【发布】(同时可运行),系统将生成最终的数据集。

应用场景:发布后的数据集即可在 DataATM 的图表制作、数据看板或门户搭建中直接使用 。

数据准备功能演示.mp4

3. 常见问题与提示

  • 字段重命名:建议在处理流程的早期(如刚引入数据后)就对晦涩的英文字段进行重命名,方便后续逻辑处理。
  • 预览功能:在任何步骤,点击对应的节点都可以实时查看该步骤处理后的数据结果,建议每做一步都进行预览检查。
  • 数值字段报错:如果在发布时遇到错误,请优先检查“输出节点”中,数值字段是否漏选了聚合方式(Sum/Avg/Max/Min) 。