[]
        
在线Demo 免费试用
(Showing Draft Content)

去除重复项

1. 概述

1.1 功能概述

在ETL流程中,去除重复项用于识别并删除数据中的重复记录支持自定义去重规则和保留策略,确保数据唯一性。

PixPin_2025-03-26_11-23-59

2. 操作步骤

2.1 前提条件

  1. 节点要求: 确保画布中已包含有效的输入节点或其他处理节点。

2.2 操作步骤

步骤一:添加修改列类型节点

  1. 左侧节点面板中选择行操作下的去除重复项节点,通过拖拽的方式,将去除重复项节点添加至中间画布区域。

    PixPin_2025-03-25_16-31-40

  2. 通过连线将输入/其他节点与去除重复项节点连接起来。

    PixPin_2025-03-25_16-32-19

步骤二:重命名节点名称

  1. 单击画布区域的去除重复项节点,在画布区域下方展开节点配置及预览区域,单击默认节点名右侧的编辑按钮,可重命名该节点。

    PixPin_2025-03-25_16-32-59

步骤三:配置节点属性

以下图的数据为例来进行配置属性的讲解,通过去除重复项操作,可将原始数据中的重复项剔除,便于后续的分析处理(如下图所示)。单击画布区域的修改列类型节点,在画布区域下方展开节点配置及预览区域。

PixPin_2025-03-26_11-23-59

  1. 选择列

    下拉列表勾选需要去除重复项的字段。参考本例,选择姓名和科目。PixPin_2025-03-25_17-06-51

  2. 设置是否区分大小写

    勾选是否在检查重复项时需要区分大小写。参考本例,无需设置。

    PixPin_2025-03-25_17-46-03

  3. 设置去重时的排序条件

    去重时系统默认保留每组重复项的首条记录,用户可通过设置去重时的排序条件自定义保留优先级。该排序仅作用于去重过程,不影响最终输出数据的排列顺序。参考本例,无需设置。

    image

    type=info

    注意: 若不指定排序规则,则保留默认顺序的第一行数据。

2.3 成果展示

  1. 配置完成之后,切换到数据页签,即可预览该节点的输出结果。

    PixPin_2025-03-26_11-19-19