[]
在ETL流程中,去除重复项用于识别并删除数据中的重复记录,支持自定义去重规则和保留策略,确保数据唯一性。
节点要求: 确保画布中已包含有效的输入节点或其他处理节点。
步骤一:添加修改列类型节点
左侧节点面板中选择行操作下的去除重复项节点,通过拖拽的方式,将去除重复项节点添加至中间画布区域。
通过连线将输入/其他节点与去除重复项节点连接起来。
步骤二:重命名节点名称
单击画布区域的去除重复项节点,在画布区域下方展开节点配置及预览区域,单击默认节点名右侧的编辑按钮,可重命名该节点。
步骤三:配置节点属性
以下图的数据为例来进行配置属性的讲解,通过去除重复项操作,可将原始数据中的重复项剔除,便于后续的分析处理(如下图所示)。单击画布区域的修改列类型节点,在画布区域下方展开节点配置及预览区域。
选择列
下拉列表勾选需要去除重复项的字段。参考本例,选择姓名和科目。
设置是否区分大小写
勾选是否在检查重复项时需要区分大小写。参考本例,无需设置。
设置去重时的排序条件
去重时系统默认保留每组重复项的首条记录,用户可通过设置去重时的排序条件自定义保留优先级。该排序仅作用于去重过程,不影响最终输出数据的排列顺序。参考本例,无需设置。
type=info
注意: 若不指定排序规则,则保留默认顺序的第一行数据。
配置完成之后,切换到数据页签,即可预览该节点的输出结果。