一、数据基础设施建设与维护
- 数据存储架构设计:根据业务需求选择合适的数据存储方案,规划数据分层与存储策略,确保数据存储的可扩展性与成本可控性。
- 数据管道开发与优化:构建ETL或ELT数据管道,使用工具(如Spark/Flink等)实现数据的自动化抽取、清洗、转换、并行计算、分析,多源数据融合,数据交付等工作。
- 数据平台搭建与运维:参与数据中台/大数据平台的建设,部署集群资源管理工具(如YARN/K8s),监控系统运行状态、,及时处理节点故障、数据倾斜等问题,保障平台的高可用性。
二、数据采集与整合
- 多源数据采集:通过API接口、日志采集工具、数据库直连、爬虫等方式,从业务系统、埋点系统、第三方平台(如广告投放渠道)等获数据,结合业务部门需求,进行相关数据模型算、法模型搭建,提供相关数据报告、数据价值模型报告,并为产品及营销端提供运营策略评估、销售预测评估、投产ROI评估或市场/项目机会评估。
- 数据治理:打破数据孤岛,将分散在不同系统中的数据(如用户行为数据、交易数据、物流数据)进行关联整合(如通过用户ID、订单ID等主键),构建全局数据视图,支持跨部门、跨业务线的数据分析需求。
三、数据开发与建模支持
- 使用相关技术(Python/Spark/Hadoop/Hbase/Hive)等分布式大数据产品进行设计和开发。
- 基于业务需求,在数据仓库中构建DWS(数据服务层)或数据集市(如用户画像库、商品标签库),开发聚合指标(如用户活跃度、GMV、转化率)、宽表(整合多维度字段)等,降低业务及其他分析团队的数据加工成本。
- 为业务系统(如BI报表工具)提供标准化的数据接口(如REST API、SQL查询服务),封装复杂的数据逻辑,提升数据获取效率。
四、数据质量与安全保障
- 参与协助建立数据质量监控体系,同时确保数据在采集、存储、使用全流程中的安全性与合规性。
- 遵循公司数据安全规范(如权限分级、脱敏加密),对敏感数据进行访问控制与脱敏处理;确保数据使用符合法律法规,避免数据泄露风险。