我是一名专注于数据开发与数据仓库方向的工程师。深耕大数据平台建设、ETL 数据管道设计、维度建模以及数仓分层架构等核心领域。
具备从数据采集、数据加工到数据应用的全链路开发能力。熟练使用 Python、SQL、Spark 等技术栈,能独立设计高效的数仓架构并优化复杂数据处理流程。
在这个博客中,我会分享数仓设计原理、大数据技术实践以及数据开发中的踩坑经验,希望与你一起探索数据工程的价值!
基于 Hadoop + Hive + Spark 构建企业级离线数仓,覆盖 ODS→DWD→DWS→ADS 四层架构。完成用户行为、订单、商品等核心主题域的维度建模,使用 Airflow 进行 ETL 任务调度,配置 DQC 规则保障数据质量,建设基线+SLA监控体系,支撑日均亿级数据处理。
主导企业数据治理工程,完成计算资源与数据表治理规划,通过制定标准化元数据规范(表/字段命名、热度、属性),归纳主题域、数据表、数据血缘等元数据。搭建数据治理分析门户,提升数仓内部及下游数据使用效率达 30%。
搭建指标中心与数据资产门户,建立业务侧指标口径统一体系,实现指标易找、易用、一致性。保障数据仓库与数据分析口径统一,方便下游业务部门快速取数用数,指标复用率提升 40%。
基于 Kafka + PySpark Structured Streaming 搭建实时数据管道,实现业务事件的秒级处理与指标计算,结果写入 ClickHouse 支持 OLAP 实时查询,延迟控制在 3 秒以内。