👤 关于我

FishRain 的头像

👋 你好,我是 FishRain

我是一名专注于数据开发与数据仓库方向的工程师。深耕大数据平台建设、ETL 数据管道设计、维度建模以及数仓分层架构等核心领域。

具备从数据采集、数据加工到数据应用的全链路开发能力。熟练使用 Python、SQL、Spark 等技术栈,能独立设计高效的数仓架构并优化复杂数据处理流程。

在这个博客中,我会分享数仓设计原理、大数据技术实践以及数据开发中的踩坑经验,希望与你一起探索数据工程的价值!

💼 技能树

🔥 核心编程语言 Language

🐍
Python
熟练
📊
SQL
熟练
Java
良好
🟢
Scala
入门

🏢 数据仓库技术 Warehouse

🏗️
维度建模
熟练
分层架构设计
熟练
🔗
模型设计&评审
熟练
DQC 质量配置
良好
📐
基线&SLA保障
良好
🔍
数据探查&比对
良好

🛡️ 数据治理 & 元数据 Governance

⚙️
计算资源治理
良好
🗂️
数据表治理
良好
📋
治理分析门户
良好
🏷️
元数据规范制定
良好
🩸
数据血缘管理
良好
🌐
主题域归纳
良好

📡 数据服务 & 指标体系 Data Service

📈
指标中心建设
良好
🏦
数据资产门户
良好
🎯
指标体系设计
良好
🔗
口径统一保障
良好

🔬 专题分析 & 决策支持 Analysis

🌟
北极星指标
良好
🌳
逻辑树分析
良好
📑
专题分析报告
良好
🔭
竞品分析调研
良好

🗄️ 数据库 & 存储 Database

🐘
PostgreSQL
良好
🐬
MySQL
良好
☁️
Hive
良好
🌊
ClickHouse
入门

⚡ 计算引擎 & 数据处理 Compute

🔥
Apache Spark
良好
🔥
PySpark
良好
🐼
Pandas & NumPy
熟练
🔨
MapReduce
入门

🔄 ETL & 数据管道 Pipeline

🔧
Apache Airflow
良好
🦘
Kafka
良好
🚀
实时数据流处理
良好
📦
数据质量检测
良好

🤖 数据 & 大模型交互 AI

🧹
数据清洗&传输
良好
🤖
数据+大模型协作
学习中
📊
准确率&召回率评估
学习中
🔀
Workflow 工作流
学习中

🛠️ 开发工具 & 环境 DevTools

📝
Git
良好
🐳
Docker
良好
🐧
Linux
良好
📔
Jupyter Notebook
熟练

🚀 项目经历

离线数据仓库建设

数据工程

基于 Hadoop + Hive + Spark 构建企业级离线数仓,覆盖 ODS→DWD→DWS→ADS 四层架构。完成用户行为、订单、商品等核心主题域的维度建模,使用 Airflow 进行 ETL 任务调度,配置 DQC 规则保障数据质量,建设基线+SLA监控体系,支撑日均亿级数据处理。

Hive Spark Airflow Hadoop DQC Python

数据治理与元数据平台

数据治理

主导企业数据治理工程,完成计算资源与数据表治理规划,通过制定标准化元数据规范(表/字段命名、热度、属性),归纳主题域、数据表、数据血缘等元数据。搭建数据治理分析门户,提升数仓内部及下游数据使用效率达 30%。

元数据管理 数据血缘 治理门户 SQL Python

指标中心 & 数据资产门户

数据服务

搭建指标中心与数据资产门户,建立业务侧指标口径统一体系,实现指标易找、易用、一致性。保障数据仓库与数据分析口径统一,方便下游业务部门快速取数用数,指标复用率提升 40%。

指标体系 数据资产 口径统一 数据服务

实时数据流处理平台

实时计算

基于 Kafka + PySpark Structured Streaming 搭建实时数据管道,实现业务事件的秒级处理与指标计算,结果写入 ClickHouse 支持 OLAP 实时查询,延迟控制在 3 秒以内。

Kafka PySpark ClickHouse 实时计算
🐱
点击按钮开始钓鱼~