关于我 - FishRain

👋 你好，我是 FishRain

我是一名专注于数据开发与数据仓库方向的工程师。深耕大数据平台建设、ETL 数据管道设计、维度建模以及数仓分层架构等核心领域。

具备从数据采集、数据加工到数据应用的全链路开发能力。熟练使用 Python、SQL、Spark 等技术栈，能独立设计高效的数仓架构并优化复杂数据处理流程。

在这个博客中，我会分享数仓设计原理、大数据技术实践以及数据开发中的踩坑经验，希望与你一起探索数据工程的价值！

💼 技能树

🔥 核心编程语言 Language

🐍

Python

熟练

📊

SQL

熟练

☕

Java

良好

🟢

Scala

入门

🏢 数据仓库技术 Warehouse

🏗️

维度建模

熟练

⭐

分层架构设计

熟练

🔗

模型设计&评审

熟练

✅

DQC 质量配置

良好

📐

基线&SLA保障

良好

🔍

数据探查&比对

良好

🛡️ 数据治理 & 元数据 Governance

⚙️

计算资源治理

良好

🗂️

数据表治理

良好

📋

治理分析门户

良好

🏷️

元数据规范制定

良好

🩸

数据血缘管理

良好

🌐

主题域归纳

良好

📡 数据服务 & 指标体系 Data Service

📈

指标中心建设

良好

🏦

数据资产门户

良好

🎯

指标体系设计

良好

🔗

口径统一保障

良好

🔬 专题分析 & 决策支持 Analysis

🌟

北极星指标

良好

🌳

逻辑树分析

良好

📑

专题分析报告

良好

🔭

竞品分析调研

良好

🗄️ 数据库 & 存储 Database

🐘

PostgreSQL

良好

🐬

MySQL

良好

☁️

Hive

良好

🌊

ClickHouse

入门

⚡ 计算引擎 & 数据处理 Compute

🔥

Apache Spark

良好

🔥

PySpark

良好

🐼

Pandas & NumPy

熟练

🔨

MapReduce

入门

🔄 ETL & 数据管道 Pipeline

🔧

Apache Airflow

良好

🦘

Kafka

良好

🚀

实时数据流处理

良好

📦

数据质量检测

良好

🤖 数据 & 大模型交互 AI

🧹

数据清洗&传输

良好

🤖

数据+大模型协作

学习中

📊

准确率&召回率评估

学习中

🔀

Workflow 工作流

学习中

🛠️ 开发工具 & 环境 DevTools

📝

Git

良好

🐳

Docker

良好

🐧

Linux

良好

📔

Jupyter Notebook

熟练

🚀 项目经历

离线数据仓库建设

数据工程

基于 Hadoop + Hive + Spark 构建企业级离线数仓，覆盖 ODS→DWD→DWS→ADS 四层架构。完成用户行为、订单、商品等核心主题域的维度建模，使用 Airflow 进行 ETL 任务调度，配置 DQC 规则保障数据质量，建设基线+SLA监控体系，支撑日均亿级数据处理。

Hive Spark Airflow Hadoop DQC Python

数据治理与元数据平台

数据治理

主导企业数据治理工程，完成计算资源与数据表治理规划，通过制定标准化元数据规范（表/字段命名、热度、属性），归纳主题域、数据表、数据血缘等元数据。搭建数据治理分析门户，提升数仓内部及下游数据使用效率达 30%。

元数据管理数据血缘治理门户 SQL Python

指标中心 & 数据资产门户

数据服务

搭建指标中心与数据资产门户，建立业务侧指标口径统一体系，实现指标易找、易用、一致性。保障数据仓库与数据分析口径统一，方便下游业务部门快速取数用数，指标复用率提升 40%。

指标体系数据资产口径统一数据服务

实时数据流处理平台

实时计算

基于 Kafka + PySpark Structured Streaming 搭建实时数据管道，实现业务事件的秒级处理与指标计算，结果写入 ClickHouse 支持 OLAP 实时查询，延迟控制在 3 秒以内。

Kafka PySpark ClickHouse 实时计算

👤 关于我