所有课程

数据工程导论

章节 1: 什么是数据工程？

数据工程的定义

数据工程师的职责

数据工程 vs 数据科学 vs 数据分析

数据生命周期

常见数据工程任务

数据工程对人工智能的重要性

第 1 章测验

章节 2: 基础知识

认识数据类型

数据来源与采集方法

数据库简介

数据仓库解析

数据湖解析

数据获取的API简介

动手实践：识别数据类型

第 2 章测验

章节 3: 搭建你的第一个数据管道

数据管道是什么？

ETL 过程说明

ELT流程解析

数据提取方法

基本数据转换操作

将数据加载到存储中

简单管道编排原理

实践：勾勒基础数据管道

第 3 章测验

章节 4: 数据存储基本原理

选择合适的数据存储

操作关系型数据库 (SQL 基础)

NoSQL 数据库简介

理解文件存储系统

对象存储基础知识

常见数据格式

实践：设置一个简单的数据库表

第 4 章测验

章节 5: 数据处理入门

批处理说明

流式处理介绍

处理框架概述

理解计算资源

数据清洗入门

数据验证方法

实践：简单数据清洗脚本

第 5 章测验

章节 6: 数据工程师必备工具

SQL数据操作入门

代码版本控制与 Git

命令行界面 (CLI) 基本操作

云平台概览

工作流调度器简介

实践：Git 基本命令

第 6 章测验

章节 7: 数据工程的下一步

可进一步学习的方面

构建作品集项目构思

跟进新工具

课程要点回顾

第 7 章测验

处理框架概述

这部分内容有帮助吗？

参考文献

MapReduce: Simplified Data Processing on Large Clusters, Jeffrey Dean and Sanjay Ghemawat, 2004 OSDI '04: 6th Symposium on Operating System Design and Implementation (USENIX Association) DOI: 10.1145/1070503.1070546 - 介绍MapReduce编程模型在大规模数据处理中应用的奠基性论文。
Spark: Cluster Computing with Working Sets, Matei Zaharia, Mosharaf Chowdhury, Michael Franklin, Scott Shenker, and Ion Stoica, 2010 HotCloud '10: 2nd USENIX Workshop on Hot Topics in Cloud Computing (USENIX) DOI: 10.1145/1863103.1863113 - 介绍Apache Spark的论文，强调其内存处理能力以实现更快速的数据分析。
Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems, Martin Kleppmann, 2017 (O'Reilly Media) - 全面概述分布式系统，包含可伸缩性、容错性和各种处理模型（批处理和流处理）等主题。
Apache Spark Documentation, The Apache Software Foundation, Current (The Apache Software Foundation) - Apache Spark的官方文档，详细介绍其架构、API以及各种处理需求的用例。
Apache Flink Documentation, The Apache Software Foundation, 2025 (The Apache Software Foundation) - Apache Flink的官方文档，提供其流处理能力和实时数据分析的见解。

© 2025 ApX Machine Learning用心打造