All Courses

Introduction to Data Cleaning and Preprocessing

Chapter 1: The Importance of Clean Data

What is Data Cleaning?

What is Data Preprocessing?

Common Sources of Dirty Data

Impact of Poor Data Quality

The Data Cleaning Workflow Overview

Quiz for Chapter 1

Chapter 2: Identifying and Handling Missing Data

What Are Missing Values?

Methods for Detecting Missing Data

Visualizing Missing Data Patterns

Strategy 1: Deleting Rows (Listwise Deletion)

Strategy 2: Deleting Columns

Strategy 3: Basic Imputation (Mean/Median/Mode)

Considerations for Choosing a Strategy

Handling Missing Data: Hands-on Practical

Quiz for Chapter 2

Chapter 3: Dealing with Duplicate Data

What Constitutes Duplicate Data?

Why Remove Duplicates?

Identifying Complete Duplicate Rows

Identifying Duplicates Based on Specific Columns

Removing Duplicate Rows

Handling Duplicates: Practice

Quiz for Chapter 3

Chapter 4: Correcting Data Types

Common Data Types in Datasets

Why Correct Data Types Matter

Identifying Incorrect Data Types

Converting to Numeric Types (Integer, Float)

Handling Errors During Numeric Conversion

Converting to Datetime Types

Converting to Categorical or String Types

Data Type Correction: Hands-on Practical

Quiz for Chapter 4

Chapter 5: Basic Data Formatting and Standardization

Importance of Consistent Formatting

Standardizing Text Case (Upper/Lower)

Removing Leading/Trailing Whitespace

Simple String Replacements

Basic Unit Conversion Example

Formatting Practice

Quiz for Chapter 5

Why Remove Duplicates?

Was this section helpful?

© 2025 ApX Machine Learning

Reasons to Remove Duplicate Data