ML Data Management and Data-Centric AI Cheat Sheet

Updated 2026-05-18

Next Topic: ML for Tabular Data Cheat Sheet

Data-centric AI shifts focus from model architecture optimization to systematic improvement of training data quality, diversity, and consistency. Modern ML systems require robust data management practices spanning versioning, validation, augmentation, documentation, and governance to ensure reproducible, ethical, and high-performing models at scale.

What This Cheat Sheet Covers

This topic spans 13 focused tables and 91 indexed concepts. Below is a complete table-by-table outline of this topic, spanning foundational concepts through advanced details.

Table 1: Data-Centric AI Core PrinciplesTable 2: Data Versioning and Lineage Tracking ToolsTable 3: Data Quality Frameworks and MetricsTable 4: Data Validation SystemsTable 5: Dataset Documentation StandardsTable 6: Annotation Quality and Label Noise HandlingTable 7: Data Augmentation Techniques by ModalityTable 8: Synthetic Data Generation MethodsTable 9: Dataset Balancing and Sampling StrategiesTable 10: Feature Engineering and PreprocessingTable 11: Data Pipeline Orchestration and TestingTable 12: Data Drift Detection and MonitoringTable 13: Data Governance, Privacy, and Collaboration

Table 1: Data-Centric AI Core Principles

Data-centric AI prioritizes improving dataset quality over model complexity, recognizing that better data yields better models. This approach emphasizes systematic data engineering practices including consistency checking, error detection, and iterative dataset refinement as the primary driver of model performance improvements.

Principle	Example	Description
Data Quality Over Model Complexity	Focus on fixing mislabeled samples in training data rather than adding more layers to the model	Andrew Ng's data-centric AI approach: small, high-quality datasets often outperform large, noisy datasets when paired with modern architectures
Label Consistency	Standardize annotation guidelines so all annotators label "ambiguous" examples the same way	• Reduces label noise that degrades model generalization • critical for multi-annotator datasets
Systematic Data Augmentation	Generate synthetic edge cases to balance underrepresented classes in medical imaging datasets	• Augmentation as a data engineering strategy rather than a model training trick • focuses on principled dataset expansion

Table 1: Data-Centric AI Core Principles

Principle	Example	Description
Data Quality Over Model Complexity	Focus on fixing mislabeled samples in training data rather than adding more layers to the model	Andrew Ng's data-centric AI approach: small, high-quality datasets often outperform large, noisy datasets when paired with modern architectures
Label Consistency	Standardize annotation guidelines so all annotators label "ambiguous" examples the same way	• Reduces label noise that degrades model generalization • critical for multi-annotator datasets
Systematic Data Augmentation	Generate synthetic edge cases to balance underrepresented classes in medical imaging datasets	• Augmentation as a data engineering strategy rather than a model training trick • focuses on principled dataset expansion