top of page

Create Your First Project

Start adding your projects to your portfolio. Click on "Manage Projects" to get started

Methodology and Tools - Metodología y Herramientas

EN:
The project methodology was structured in three main stages:

1. Data loading and review
Five CSV files (orders, products, order_products, aisles, and departments) were opened using pd.read_csv() with custom arguments, due to their non-standard format. The dimensions and data types were reviewed, and an initial general assessment of the tables was carried out.

2. Data preprocessing
Incorrect data types (e.g., mistyped ID columns) were identified and corrected. Null and duplicate values were also handled, explaining in each case the criteria applied: whether to complete or delete, and why. The decisions made, their possible causes, and their effects on the analysis were documented.

3. Exploratory analysis and visualisation
Descriptive graphs were generated on order frequency by hour and day of the week, times between orders, behaviour on specific days, number of orders per customer, and most popular products. Reorder rates and frequency of products added to the cart first were calculated, and summary tables with key insights were generated.

This approach allowed us to combine data cleaning, statistical analysis, and visualisation in a single workflow, developing practical skills in the manipulation of complex, real-world data.


ES:
La metodología del proyecto se estructuró en tres grandes etapas:

1. Carga y revisión de los datos
Se abrieron cinco archivos CSV (orders, products, order_products, aisles y departments) utilizando pd.read_csv() con argumentos personalizados, debido a su formato no estándar. Se revisaron las dimensiones, los tipos de datos, y se realizó un primer reconocimiento general de las tablas.

2. Preprocesamiento de los datos
Se identificaron y corrigieron tipos de datos incorrectos (por ejemplo, columnas de ID mal tipadas). También se trataron valores nulos y duplicados, explicando en cada caso el criterio aplicado: si correspondía completar o eliminar y por qué. Se documentaron las decisiones tomadas, sus posibles causas y efectos sobre el análisis.

3. Análisis exploratorio y visualización
Se generaron gráficos descriptivos sobre frecuencia de pedidos por hora y día de la semana, tiempos entre pedidos, comportamiento según días específicos, número de pedidos por cliente, y productos más populares. Se calcularon proporciones de reordenamiento, frecuencia de productos agregados al carrito en primer lugar y se generaron tablas resumen con insights clave.

Este enfoque permitió combinar limpieza de datos, análisis estadístico y visualización en un mismo flujo de trabajo, desarrollando habilidades prácticas en la manipulación de datos complejos y reales.

Thank you for being here

  • LinkedIn
  • GitHub
  • CV
bottom of page