CodeGym /Cursos /Python SELF ES /Leer datos de archivos Excel y convertirlos en DataFrame

Leer datos de archivos Excel y convertirlos en DataFrame

Python SELF ES
Nivel 27 , Lección 2
Disponible

1. Métodos básicos para trabajar con archivos Excel en pandas

Leer datos con read_excel

Para empezar a trabajar con archivos Excel, lo primero es instalar pandas y openpyxl, si aún no lo has hecho. Estas dos librerías son como esos viejos zapatos confiables — no puedes entrar al mundo del análisis de datos sin ellas.

Bash

pip install pandas openpyxl

Ahora estamos listos para digerir tablas. pandas ofrece un método simple y cómodo read_excel, que permite cargar datos desde archivos Excel en un DataFrame — el formato estándar de datos en pandas.

Python

import pandas as pd

# Leer datos desde un archivo Excel
data = pd.read_excel('example.xlsx')

# Mostrar las primeras cinco filas del DataFrame
print(data.head())

¡Y eso es todo! Hemos leído los datos de un archivo Excel y los hemos convertido en un DataFrame. Unos microsegundos, y ya tenemos los datos en pantalla, para los que antes hubieras tenido que abrir Excel.

Parámetros para leer datos

El método read_excel admite muchos parámetros, que te permiten leer datos de una hoja específica, de un rango concreto de celdas y especificar los formatos de datos.

  • sheet_name: Indica el nombre o índice (empezando desde 0) de la hoja que deseas leer. Por ejemplo, sheet_name='Hoja1' o sheet_name=0.
  • usecols: Permite seleccionar las columnas específicas que deseas importar. Por ejemplo, usecols="A:C", para seleccionar solo las primeras tres columnas.
  • skiprows: Permite omitir las primeras N filas en el archivo. Esto es útil cuando necesitas ignorar encabezados o datos innecesarios al principio del archivo.
Python

# Leer datos de una hoja específica y seleccionar columnas
data_filtered = pd.read_excel('example.xlsx', sheet_name='Hoja1', usecols="A:C", skiprows=2)

2. Transformar datos en un DataFrame

¿Qué es un DataFrame?

Un DataFrame es como la electrónica para un robot aspirador: puede parecer sencillo por fuera (bien, es solo una tabla), pero gracias a él el robot sabe dónde ir, y el DataFrame — qué datos almacenar y cómo procesarlos.

El DataFrame en pandas es una estructura de datos bidimensional que tiene etiquetas tanto en las filas (índice) como en las columnas. A diferencia de las listas estándar de Python o los arrays de NumPy, el DataFrame te permite trabajar con datos como si fueran una tabla en una base de datos o Excel.

Operaciones básicas con DataFrame

Una de las mejores características del DataFrame en pandas es la posibilidad de interactuar con los datos de forma muy sencilla. Por ejemplo, puedes ordenar datos, filtrarlos o seleccionar subconjuntos de filas y columnas.

Seleccionar columnas

Seleccionar una columna es tan simple como usar los nombres. Recuerda, como en Excel: solo haces clic en el encabezado de la columna para seleccionarla. Aquí es aún más fácil:

Python

# Seleccionar una columna
dates = data['Fecha']

# Seleccionar varias columnas
subset = data[['Nombre', 'Salario']]

Seleccionar filas

Si necesitas acceder a filas, puedes usar los métodos iloc para indexación y loc para trabajar con etiquetas.

Python

# Seleccionar la primera fila
first_row = data.iloc[0]

# Seleccionar filas con una condición
high_salary = data[data['Salario'] > 50000]

3. Ejemplos y práctica

Ahora que tenemos un entendimiento básico de la colección de datos en un DataFrame, practiquemos un poco. Supongamos que tenemos un archivo Excel data.xlsx con varias hojas, y queremos extraer datos de una hoja específica, procesarlos y mostrarlos en la consola.

Ejercicio práctico

Tu tarea: escribe un script que lea datos del archivo data.xlsx, seleccione la hoja Ventas y filtre las ventas mayores a 1000 unidades.

Python

# Leer datos de la hoja 'Ventas' y filtrar
sales_data = pd.read_excel('data.xlsx', sheet_name='Ventas')
high_sales = sales_data[sales_data['Monto'] > 1000]

print(high_sales)

Este ejercicio te permitirá sentir la magia de pandas y sentirte como un mago de los datos. Claro, no sucederá nada imposible, pero las tablas se transforman en información útil — y para el mundo de la analítica, eso es magia real.

4. Errores y características de implementación

A menudo los principiantes olvidan detalles como los nombres de las columnas respetando las mayúsculas y minúsculas, o que por defecto pandas toma la primera fila como encabezados. Si tus datos son diferentes, te toparás con errores. Mantén una buena relación con tus datos: siempre verifica los nombres de las columnas después de cargar el archivo, usando print(data.columns).

Y otro punto importante: si intentas cargar archivos creados por grandes corporaciones, los datos en ellos pueden estar encriptados. pandas no podrá ayudarte aquí, pero siempre una taza de café fuerte y un descanso te ayudarán.

Todo este conocimiento te ayudará a automatizar la rutina cuando necesites trabajar con datos de Excel. Automatizar estos procesos no solo te ahorrará tiempo, sino que también te librará de las pesadillas logísticas asociadas con copiar y pegar. Tus scripts en Python actuarán como asistentes automáticos, capaces de preparar datos de informes en un instante.

Comentarios
TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION