1. Métodos básicos para trabajar con archivos Excel en pandas
Leer datos con read_excel
Para empezar a trabajar con archivos Excel, lo primero es instalar
pandas
y openpyxl
, si aún no lo has hecho. Estas dos librerías son como esos viejos zapatos confiables — no puedes entrar al mundo del análisis de datos sin ellas.
pip install pandas openpyxl
Ahora estamos listos para digerir tablas.
pandas
ofrece un método simple y cómodo
read_excel
, que permite cargar datos desde archivos Excel en un DataFrame
— el formato estándar de datos en
pandas
.
import pandas as pd
# Leer datos desde un archivo Excel
data = pd.read_excel('example.xlsx')
# Mostrar las primeras cinco filas del DataFrame
print(data.head())
¡Y eso es todo! Hemos leído los datos de un archivo Excel y los hemos convertido en un DataFrame
. Unos microsegundos, y ya tenemos los datos en pantalla, para los que antes hubieras tenido que abrir Excel.
Parámetros para leer datos
El método read_excel
admite muchos
parámetros, que te permiten leer datos de una hoja específica, de un rango concreto de celdas y especificar los formatos de datos.
-
sheet_name
: Indica el nombre o índice (empezando desde 0) de la hoja que deseas leer. Por ejemplo,sheet_name='Hoja1'
osheet_name=0
. -
usecols
: Permite seleccionar las columnas específicas que deseas importar. Por ejemplo,usecols="A:C"
, para seleccionar solo las primeras tres columnas. -
skiprows
: Permite omitir las primerasN
filas en el archivo. Esto es útil cuando necesitas ignorar encabezados o datos innecesarios al principio del archivo.
# Leer datos de una hoja específica y seleccionar columnas
data_filtered = pd.read_excel('example.xlsx', sheet_name='Hoja1', usecols="A:C", skiprows=2)
2. Transformar datos en un DataFrame
¿Qué es un DataFrame
?
Un DataFrame
es como la electrónica para un robot aspirador: puede parecer sencillo por fuera (bien, es solo una tabla), pero gracias a él el robot sabe dónde ir, y el DataFrame
— qué datos almacenar y cómo procesarlos.
El DataFrame
en pandas
es una estructura de datos bidimensional que tiene etiquetas tanto en las filas (índice) como en las columnas. A diferencia de las listas estándar de Python o los arrays de NumPy
, el DataFrame
te permite trabajar con datos como si fueran una tabla en una base de datos o Excel.
Operaciones básicas con DataFrame
Una de las mejores características del DataFrame
en pandas
es la posibilidad de interactuar con los datos de forma muy sencilla. Por ejemplo, puedes ordenar datos, filtrarlos o seleccionar subconjuntos de filas y columnas.
Seleccionar columnas
Seleccionar una columna es tan simple como usar los nombres. Recuerda, como en Excel: solo haces clic en el encabezado de la columna para seleccionarla. Aquí es aún más fácil:
# Seleccionar una columna
dates = data['Fecha']
# Seleccionar varias columnas
subset = data[['Nombre', 'Salario']]
Seleccionar filas
Si necesitas acceder a filas, puedes usar los métodos iloc
para indexación y
loc
para trabajar con etiquetas.
# Seleccionar la primera fila
first_row = data.iloc[0]
# Seleccionar filas con una condición
high_salary = data[data['Salario'] > 50000]
3. Ejemplos y práctica
Ahora que tenemos un entendimiento básico de la colección de datos en un DataFrame
, practiquemos un poco. Supongamos que tenemos un archivo Excel data.xlsx
con varias hojas, y queremos extraer datos de una hoja específica, procesarlos y mostrarlos en la consola.
Ejercicio práctico
Tu tarea: escribe un script que lea datos del archivo data.xlsx
, seleccione la hoja
Ventas y filtre las ventas mayores a 1000 unidades.
# Leer datos de la hoja 'Ventas' y filtrar
sales_data = pd.read_excel('data.xlsx', sheet_name='Ventas')
high_sales = sales_data[sales_data['Monto'] > 1000]
print(high_sales)
Este ejercicio te permitirá sentir la magia de
pandas
y sentirte como un mago de los datos.
Claro, no sucederá nada imposible, pero las tablas se transforman en información útil — y para el mundo de la analítica, eso es magia real.
4. Errores y características de implementación
A menudo los principiantes olvidan detalles como los nombres de las columnas respetando las mayúsculas y minúsculas, o que por defecto
pandas
toma la primera fila como encabezados. Si tus datos son diferentes, te toparás con errores. Mantén una buena relación con tus datos: siempre verifica los nombres de las columnas después de cargar el archivo, usando print(data.columns)
.
Y otro punto importante: si intentas cargar archivos creados por grandes corporaciones, los datos en ellos pueden estar encriptados. pandas
no podrá ayudarte aquí, pero siempre una taza de café fuerte y un descanso te ayudarán.
Todo este conocimiento te ayudará a automatizar la rutina cuando necesites trabajar con datos de Excel. Automatizar estos procesos no solo te ahorrará tiempo, sino que también te librará de las pesadillas logísticas asociadas con copiar y pegar. Tus scripts en Python actuarán como asistentes automáticos, capaces de preparar datos de informes en un instante.
GO TO FULL VERSION