python – Dr. Adam Rosario Rodríguez

El webscraping es una técnica fundamental en la Ciencia de Datos que permite extraer información de páginas web de manera automatizada. Esta práctica es invaluable para recolectar datos masivos de Internet, que posteriormente pueden ser analizados y utilizados para diversos propósitos, como análisis de mercado, seguimiento de tendencias, investigación académica, entre otros. En este tutorial, exploraremos la importancia del webscraping, sus aplicaciones en la Ciencia de Datos, y proporcionaremos ejemplos claros con códigos en Python para que puedas comenzar a aplicarlo en tus proyectos.

Importancia del Webscraping

En la era digital, la cantidad de información disponible en la web es inmensa y está en constante crecimiento. Sin embargo, gran parte de esta información no está estructurada y es inaccesible para análisis directos. El webscraping permite transformar esta información no estructurada en datos útiles y estructurados, facilitando su análisis y aprovechamiento.

Algunas de las aplicaciones más comunes del webscraping incluyen:

Análisis de Competencia: Recolectar datos de productos, precios y estrategias de competidores.
Investigación de Mercado: Obtener opiniones de usuarios, calificaciones de productos y tendencias del mercado.
Agregación de Noticias: Recopilar artículos de noticias de diferentes fuentes para análisis de medios y estudios de opinión.
Ciencia de Datos y Machine Learning: Crear datasets personalizados para entrenar modelos de machine learning.

Herramientas Comunes para Webscraping

En Python, las bibliotecas más utilizadas para webscraping son:

Requests: Para realizar solicitudes HTTP y obtener el contenido de las páginas web.
BeautifulSoup: Para analizar y extraer datos del HTML.
Selenium: Para interactuar con páginas web dinámicas que requieren JavaScript.

Ejemplo de Webscraping Paso a Paso

A continuación, presentaremos un ejemplo sencillo de webscraping utilizando Requests y BeautifulSoup.

Paso 1: Instalación de Bibliotecas

Nota: Este paso se puede saltar si haces los análisis en Jupyter o en Googel Colab. Si ese es tu caso, puedes ir directo al paso 2.

Primero, necesitamos instalar las bibliotecas requests y beautifulsoup4 si aún no las tenemos. Esto se puede hacer utilizando pip:

pip install requests
pip install beautifulsoup4

Paso 2: Realizar una Solicitud HTTP

Utilizaremos requests para obtener el contenido de una página web. En este ejemplo, extraeremos datos de la página de The Legend of Zelda en Wikipedia.

import requests

url = "https://es.wikipedia.org/wiki/The_Legend_of_Zelda"
response = requests.get(url)

if response.status_code == 200:
    page_content = response.text
    print("Página obtenida exitosamente")
else:
    print(f"Error al obtener la página: {response.status_code}")

Paso 3: Analizar el HTML

Con BeautifulSoup, podemos analizar el contenido HTML y extraer la información que necesitamos.

from bs4 import BeautifulSoup

soup = BeautifulSoup(page_content, 'html.parser')

# Extraer títulos de secciones que están en etiquetas <h2>
titulos_secciones = soup.find_all('h2')

for titulo in titulos_secciones:
    print(titulo.get_text())

Paso 4: Extraer Datos Específicos

Podemos extraer más detalles, como los enlaces a las noticias y los resúmenes.

# Extraer contenido de cada sección
for titulo in titulos_secciones:
    titulo_texto = titulo.get_text()
    contenido = ""
    
    # Obtener el siguiente elemento hasta encontrar el próximo <h2>
    siguiente_elem = titulo.find_next_sibling()
    while siguiente_elem and siguiente_elem.name != 'h2':
        if siguiente_elem.name == 'p':
            contenido += siguiente_elem.get_text() + "\n"
        siguiente_elem = siguiente_elem.find_next_sibling()
    
    print(f"Título: {titulo_texto}")
    print(f"Contenido: {contenido}")
    print("-" * 20)

Paso 5: Almacenar los Datos

Finalmente, podemos almacenar los datos extraídos en un archivo CSV para su posterior análisis.

import csv

with open('zelda_wikipedia.csv', 'w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(["Título", "Contenido"])
    
    for titulo in titulos_secciones:
        titulo_texto = titulo.get_text()
        contenido = ""
        
        siguiente_elem = titulo.find_next_sibling()
        while siguiente_elem and siguiente_elem.name != 'h2':
            if siguiente_elem.name == 'p':
                contenido += siguiente_elem.get_text() + "\n"
            siguiente_elem = siguiente_elem.find_next_sibling()
        
        writer.writerow([titulo_texto, contenido])

Conclusión

El webscraping es una herramienta poderosa para la Ciencia de Datos que permite extraer y estructurar grandes volúmenes de información disponible en la web. En este tutorial, hemos cubierto los fundamentos del webscraping con Python, utilizando Requests y BeautifulSoup para obtener y analizar datos de una página web. Estos conocimientos pueden ser aplicados en una amplia variedad de contextos, permitiéndote convertir información no estructurada en datos valiosos para tus análisis y proyectos de Ciencia de Datos.

Para profundizar en este tema, considera explorar bibliotecas adicionales como Selenium para interactuar con páginas web dinámicas, y frameworks como Scrapy para proyectos de scraping más complejos. ¡Feliz scraping!

La ciencia de datos es un campo interdisciplinario que involucra la extracción de conocimiento y perspectivas valiosas a partir de datos, mediante la aplicación de técnicas de análisis estadístico, computacional y matemático. Su objetivo principal es el de obtener una mejor comprensión de los fenómenos estudiados a través de la recolección, procesamiento, análisis y visualización de datos.

Esta es utilizada en diversos campos, desde negocios y finanzas hasta medicina, ingeniería y ciencias sociales. El proceso de ciencia de datos generalmente implica la formulación de preguntas, la recolección de datos relevantes, la preparación de los datos para el análisis, el análisis de los datos mediante técnicas estadísticas y matemáticas, y la interpretación de los resultados.

Asimismo, se basa en la utilización de técnicas y herramientas informáticas avanzadas, como algoritmos de aprendizaje automático, análisis de redes, minería de datos y visualización de datos, entre otras. Con la creciente cantidad de datos generados en el mundo, la ciencia de datos se ha vuelto cada vez más importante en la toma de decisiones y en la resolución de problemas en diversos campos.

A continuación, les presento un breve tutorial introductorio a la ciencia de datos utilizando Python como lenguaje de programación. El primer paso es instalar Python en sus computadoras. Esto lo pueden hacer desde aquí. Luego deben instalar un IDE de fácil uso como Visual Studio Code o desde Jupyter Notebook entre otros. Una vez tienen esto listo podemos comenzar a practicar.

En este tutorial estaremos practicando los siguientes pasos con Python:

Importación de bibliotecas
Carga de datos
Exploración de datos
Preprocesamiento de datos
Modelado y entrenamiento
Evaluación del modelo
Implementación del modelo

1. Importación de bibliotecas

Antes de comenzar a trabajar con los datos, es necesario importar las bibliotecas necesarias. En este tutorial, utilizaremos las siguientes bibliotecas:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

La biblioteca pandas es útil para trabajar con datos estructurados, mientras que la biblioteca numpy es ideal para realizar cálculos matemáticos. Por su parte, matplotlib y seaborn se utilizan para visualizar los datos.

2. Carga de datos

Una vez que hemos importado las bibliotecas necesarias, es hora de cargar nuestros datos. En este tutorial, utilizaremos un conjunto de datos de flores llamado «Iris». Puedes descargar este conjunto de datos en formato CSV desde el siguiente enlace: https://archive.ics.uci.edu/ml/datasets/iris.

Para cargar los datos, utilizaremos la función «read_csv» de pandas:

df = pd.read_csv('iris.csv')

3. Exploración de datos

Ahora que hemos cargado los datos, es hora de explorarlos. Podemos comenzar imprimiendo las primeras filas del conjunto de datos con la función «head»:

print(df.head())

Esto nos mostrará las primeras cinco filas del conjunto de datos. También podemos obtener información sobre los datos con la función «info»:

print(df.info())

Esto nos mostrará información sobre el conjunto de datos, como el número de filas, el número de columnas y los tipos de datos en cada columna.

4. Preprocesamiento de datos

Una vez que hemos explorado los datos, es posible que tengamos que realizar algunos ajustes antes de poder entrenar un modelo. En este tutorial, haremos lo siguiente:

Eliminaremos la columna «Id», ya que no es útil para nuestro análisis.
Convertiremos las etiquetas de clase en valores numéricos.
Dividiremos el conjunto de datos en conjuntos de entrenamiento y prueba.

# Eliminar la columna "Id"
df = df.drop('Id', axis=1)

# Convertir las etiquetas de clase en valores numéricos
df['Species'] = df['Species'].replace({'Iris-setosa': 0, 'Iris-versicolor': 1, 'Iris-virginica': 2})

# Dividir el conjunto de datos en conjuntos de entrenamiento y prueba
from sklearn.model_selection import train_test_split
X = df.drop('Species', axis=1)
y = df['Species']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

En este código, hemos eliminado la columna «Id» utilizando la función «drop». Luego, hemos convertido las etiquetas de clase en valores numéricos utilizando la función «replace». Finalmente, hemos dividido el conjunto de datos en conjuntos de entrenamiento y prueba utilizando la función «train_test_split» de scikit-learn, que divide el conjunto de datos en conjuntos de entrenamiento y prueba. El conjunto de entrenamiento se utilizará para entrenar el modelo y el conjunto de prueba se utilizará para evaluar la precisión del modelo.

5. Modelado y entrenamiento

Una vez que hemos preparado los datos, podemos proceder a entrenar nuestro modelo. En este tutorial, utilizaremos un modelo de clasificación de bosques aleatorios, que es un algoritmo de aprendizaje automático que funciona mediante la construcción de varios árboles de decisión (decision tree) y combinando sus resultados para obtener una predicción final.

from sklearn.ensemble import RandomForestClassifier
rfc = RandomForestClassifier(n_estimators=100)
rfc.fit(X_train, y_train)

En este código, hemos importado la clase RandomForestClassifier de scikit-learn y hemos creado una instancia del modelo con 100 árboles. Luego, hemos utilizado el método «fit» para entrenar el modelo con el conjunto de entrenamiento.

6. Evaluación del modelo

Una vez que hemos entrenado nuestro modelo, podemos evaluar su precisión utilizando el conjunto de prueba. En este tutorial, utilizaremos la métrica de precisión, que nos indica la proporción de predicciones correctas realizadas por el modelo.

from sklearn.metrics import accuracy_score
y_pred = rfc.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print('Precisión:', accuracy)

En este código, hemos importado la función accuracy_score de scikit-learn y hemos utilizado el método «predict» del modelo para realizar predicciones con el conjunto de prueba. Luego, hemos calculado la precisión utilizando la función «accuracy_score» y hemos imprimido el resultado.

7. Implementación del modelo

Finalmente, una vez que hemos evaluado nuestro modelo y estamos satisfechos con su precisión, podemos implementarlo en una aplicación real. En este tutorial, utilizaremos el modelo para realizar una predicción sobre una nueva flor.

new_flower = np.array([5.1, 3.5, 1.4, 0.2]).reshape(1, -1)
prediction = rfc.predict(new_flower)
print('Predicción:', prediction)

En este código, hemos creado un arreglo numpy que representa los datos de una nueva flor y lo hemos pasado al método «predict» del modelo para obtener una predicción. Luego, hemos imprimido la predicción resultante.

¡Y eso es todo! Con este tutorial básico de ciencia de datos en Python, has aprendido los conceptos fundamentales para procesar, analizar y modelar datos para obtener conocimientos y tomar decisiones informadas.