Tema 4. Ciencia de datos

Currículo: esta unidad cubre parte de los saberes básicos del Bloque B – Ciencia de datos, simulación e inteligencia artificial (CDPC.1.B.1, CDPC.1.B.2), y con ellos puedes prepararte para superar el criterio de evaluación 2.2 y la mitad del 2.1, correspondiente a 1º Bachillerato.

Tabla de contenidos

Cada día generamos una cantidad de información digital que es difícil de comparar con cualquier otra magnitud del universo, desde lo que compartimos en redes sociales hasta los datos recogidos por sensores en nuestro entorno, estamos permanentemente monitorizados. Esos datos pueden ayudarnos a tomar decisiones, resolver problemas y entender fenómenos complejos que ocurren a nuestro alrededor, si somos capaces de comprender cómo organizarlos, analizarlos y aprovecharlos.

Esa es la tarea que tenemos por delante en este tema: adentrarnos en la ciencia de datos, para obtener valor del enorme volumen de información disponible hoy en día. 

Seguro que ahora mismo piensas que trabajar con datos es analizar largas series de números sin más utilidad que crear gráficos de colores. Nada más lejos de la realidad, se trata de descubrir historias ocultas detrás de ellos y aprender a utilizar estas historias para mejorar nuestro día a día.

4.1. Características del big data

¿Te has preguntado alguna vez cómo hacen las plataformas como Instagram, Spotify o Netflix para recomendarte exactamente aquello que más te interesa en cada momento?

Lo hacen gracias al uso del big data, un término que se refiere a la gestión y análisis de cantidades enormes de información generadas constantemente.

La cantidad de datos es tal que necesitamos utilizar herramientas y técnicas especiales para poder trabajar con ellos.

Además, las magnitudes con las que trabajamos también son especialmente grandes puesto que rebasamos la barrera del terabyte (TB) para empezar a hablar del petabyte (1 PB = 1024 TB) o del exabyte (1 EB = 1024 PB).

La clave para entender el big data está en reconocer sus principales características: VOLUMEN, VELOCIDAD y VARIEDAD.

En primer lugar, hablamos del volumen, que se refiere precisamente a la cantidad masiva de información generada diariamente. Piensa, por ejemplo, en cuántas fotos, vídeos, mensajes, likes y comentarios se publican en Instagram cada minuto, o cuántas reproducciones de canciones se realizan a nivel mundial en Spotify cada segundo. Esa cantidad inmensa de datos supera con creces la capacidad tradicional de procesamiento de los ordenadores que usamos en nuestro día a día.

Además no solo hablamos de los datos, sino también de los metadatos (datos que describen otros datos). Una imagen es un dato, mientras que la fecha en la que se tomó, la localización y el modelo de la cámara, por ejemplo, son sus metadatos. [🛠️ Con herramientas como EXIF.tools puedes comprobarlo.]

Otra característica importante del big data es la velocidad que hace referencia al ritmo con el que esos datos se generan y deben ser analizados. Por ejemplo, cuando buscas algo en Google, esperas obtener resultados de inmediato, sin tener que esperar minutos u horas para que el buscador muestre la información que deseas.

🤯Usando la velocidad de generación de datos para hackear el sistema 👇

Por último, una característica fundamental es la variedad, que indica que esos datos no son siempre del mismo tipo: algunos serán imágenes, otros vídeos, textos o sonidos, de ahí la enorme complejidad que tiene analizar estos datos en su conjunto.

Si alguna vez has esquivado un atasco porque los viste en Google Maps, cancelaste un viaje porque la previsión daba fuertes lluvias o compraste un producto que Amazon te sugirió, felicidades, ya te has beneficiado de las aplicaciones del Big Data.

Si quieres entender cómo ocurre toda esta magia, sigue leyendo.

4.2. Visualización, transporte y almacenaje de los datos

Ahora que ya sabemos qué es el big data y cuáles son sus características principales, es el momento de preguntarnos cómo se gestionan estos datos para que sean realmente útiles. Para ello, nos vamos a centrar en tres aspectos fundamentales: la visualización, el transporte y el almacenaje de los datos.

Empecemos con la visualización. ¿Recuerdas esos gráficos interactivos en páginas web o en redes sociales que muestran cómo evoluciona algo en tiempo real, por ejemplo, el número de visitas a una publicación de TikTok o cómo se reparten los votos durante unas elecciones?

Estas visualizaciones permiten que entendamos rápidamente información compleja, ayudándonos a detectar patrones o tendencias que de otra manera serían difíciles de ver. Piensa en la diferencia entre mirar una lista interminable de números y observar esos mismos datos presentados en un gráfico claro e intuitivo. La visualización convierte datos complejos en información comprensible.

🤯 Spotify domina como nadie este arte de usar la visualización de datos en beneficio propio 👇:

Para visualizar los datos, estos han debido de salir de algún sitio para poder llegar a los gráficos, es decir, ha debido viajar desde el punto donde se genera hasta donde se analiza. Por ejemplo, cuando grabas un vídeo con tu móvil y lo compartes por WhatsApp, esos datos viajan rápidamente por redes de telecomunicaciones, pasando por antenas, servidores y nodos intermedios hasta llegar al móvil de tus amigos. Esto es especialmente importante porque hablamos de enormes volúmenes de información que deben moverse constantemente y a gran velocidad. Por ello, tecnologías como la fibra óptica, las conexiones móviles 5G y el almacenamiento en la nube han revolucionado nuestra capacidad para transportar estas enormes cantidades de datos con rapidez.

Además, aunque creas que toda esta información viaja mayoritariamente por redes WiFi, antenas o usando satélites, la realidad es que la transmisión de datos se realiza principalmente por cable.

¿Cable? ¿Y cómo cruza un cable el océano? Pues por el fondo 😃

👉 MIRA 👈

Y hablando de almacenamiento, ¿dónde se guarda toda esa información generada a cada instante? Para que te hagas una idea, cuando subes fotos o vídeos a la nube, en realidad se están almacenando en enormes centros de datos (conocidos como data centers) formados por miles de servidores repartidos por todo el mundo. Empresas como Google, Amazon o Meta poseen gigantescos almacenes de datos capaces de guardar información equivalente a millones de ordenadores personales. Almacenando los datos en la nube, podemos acceder a ellos en cualquier momento, facilitando además que múltiples personas o sistemas trabajen con la misma información de forma simultánea.

Aunque no son solo las grandes compañías las que almacenan los datos en la nube, también lo hacen todas las administraciones públicas: semáforos, hospitales, centros educativos,…, todo dejaría de funcionar si se cayeran estos centros de datos. Son tan importantes para los países, que se consideran infraestructuras estratégicas.

Bien, tenemos los datos almacenados, los transportamos y los visualizamos para que el usuario pueda conocerlos. Pero, ¿cómo se recogen y analizan los datos? Y, por supuesto, ¿cómo se generan?

4.3. Recogida, análisis y generación de datos

Estos procesos nos permiten convertir datos en bruto, aparentemente caóticos, en información útil.

📲 El primer paso es la recogida de datos, que consiste en obtener información relevante para el estudio que queremos realizar. Por ejemplo, si quieres analizar cómo influye el tiempo que dedicas a estudiar en tus resultados académicos, podrías recoger estos datos registrando diariamente cuánto tiempo pasas estudiando y cuáles son tus calificaciones en los exámenes. Pero a nivel mucho más alto, herramientas como Instagram recogen continuamente datos sobre tu actividad: qué publicaciones te gustan, cuáles compartes o cuánto tiempo dedicas a cada vídeo.

Esta información les permite conocerte mejor y ofrecer contenido adaptado a tus intereses. Por tanto, la recogida de datos no solo se limita a tu entorno cercano, sino que ocurre constantemente, a través de múltiples dispositivos digitales.

Vale, las empresas tienen sistemas automatizados para recabar todos los datos que quieran pero, ¿cómo podemos hacerlo nosotros?

📊 Tras obtener los datos necesarios, llega el momento del análisis. Esta fase es clave porque consiste en interpretar lo que hemos recogido, buscando patrones, relaciones o tendencias que nos ayuden a entender mejor la situación estudiada. Volviendo al ejemplo anterior, al analizar el tiempo que estudias y tus resultados, podrías descubrir que a partir de cierta cantidad de tiempo invertido, tus notas mejoran notablemente, permitiéndote así planificar mejor tu rutina de estudio. Otro ejemplo habitual es cuando una plataforma como Spotify analiza los datos de millones de usuarios para detectar tendencias musicales, recomendando canciones o creando listas personalizadas basadas en gustos similares a los tuyos.

⚡ Finalmente, hablamos de la generación de datos, que se produce cuando, tras analizar información existente, somos capaces de crear nuevos datos o predicciones útiles. Por ejemplo, si una tienda online analiza los hábitos de compra de sus clientes durante meses, podría generar datos sobre cuántos productos debe tener en stock para una temporada concreta, reduciendo así el riesgo de quedarse sin existencias o de tener demasiados productos que no se vendan. Otro ejemplo que seguramente conoces es el auto corrector de tu móvil, que genera sugerencias de palabras en tiempo real, basándose en los textos que escribes habitualmente.

4.4. Simulación de fenómenos naturales y sociales

Cuando queremos entender fenómenos muy complejos, como la evolución del clima, el tráfico en una ciudad o incluso cómo se propaga una enfermedad, muchas veces no podemos estudiarlos directamente en la vida real. Por esta razón, usamos técnicas de simulación, es decir, representaciones creadas con ordenador que nos permiten observar cómo se comportan estos fenómenos en diferentes situaciones, sin tener que vivirlos realmente.

Pero, ¿qué es exactamente una simulación? Podemos pensar en ella como un videojuego en el que introducimos unas reglas iniciales y luego observamos cómo evoluciona la situación, dependiendo de cómo cambien esas reglas o condiciones. Por ejemplo, si quisiéramos estudiar cómo afectaría a una ciudad aumentar o reducir el número de autobuses. Podríamos usar una simulación que muestre cómo varía el tráfico, el tiempo que tardan las personas en llegar a su destino o incluso cuánto disminuiría la contaminación. Así, tomaríamos decisiones basadas en ciencia de datos y no solo en intuiciones.

Las simulaciones pueden aplicarse también a fenómenos naturales. Es posible que hayas oído hablar de simulaciones que predicen cómo evolucionará el clima en los próximos años, qué zonas podrían sufrir sequías o inundaciones, o cómo se extendería un incendio forestal en ciertas condiciones meteorológicas. Gracias a estas simulaciones, podemos anticiparnos a sucesos peligrosos y reducir su impacto.

Simulación de las zonas inundables de Huelva.

De la misma manera, se pueden simular otros fenómenos sociales como la difusión de noticias falsas en redes sociales o el comportamiento de personas durante evacuaciones en emergencias.

Útil ¿verdad?

¿Sabes qué es lo que se necesita para poder realizar todas esas simulaciones?

Efectivamente, datos. Muchos datos. 

Y otra cosa más: un modelo.

4.5. Descripción del modelo

Podemos entender un modelo como una representación simplificada de la realidad que queremos estudiar, en la que recogemos los aspectos esenciales del fenómeno, descartando aquello que consideramos irrelevante para nuestro propósito. Piensa, por ejemplo, en una maqueta arquitectónica: no representa cada detalle de un edificio, pero nos ayuda a visualizar claramente cómo será su estructura principal.

En ciencia de datos ocurre algo parecido. Al crear un modelo seleccionamos qué aspectos y variables son realmente importantes para responder nuestras preguntas. Por ejemplo, si queremos estudiar qué factores influyen en que una publicación de TikTok se haga viral. Podríamos decidir que en nuestro modelo incluiremos variables como la duración del vídeo, el tipo de música utilizada, la hora en que se publica o cuántos seguidores tiene el usuario, mientras descartamos otros aspectos menos relevantes como el color de la ropa o detalles insignificantes en el fondo.

Como ves, un modelo no tiene que ser algo necesariamente complejo, pero sí debe reflejar con claridad las relaciones entre los diferentes elementos implicados.

Es muy importante entender que ningún modelo es perfecto; todos simplifican la realidad, por lo que siempre debemos tener en cuenta sus limitaciones. Por eso, al interpretar los resultados que nos ofrece un modelo, debemos hacerlo con espíritu crítico, preguntándonos si hemos tenido en cuenta las variables adecuadas y si el modelo realmente refleja bien la situación que estamos analizando.

4.6. Identificación de agentes

Cuando construimos modelos para, especialmente si están relacionados con fenómenos naturales o sociales, es importante identificar claramente a los protagonistas principales del sistema, conocidos en ciencia de datos como agentes.

Podemos decir que un agente es cualquier elemento activo del modelo que toma decisiones, interactúa con otros agentes o con su entorno, y puede provocar cambios en el sistema.

Para entender mejor esta idea, imagina que queremos simular el tráfico en una ciudad. En este caso, los agentes serían los coches, las motos, las bicicletas, los peatones e incluso los semáforos, ya que cada uno de ellos actúa según ciertas reglas definidas, influyendo en cómo evoluciona el tráfico general.

La identificación correcta de los agentes es clave para que nuestra simulación sea útil y creíble. Si, por ejemplo, en la simulación del tráfico olvidáramos incluir como agentes a los peatones, estaríamos ignorando un aspecto fundamental del sistema, y las predicciones que obtuviéramos serían incompletas o poco realistas. Por eso, en esta fase es importante hacerse preguntas como: ¿qué elementos actúan en nuestro sistema?, ¿cómo interactúan unos con otros?, ¿quién influye más sobre el comportamiento global?

En resumen, cuanto más clara sea la identificación de agentes, más precisas serán nuestras simulaciones y más útil será la información que obtengamos de ellas para entender fenómenos complejos y tomar mejores decisiones informadas.

4.7. Implementación del modelo

Una vez definidos claramente el modelo y sus agentes, es el momento de llevar nuestra simulación al terreno práctico. Es a lo que llamamos implementar el modelo.

Para hacerlo realidad, contamos principalmente con dos vías: (1) utilizar software especializado o (2) programar directamente nuestro propio modelo. Ambas opciones tienen ventajas y se eligen en función del tipo de simulación que queramos realizar, el nivel de personalización que busquemos, o nuestros conocimientos previos.

1️⃣ Empecemos con la implementación mediante software específico. Existen programas especialmente diseñados para crear simulaciones de forma sencilla e intuitiva, en los que basta con definir los agentes, asignarles comportamientos y ejecutar la simulación para observar resultados.

Un ejemplo muy conocido podría ser el uso de programas como NetLogo o AnyLogic, que permiten simular rápidamente fenómenos complejos como el comportamiento de multitudes en eventos deportivos, la expansión de un incendio forestal o incluso la dinámica de grupos sociales en redes digitales. La ventaja principal de estas herramientas es que no requieren profundos conocimientos de programación y permiten visualizar rápidamente cómo evoluciona el sistema, facilitando así la experimentación y la comprensión.

2️⃣ Por otro lado, podemos optar por la implementación mediante programación, utilizando lenguajes como Python, que ya conoces, o cualquier otro lenguaje de programación adecuado para simulaciones. Aunque esta opción requiere más esfuerzo inicial, tiene la ventaja de que ofrece una mayor flexibilidad y control sobre cada detalle del modelo. Además, programar tu propia simulación desde cero te permitirá adaptarla perfectamente a tus necesidades específicas.

Elegir entre utilizar software específico o realizar una programación personalizada depende, principalmente, del objetivo que persigamos y de nuestras habilidades técnicas.

Si nuestro objetivo es obtener resultados rápidos con poco esfuerzo, usar software específico es la mejor opción. En cambio, si buscamos precisión y personalización completa, aprender a programar modelos propios será una opción más útil a largo plazo.

4.8. Técnicas de predicción de datos como sistemas de apoyo a la decisión

Cuando trabajamos con datos, una de las tareas más fascinantes que podemos hacer es utilizar la información que tenemos del pasado para predecir qué podría ocurrir en el futuro. Estas predicciones no son magia, sino que se basan en técnicas matemáticas y algoritmos informáticos que identifican patrones en los datos recogidos, permitiéndonos anticiparnos a lo que está por venir.

Las técnicas de predicción de datos pueden ayudarnos enormemente en situaciones habituales, en las que debemos tomar decisiones complejas.

Por ejemplo, piensa en cómo una aplicación meteorológica utiliza información recopilada durante años para predecir si mañana lloverá o hará sol. Basándose en esos datos, decides si llevar paraguas o no.

Aunque parezca simple, este proceso implica modelos matemáticos y algoritmos que analizan variables como temperatura, humedad o presión atmosférica para ayudarte a tomar una decisión adecuada.

GraphCast AI: predicción de la velocidad del viento en superficie a 10 días vista.

Del mismo modo, empresas como Amazon o Netflix utilizan estas técnicas para predecir qué productos o contenidos te interesarán más en función de lo que ya has comprado o visto previamente. La capacidad de anticipar tus preferencias les permite ofrecerte recomendaciones personalizadas, mejorando tu experiencia como usuario y facilitando tus decisiones de compra o entretenimiento.

Además, las técnicas predictivas son especialmente útiles en ámbitos como la medicina o la salud pública. Gracias a estas predicciones, las autoridades pueden anticipar campañas de vacunación, gestionar hospitales de una manera más eficiente o programar pruebas para determinadas franjas de edad en población de riesgo, como ocurre en el caso del cáncer de mama o el glaucoma.

Es importante entender que las predicciones nunca son certezas absolutas, sino que proporcionan escenarios probables basados en los datos que tenemos. Por ello, la interpretación de estas predicciones siempre debe realizarse con espíritu crítico, sabiendo que pequeños cambios en las condiciones iniciales pueden provocar diferencias significativas en los resultados.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *