Currículo: esta unidad desarrolla todos los saberes básicos del Bloque G – Datos masivos correspondiente a 3ºESO. Además, se evalúan los criterios que puedes encontrar al final de esta página.
Tabla de contenidos
- 7.1. Clasificación de los metadatos
- 7.2. Uso de Metadatos
- 7.3. Almacenamiento de metadatos
- 7.4. Data scraping
En el mundo actual, donde la información fluye de manera constante y en volúmenes inmensos, la capacidad para gestionar, entender y analizar datos se ha convertido en una habilidad fundamental.
El estudio de los Datos Masivos, o «Big Data», ofrece tanto los conocimientos necesarios para gestionarlos como las mejores herramientas que nos permiten hacerlo de manera eficiente.
7.1. Clasificación de los metadatos
Los metadatos son información adicional que describe y contextualiza los datos (puedes revisar el estudio que hicimos aquí y aquí en años anteriores).
Antes de adentrarnos en cómo se utilizan los metadatos, es importante entender que existen diferentes tipos, cada uno con funciones específicas.
Vamos a explorar las clasificaciones más comunes de los metadatos, entendiendo sus diferencias y aplicaciones.
7.1.1.Descriptivos
Su objetivo es facilitar la identificación y búsqueda de recursos relevantes. Los metadatos descriptivos pueden incluir información sobre el autor, la ubicación, la fecha de captura y las palabras clave asociadas a una imagen.
Por ejemplo, cuando subes una foto a tu ordenador, los descriptores de metadatos te permiten buscarla rápidamente en el futuro.
Además son muy útiles en bibliotecas digitales y bases de datos para ayudar a los usuarios a encontrar lo que buscan sin necesidad de revisar el contenido completo.
7.1.2. Administrativos
Son los metadatos relacionados con la gestión y organización de los datos, como derechos de acceso, formato y ubicación.
Estos metadatos se utilizan para controlar el acceso a los datos y garantizar la seguridad.
Por ejemplo, se pueden definir permisos de acceso y seguimiento de cambios en documentos corporativos, como el historial de cambios en un documento de Google Docs.
Los metadatos administrativos también se aplican a la preservación de datos a largo plazo, asegurando que la información crítica permanezca dentro de la organización.
Son muy usados, por ejemplo, en el sector sanitario cuando se toma una imagen de nuestro cuerpo como una radiografía, un TAC o una resonancia magnética, incluyéndose tipo y modelo de escáner utilizado, resolución, paciente, limitaciones de reproducción… etc.
7.1.3. Técnicos
Estos metadatos describen propiedades del archivo, como su fecha de creación, modificación, tamaño y formato. Son fundamentales para la interoperabilidad de sistemas digitales.
Herramientas online como Jimpl ofrecen este tipo de metadatos.
Además, si un archivo está comprimido, los metadatos técnicos indicarán el tipo de compresión utilizado.
7.1.4. Estructurales
Los metadatos estructurales describen la organización interna y las relaciones entre partes de un conjunto de datos, como índices y tablas.
Por ejemplo, los metadatos de un libro proporcionarían información sobre sus capítulos.
Como ves, cada tipo de metadato desempeña un papel fundamental en la gestión y el uso eficiente de la información. Recuerda que los metadatos son indispensables para la búsqueda, recuperación y comprensión de los datos.
7.2. Uso de Metadatos
El uso efectivo de los metadatos transforma la manera en que se maneja la información digital, haciendo que los procesos sean más eficientes y las búsquedas más efectivas.
A continuación, se detalla cómo los metadatos son aplicados en distintos contextos prácticos, destacando su importancia en actividades cotidianas y en procesos organizacionales complejos.
- Optimización de sistemas de gestión de contenidos.
En los sistemas de gestión de contenidos (CMS), los metadatos descriptivos son indispensables para categorizar y etiquetar contenido, lo que facilita la automatización en la presentación y la búsqueda de información relevante.
Por ejemplo, todos los portales de noticias utilizan metadatos para gestionar las publicaciones, clasificándolas por fecha, autor y etiquetas, permitiendo a los usuarios y a los motores de búsqueda encontrar contenido relevante rápidamente.


- Mejora de la eficiencia en sistemas de archivo digital.
Los metadatos estructurales permiten a las empresas y organizaciones archivar documentos de manera que se conserven las relaciones lógicas y estructurales, facilitando su recuperación incluso décadas después de su creación.
Por ejemplo, un sistema de gestión documental en un hospital cataloga informes médicos por paciente, fecha y tipo de documento (radiografías, análisis, notas médicas), haciendo posible que el personal médico acceda rápidamente a toda la historia clínica de un paciente.

- Control de acceso y seguridad.
Los metadatos administrativos son fundamentales para establecer y controlar los permisos de acceso a la información, garantizando que solo las personas autorizadas puedan acceder a datos sensibles.
Por ejemplo, en una plataforma de gestión de proyectos, los metadatos pueden determinar qué miembros del equipo tienen acceso a ciertos archivos, basándose en su rol y en el nivel de confidencialidad del proyecto.

- Análisis forense digital.
En el contexto legal y de seguridad, los metadatos son herramientas valiosas para el análisis forense digital, proporcionando pistas cruciales sobre la autoría, la manipulación y el origen de los documentos electrónicos.
Por ejemplo, en investigaciones de seguridad informática, los metadatos de un archivo pueden revelar cuándo fue modificado por última vez y por quién, información clave en litigios o investigaciones de filtraciones de datos.

- Optimización del rendimiento de bases de datos.
Los metadatos son muy importantes para el diseño y la optimización de bases de datos -sistemas de almacenamiento que relacionan unos datos con otros-, proporcionando información sobre las relaciones entre diferentes tablas y el tipo de datos que contienen.
Por ejemplo, garantizan que un dato sólo se pueda guardar si está en el formato indicado, si es coherente con las relaciones que existen o si su tamaño concuerda con las reglas de almacenamiento establecidas, lo cual permite que luego las consultas sean eficientes y proporcionen la información esperada.

Estos son solo algunos ejemplos que ilustran la importancia de los metadatos y cómo su correcta utilización puede impactar significativamente en la seguridad de la información almacenada.
En el siguiente apartado, abordaremos cómo se almacenan estos metadatos para asegurar su integridad y disponibilidad a largo plazo.
7.3. Almacenamiento de metadatos
El almacenamiento eficaz de metadatos constituye una tarea fundamental para garantizar que estos puedan ser recuperados, gestionados y utilizados correctamente a lo largo del tiempo.
Veamos los métodos más importantes de almacenamiento de metadatos que podemos encontrarnos.
7.3.1. Bases de datos dedicadas
Se utilizan bases de datos especialmente diseñadas para manejar grandes volúmenes de metadatos. Estas bases están optimizadas para operaciones de consulta rápidas y eficientes.
Una base de datos no es otra cosa que una colección de tablas que almacenan datos y que, con sus relaciones, permiten describir sistemas que resuelven una necesidad.

En la imagen anterior, existen 3 tablas que se usan para gestionar una empresa de paquetería. La primera tabla CONDUCTORES, almacena datos básicos de los conductores, la segunda tabla VEHICULOS almacena datos identificativos de los vehículos de la empresa y la última REPOSTAJES, relaciona las dos primeras tablas para mantener un registro del gasto en combustible de cada vehículo y el empleado que lo realizó. Los metadatos asociados como el formato del dato ID_e, la numeración de la seguridad social o la obligatoriedad de que en las dos columnas de la tercera tabla solo pueda haber valores de las primeras columnas de las dos primeras tablas, también se almacenan en la base de datos para garantizar que el sistema ofrece la información correcta,
De la misma manera que hemos distrito el sistema de información anterior, los sistemas de bases de datos nos permiten gestionar una biblioteca digital para almacenar metadatos sobre autores, títulos y temáticas, facilitando así la búsqueda y organización de los recursos; o sistemas más complejos como Netflix que en pocos segundos es capaz de mostrarnos cualquier serie o película que busquemos usando su título, director o número de temporadas.
7.3.2. Almacenamiento en la nube
Los metadatos se almacenan también en servidores remotos, proporcionados por servicios en la nube, que ofrecen escalabilidad y accesibilidad desde cualquier lugar.
Esto proporciona una enorme flexibilidad, ideal para organizaciones con grandes cantidades de datos y metadatos que necesitan ser accesibles desde múltiples ubicaciones.
Piensa por ejemplo en tus archivos de Google Drive, un servicio en la nube que opera globalmente y que utilizar almacenamiento en la nube para mantener un acceso uniforme y sincronizado a los metadatos de sus archivos desde cualquier lugar del mundo.

7.3.3. Sistemas de archivos y repositorios
Los metadatos se almacenan junto con los datos que describen, con frecuencia en el mismo sistema de archivos o repositorio.
Un repositorio es un espacio centralizado donde se almacena, organiza, mantiene y difunde información digital, habitualmente archivos informáticos. Puede contener trabajos científicos, conjuntos de datos o software. Los repositorios son herramientas que preservan y organizan cualquier tipo de archivo digital, garantizando el acceso a la información.

Este tipo de sistemas tienen algunas ventajas importantes, como por ejemplo la simplificación de la gestión de metadatos al mantenerlos cerca de los datos a los que hacen referencia.
En sistemas de gestión documental, como Github, los metadatos relacionados con documentos específicos (como fecha de creación y modificaciones) se almacenan en el mismo repositorio para facilitar su gestión integrada.
Antes de finalizar este apartado, es importante tener en cuenta algunas consideraciones para el almacenamiento de metadatos:
- Seguridad: es fundamental asegurar los metadatos para proteger la privacidad y la integridad de los datos que describen.
- Accesibilidad: los metadatos deben ser fácilmente accesibles para aquellos usuarios y sistemas que los necesiten para realizar sus funciones.
- Escalabilidad: los sistemas de almacenamiento deben poder expandirse para acomodar el crecimiento en el volumen de metadatos.
Para concluir, el almacenamiento de metadatos debe ser planificado y gestionado con cuidado para asegurar que estos recursos críticos sean preservados de manera segura y eficiente. Esto no solo implica la elección del tipo de almacenamiento, sino también la implementación de políticas que regulen el uso de estos metadatos.
7.4. Data scraping
El «data scraping» («raspado de datos») consiste en la extracción masiva de información desde sitios web para convertirla en formatos más sencillos y fáciles de manejar.
Su utilidad radica en extraer información relevante, como precios de productos, noticias, reseñas o cualquier otro contenido disponible online para analizarla o integrarla en otros sistemas y mantenerlos actualizados.
Para hacerlo, se utilizan herramientas y técnicas específicas como «web crawlers» («arañas web»), que son programas que navegan por sitios web siguiendo enlaces y recopilando datos de manera desatendida. Esto lo consiguen identificando los elementos específicos (como tablas, listas o párrafos) que se desean extraer y volcándolos a un sistema de almacenamiento como archivos de hojas de cálculo, bases de datos, texto plano o directorios de almacenamiento.

Sin embargo, y aunque no es un proceso tan potente, también es posible hacerlo usando simplemente un navegador web.
Este es un procedimiento muy usado que tiene varias aplicaciones muy útiles:
- Investigación de mercado: obtener datos sobre competidores, precios y tendencias.
- Análisis de opiniones: extraer reseñas de productos o servicios.
- Recopilación de datos para proyectos personales o académicos.
Recuerda que el data scraping debe realizarse de manera ética y respetando los términos de uso de los sitios web, porque se trata en muchas ocasiones de prácticas no permitidas.