¿QUÉ SON LOS DATOS?
Enlaces de interés sobre datos
¿Qué son los datos?
Los datos son representaciones simbólicas (números, letras, hechos, observaciones) de atributos o variables, cuantitativas o cualitativas, que describen hechos, pero carecen de significado por sí mismos hasta ser procesados. Actúan como la materia prima para generar información, la cual se obtiene al estructurarlos, organizarlos y contextualizarlos para la toma de decisiones.
¿Qué son los datos? — concepto amplio y ecosistema
Descripción técnica y práctica sobre qué son los datos, sus tipos, procesos asociados y cómo se convierten en conocimiento útil.
1. Definición amplia
Un dato es una unidad mínima de información: un valor (numérico, textual, binario) que representa una observación o una afirmación sobre el mundo real. Los datos, aislados, tienen poco valor; su valor crece al integrarse, estructurarse y contextualizarse.
2. Tipos de datos (por estructura)
- Datos estructurados: tablas relacionales, CSV, columnas con esquema definido.
- Datos semi-estructurados: JSON, XML, Avro — esquemas flexibles y jerárquicos.
- Datos no estructurados: texto libre, imágenes, audio, vídeo, documentos escaneados.
3. Tipos de datos (por origen y naturaleza)
- Transaccionales: registros de operaciones (ventas, logs de sistemas).
- Observacionales / sensoriales: telemetría, IoT, series temporales.
- Maestro / referencial: catálogos, diccionarios, tablas de referencia.
- Generados por usuarios: textos, reseñas, contenidos multimedia.
- Derivados: features, agregados y resultados de modelos.
4. Características clave (4/5 V)
- Volumen: cantidad de datos (GB, TB, PB).
- Velocidad: tasa de generación/ingestión (streaming vs batch).
- Variedad: tipos y formatos diversos.
- Veracidad: calidad y fiabilidad (ruido, sesgos).
- Valor: utilidad económica o estratégica tras procesarlos.
5. De datos a conocimiento (piramide DIKW)
Datos → Información → Conocimiento → Sabiduría:
- Datos: valores sin contexto.
- Información: datos contextualizados y agregados (p. ej. una tabla ordenada por fecha).
- Conocimiento: patrones, modelos y reglas inferidas (ML, reglas de negocio).
- Sabiduría: decisiones estratégicas basadas en criterio, ética y experiencia.
6. Metadatos, ontologías y semántica
Los metadatos describen datos: esquema, origen, fecha, propietario, calidad. Las ontologías y vocabularios (Dublin Core, schema.org, RDF) permiten interoperabilidad semántica y enlazan datos en grafos de conocimiento.
7. Tipos de proceso sobre datos
Operaciones que convierten datos crudos en productos útiles:
- Captura / Ingesta: batch (ficheros) o stream (events, pub/sub).
- Validación y calidad: schema checks, deduplicado, imputación de nulos.
- Transformación: normalización, join, agregación, enriquecimiento (lookup).
- Almacenamiento: OLTP (bases relacionales), data lake (objetos), data warehouse (columnar).
- Indexado / búsqueda: motores de búsqueda, índices invertidos.
- Modelado y análisis: estadísticas, ML, simulación.
- Publicación / serving: APIs, dashboards, data products.
- Retención y eliminación: políticas de lifecycle y borrado seguro.
8. Productos de datos y APIs
Un producto de datos es una entrega localizable y reutilizable (dataset, API, dashboard) con SLAs, documentación y ownership. Ejemplos: pipelines ETL, endpoints de features, cubos OLAP, informes periódicos.
9. Almacenamiento y arquitecturas
Modelos habituales:
- Data Lake: S3/Blob con raw + curated zones (parquet, parquet partitioning).
- Data Warehouse: columnar para consultas analíticas (Redshift, Snowflake).
- Lakehouse: unifica lake + warehouse (Delta Lake, Iceberg).
- Catalog & Lineage: data catalog (Amundsen/Atlas), registro de transformaciones y progenie de datos.
10. Calidad de datos y mediciones
Métricas y controles comunes:
- Completitud: porcentaje de valores no nulos.
- Exactitud: concordancia con fuentes fiables.
- Consistencia: reglas y constraints (p. ej. rango, formato).
- Unicidad: duplicados detectados por claves naturales.
- Temporalidad: frescura y latencia.
Herramientas: Great Expectations, Deequ, dbt tests.
11. Gobernanza, ética y protección
La gobernanza define políticas: propiedad (data owners), acceso, clasificación, retención, y cumplimiento (GDPR, privacidad). Aspectos éticos: evitar sesgos, uso responsable y transparencia en modelos.
12. Monetización y valor
Formas de extraer valor: reducción de costes operativos, mejora de procesos, productos basados en datos (pricing dinámico, recomendaciones), venta/licenciamiento de datasets y análisis predictivo como servicio.
Comparativa de tipos de datos
| Tipo | Ejemplo | Uso típico |
|---|---|---|
| Transaccional | Ventas, órdenes | OLTP, contabilidad |
| Observacional | Telemetría IoT | Monitoreo, mantenimiento predictivo |
| Maestro | Catálogos, clientes | Referencia única, integridad |
| No estructurado | Emails, imágenes | Mining, NLP, visión |
| Derivado | Features ML, agregados | Modelado y decisiones |
¿Qué puedo hacer con los datos?
| Proceso | Uso |
|---|---|
| Análisis de datos | Inspeccionar, limpiar, transformar y modelar datos con el objetivo de descubrir información útil y extraer conclusiones |
| Bases de datos | Guardar, consultar y actualizar información de forma eficiente |
| Proceso de datos | Operaciones que transforman datos desde su captura hasta su uso final |
| Protección de datos | Asegurar confidencialidad, integridad y disponibilidad de la información |
| Recuperación de datos | Acceder, extraer y reconstruir la información que permanece en soportes de almacenamiento que ya no son accesibles |
Snippets / comandos útiles
file datos.csv
jq . item.json | head
csvstat --count datos.csv
csvlook datos.csv | wc -l
Checklist operativo (prioritario)
- Clasificar datasets y asignar propietarios (data owners).
- Implementar catálogo con metadatos y lineage.
- Establecer SLAs de frescura y calidad por dataset.
- Versionar esquemas y transformations (git + dbt).
- Políticas de acceso (RBAC / ABAC) y cifrado en tránsito/reposo.
- Monitorizar calidad y alertar por drift o degradación.