¿QUÉ SON LOS DATOS?

¿Qué son los datos?

Los datos son representaciones simbólicas (números, letras, hechos, observaciones) de atributos o variables, cuantitativas o cualitativas, que describen hechos, pero carecen de significado por sí mismos hasta ser procesados. Actúan como la materia prima para generar información, la cual se obtiene al estructurarlos, organizarlos y contextualizarlos para la toma de decisiones.

¿Qué son los datos? — concepto amplio y ecosistema

Descripción técnica y práctica sobre qué son los datos, sus tipos, procesos asociados y cómo se convierten en conocimiento útil.

1. Definición amplia

Un dato es una unidad mínima de información: un valor (numérico, textual, binario) que representa una observación o una afirmación sobre el mundo real. Los datos, aislados, tienen poco valor; su valor crece al integrarse, estructurarse y contextualizarse.

2. Tipos de datos (por estructura)

  • Datos estructurados: tablas relacionales, CSV, columnas con esquema definido.
  • Datos semi-estructurados: JSON, XML, Avro — esquemas flexibles y jerárquicos.
  • Datos no estructurados: texto libre, imágenes, audio, vídeo, documentos escaneados.

3. Tipos de datos (por origen y naturaleza)

  • Transaccionales: registros de operaciones (ventas, logs de sistemas).
  • Observacionales / sensoriales: telemetría, IoT, series temporales.
  • Maestro / referencial: catálogos, diccionarios, tablas de referencia.
  • Generados por usuarios: textos, reseñas, contenidos multimedia.
  • Derivados: features, agregados y resultados de modelos.

4. Características clave (4/5 V)

  • Volumen: cantidad de datos (GB, TB, PB).
  • Velocidad: tasa de generación/ingestión (streaming vs batch).
  • Variedad: tipos y formatos diversos.
  • Veracidad: calidad y fiabilidad (ruido, sesgos).
  • Valor: utilidad económica o estratégica tras procesarlos.

5. De datos a conocimiento (piramide DIKW)

Datos → Información → Conocimiento → Sabiduría:

  • Datos: valores sin contexto.
  • Información: datos contextualizados y agregados (p. ej. una tabla ordenada por fecha).
  • Conocimiento: patrones, modelos y reglas inferidas (ML, reglas de negocio).
  • Sabiduría: decisiones estratégicas basadas en criterio, ética y experiencia.

6. Metadatos, ontologías y semántica

Los metadatos describen datos: esquema, origen, fecha, propietario, calidad. Las ontologías y vocabularios (Dublin Core, schema.org, RDF) permiten interoperabilidad semántica y enlazan datos en grafos de conocimiento.

7. Tipos de proceso sobre datos

Operaciones que convierten datos crudos en productos útiles:

  • Captura / Ingesta: batch (ficheros) o stream (events, pub/sub).
  • Validación y calidad: schema checks, deduplicado, imputación de nulos.
  • Transformación: normalización, join, agregación, enriquecimiento (lookup).
  • Almacenamiento: OLTP (bases relacionales), data lake (objetos), data warehouse (columnar).
  • Indexado / búsqueda: motores de búsqueda, índices invertidos.
  • Modelado y análisis: estadísticas, ML, simulación.
  • Publicación / serving: APIs, dashboards, data products.
  • Retención y eliminación: políticas de lifecycle y borrado seguro.

8. Productos de datos y APIs

Un producto de datos es una entrega localizable y reutilizable (dataset, API, dashboard) con SLAs, documentación y ownership. Ejemplos: pipelines ETL, endpoints de features, cubos OLAP, informes periódicos.

9. Almacenamiento y arquitecturas

Modelos habituales:

  • Data Lake: S3/Blob con raw + curated zones (parquet, parquet partitioning).
  • Data Warehouse: columnar para consultas analíticas (Redshift, Snowflake).
  • Lakehouse: unifica lake + warehouse (Delta Lake, Iceberg).
  • Catalog & Lineage: data catalog (Amundsen/Atlas), registro de transformaciones y progenie de datos.

10. Calidad de datos y mediciones

Métricas y controles comunes:

  • Completitud: porcentaje de valores no nulos.
  • Exactitud: concordancia con fuentes fiables.
  • Consistencia: reglas y constraints (p. ej. rango, formato).
  • Unicidad: duplicados detectados por claves naturales.
  • Temporalidad: frescura y latencia.

Herramientas: Great Expectations, Deequ, dbt tests.

11. Gobernanza, ética y protección

La gobernanza define políticas: propiedad (data owners), acceso, clasificación, retención, y cumplimiento (GDPR, privacidad). Aspectos éticos: evitar sesgos, uso responsable y transparencia en modelos.

12. Monetización y valor

Formas de extraer valor: reducción de costes operativos, mejora de procesos, productos basados en datos (pricing dinámico, recomendaciones), venta/licenciamiento de datasets y análisis predictivo como servicio.

Comparativa de tipos de datos

TipoEjemploUso típico
TransaccionalVentas, órdenesOLTP, contabilidad
ObservacionalTelemetría IoTMonitoreo, mantenimiento predictivo
MaestroCatálogos, clientesReferencia única, integridad
No estructuradoEmails, imágenesMining, NLP, visión
DerivadoFeatures ML, agregadosModelado y decisiones

¿Qué puedo hacer con los datos?

ProcesoUso
Análisis de datosInspeccionar, limpiar, transformar y modelar datos con el objetivo de descubrir información útil y extraer conclusiones
Bases de datosGuardar, consultar y actualizar información de forma eficiente
Proceso de datosOperaciones que transforman datos desde su captura hasta su uso final
Protección de datosAsegurar confidencialidad, integridad y disponibilidad de la información
Recuperación de datosAcceder, extraer y reconstruir la información que permanece en soportes de almacenamiento que ya no son accesibles

Snippets / comandos útiles

Comprobar tipo de archivo (Linux)
file datos.csv
jq . item.json | head
Contar filas CSV (csvkit)
csvstat --count datos.csv
csvlook datos.csv | wc -l

Checklist operativo (prioritario)

  • Clasificar datasets y asignar propietarios (data owners).
  • Implementar catálogo con metadatos y lineage.
  • Establecer SLAs de frescura y calidad por dataset.
  • Versionar esquemas y transformations (git + dbt).
  • Políticas de acceso (RBAC / ABAC) y cifrado en tránsito/reposo.
  • Monitorizar calidad y alertar por drift o degradación.