¿Adiós al Big Data?

El Big Data es uno de esos términos que se ponen de moda y calan rápidamente, aunque no se comprenda muy bien de qué estamos hablando. Durante los últimos años era habitual que alguien hiciera un anuncio o una nota de prensa hablando de sus datos y del procesamiento del Big Data cuando probablemente eran datos que se podrían manipular con herramientas sencillas (y, de hecho, se hacía así en muchos casos). Para mi resultó muy ilustrativo (hace no tanto) este tuit que habla del pensamiento que tienen mucha gente sobre lo que es Big Data (observese que fue un término adoptado tan rápidamente que ni siquiera ha habido muchas propuestas de traducción a nuestro idioma).
@jakehofman was pondering a blog post on that, often people contact me about "big data" where big = slightly larger than can fit in excel :)
— Pete Skomoroch (@peteskomoroch) March 6, 2009
Si quiere leer más sobre el tema, What's the origin of the phrase "Big Data Doesn't Fit In Excel"?, aunque estoy divagando.
Porque yo quería hablar (brevemente, que este sitio trata de no ser muy técnico; pero traemos cosas técnicas de vez en cuando) de Big Data is Dead donde Jordan Tigani nos trae ideas parecidas.
Empieza diciendo que íbamos a tener tantos datos que iba a ser un problema, incluso de almacenamiento. Pero lo cierto es que los datos han ido aumentando, pero las máquinas que los podrían manejar han crecido todavía más, así que no tenemos problemas por ese lado.
The data cataclysm that had been predicted hasn’t come to pass. Data sizes may have gotten marginally larger, but hardware has gotten bigger at an even faster rate.
Se decía, nos dice, que pensaban que los sistemas de gestión de datos disponibles no iban a ser suficientes para lo que venía.
The message was that old ways of handling data were not going to work. The acceleration of data generation was going to leave the data systems of yesteryear stuck in the mud, and anyone who embraced new ideas would be able to leapfrog their competitors.
Pero lo cierto es que es un problema distribuido de manera desigual: no todo el mundo tiene (ni tendrá) estas necesidades, ni todas las apliaciones tampoco.
Of course, just because the amount of data being generated is increasing doesn’t mean that it becomes a problem for everyone; data is not distributed equally. Most applications do not need to process massive amounts of data.
Y es que, claro, si tienes una empresa de tamaño mediano, con unos cuantos miles de clientes los números no salen: si cada uno de ellos hiciera cada día un pedido con unos cientos de elementos eso no es más que unos pocos megas de datos cada día.
Imagine you’re a medium sized business, with a thousand customers. Let’s say each one of your customers places a new order every day with a hundred line items. This is relatively frequent, but it is still probably less than a megabyte of data generated per day. In three years you would still only have a gigabyte, and it would take millenia to generate a terabyte.
Pero sobre todo, la clave es que podemos separar perfectamente los datos de su procesado y de esta manera dedicar el esfuerzo necesario a cada uno de ellos (incluso en momentos diferentes: los datos crecen, probablemente, de una cierta forma y nuestras necesidades de procesado se refieren siempre -más o menos- a un cierto periodo reciente).
... neither growing or shrinking, data will increase linearly with time. What does this mean for analytic needs? Clearly data storage needs will increase linearly, unless you decide to prune the data (more on this later). But compute needs will likely not need to change very much over time; most analysis is done over the recent data.
Habla más sobre estos temas pero me los voy a saltar para enfocarnos en uno que se olvida con frecuencia: los datos son una responsabilidad. Empieza diciendo que una definición alternativa de Big Data tiene que ver con lo que sucede cuando el coste de almacenar los datos es menor que el coste de pensar qué datos descartar.
An alternate definition of Big Data is “when the cost of keeping data around is less than the cost of figuring out what to throw away.”
Esto es, los almacenamos porque no dedicamos tiempo ni atención a limpiarlos. Me autocito:
La gestión de los datos antiguos de las empresas ... ¿Tiene sentido conservar y usar datos que ni siquiera son reales ya? https://t.co/2P2qhYtRxW
— fernand0 (@fernand0) June 25, 2023
Pero, como demuestra el ejemplo que acabo de poner, el coste de mantener los datos puede ser alto: protegerlo adecuadamente, recibir sanciones en caso de robo/périda ....
The cost of keeping data around is higher than just the cost to store the physical bytes. Under regulations like GDPR and CCPA ...
También una parte más 'perversa', si quieren: no pueden atacarnos con información que no tenemos: si alguien nos demanda o hay un pleito legal, los correos antiguos podrían usarse contra nosotros. Algunas empresas empiezan a pensar en sus políticas de mantenimiento de los mensajes de correo pensando, también, en esto.
Y quién dice correos, dice cualquier dato.
Just as many organizations enforce limited email retention policies in order to reduce potential liability, the data in your data warehouse can likewise be used against you. If you’ve got logs from five years ago that would show a security bug in your code or missed SLA, keeping old data around can prolong your legal exposure.
Otro tema del que no se suele hablar es el de la obsolescencia de los datos (¿qué sentido tiene almacenar mi dirección de hace 20 años o mi número de teléfono de entonces?), pero también hay otro tipo de obsolescencia, y es el significado de datos que no hemos usado desde hace tiempo.
Code often suffers from what people call “bit rot” when it isn’t actively maintained. Data can suffer from the same type of problem; that is, people forget the precise meaning of specialized fields, or data problems from the past may have faded from memory.
Lectura interesante.
Puedes enterarte de las notas nuevas en: @reflexioneseir (Twitter), Reflexiones e Irreflexiones (Página de Facebook), Reflexiones e Irreflexiones (Canal de Telegram), fernand0 (en LinkedIn), @fernand0 (en Medium), Mastodon.
2023-06-27
16:55
|
0 Comentarios
| In English, please |
En PDF |
Para enlazar # |
| Compartir/Share | por correo | en Twitter | en LinkedIn | en Facebook | en Google+ | en Delicious |
| Compartir/Share | por correo | en Twitter | en LinkedIn | en Facebook | en Google+ | en Delicious |