Átomos, información, datos y combinatoria
Esta publicación responde a una invitación de la revista Andamios del Tribunal Supremo Electoral Boliviano. La revista puede descargarse aquí.
Átomos y datos
Los datos no son otra cosa que la expresión de la existencia de información. El oro, hierro, bismuto, cobre, entre otras tantas materias, han existido antes que el invento de la tabla periódica en 1896. La creación de la tabla periódica a su vez se nutre de los datos que fueron develados muchísimo antes: la estructura atómica y sus protones, electrones y neutrones. Mucho después la física cuántica afinó los planteamientos iniciales de J.J. Thomson que creía que el átomo era como un panetón de navidad cuyas pasas eran los electrones. Es también la física cuántica incorpora la probabilidad en el cálculo del movimiento del electrón, por ejemplo. En síntesis, electrones, cobre y hierro han existido siempre como información, los datos son los parteros a nuestra realidad. Son los fórceps. Como decía Bergson “lo posible esta allí desde siempre, esperando su hora, solo le falta una gramática y una sintaxis para existir”. Solo le faltan los datos, diríamos aquí.
La información y los datos entonces tienen una relación simbiótica con la materia. Escarbando hasta el último nivel, el ADN de la información está en las intimidades de un átomo. El descubrimiento de más información no es otra cosas que el reflejo del progreso de la humanidad. Los datos son la forma de almacenar los descubrimientos.
Hay entonces información pre-existente que nace con el dato y hay información que siendo dato se amalgama con otra(s) información(es) generando una nueva materia. César Hidalgo, quien lidera el “Macro Connections group” en el MIT [1] Media Lab ofrece un claro ejemplo para distinguir ambos tipos. La manzana, con todas sus moléculas, existía antes de que le llamáramos manzana. Sin embargo, un celular iPhone que tiene estampada un manzana es una “materia imaginada cristalizada” que utiliza materia/información existente, la combina y crea un celular. (Hidalgo, 2015b)
El ejemplo del iPhone permite introducir un tema clave para el mundo de los datos: la combinatoria. Hace 1200 años atrás Alcuino de York fundó la potente herramienta del cómputo por combinatorias y permutaciones. “Temprano una mañana, sales para el mercado. Vas a vender un lobo, una cabra y una col. El camino es escabroso y peligroso, y tú tienes que vigilar constantemente al lobo para que no se coma a la cabra, y a la cabra, para que no se coma la col. Estás por llegar, pero te falta salvar un obstáculo más: un río. Afortunadamente hay un bote, pero es demasiado pequeño así que solo puedes llevar una cosa por viaje. ¿Cómo haces para pasar todo al otro lado sin que nada termine en el estómago de tus dos animales? En el primer viaje, tienes que llevarte la cabra en el bote. Regresas y te llevas el lobo, lo dejas en la otra orilla pero te traes la cabra, a la que dejas donde empezaste para traer la col y finalmente, puedes traer la cabra contigo” (BBC, 2017)
El autor del acertijo es Alcuino de York. El detrás de bambalinas de las posibles decisiones es la combinatoria, es decir, como elijo 2 opciones entre tres posibles elementos. Para graficar la importancia de esto piense en una familia de 5 personas que decide tomarse una foto familiar. Cada elemento de la familia puede verse metafóricamente como una pieza para construir un iPhone. Las cinco personas son la materia prima, si se combinan bien se crea un iPhone. Ahora bien, el fotógrafo decide que evaluará todas las posibles fotos que pueden hacerse entre los 5, incluso excluyendo a una o más personas del grupo. La primera aproximación consistiría en analizar cuántas formas posibles hay de combinar a las 5 personas, por ejemplo, mamá y papá a los costados e hijos al medio, o papá juntos a la izquierda e hijos después, etc. Seguidamente, el fotógrafo puede decidir elegir a cuatro miembros, combinarlos, y ver cómo queda la foto, después a tres, a dos y finalmente sacar una fotografía por persona. ¿Cuántas formas en total? 325 posibles combinaciones.
Cuando me permiten escribir bajo la pregunta del título: Acceso y visualización de datos: ¿distribución de poder?, mi respuesta con lo hasta aquí expuesto es: el poder está en saber combinar y en hacer datos de la información. Es decir en la innovación y en saber combinar los datos, en saber hacer un iPhone. Los datos vistos así y no como una tabla de Excel son potentes. Los datos para “algo” son importantes. La visualización es crucial para entender uno mismo los datos y hacer entender los datos a terceros, pero son pasos menores en relación al éxtasis de crear datos. La econometría es la herramienta que con más disciplina ha intentado descubrir cosas combinando datos; ¿la riqueza aumenta la esperanza de vida?, ¿el desarrollo nos hace más altos?, etc.
Las iniciativas sobre datos abiertos son equivalentes a poner en manos de la gente todos los condimentos, carnes, tubérculos, vegetales y granos posibles. Estas esperan que un chef sea capaz de generar una combinación merecedora de una estrella Michelin. Pero quizás mas importante que ambas labores es el descubrimiento de otras variedades de semillas.
A veces sabemos de la existencia de los elementos que nos permitirán cocinar, pero no están al alcance o si están encontramos tubérculos en cajas de fierro con candados (archivos en formato pdf) o accesibles pero con instrucciones en otro idioma, cómo la Encuesta de Hogares de Bolivia para el año 2017 que obliga a quienes quieran explorarla a comprar el software SPSS o saber programación en R.
Entonces, sin innovación, no hay información, sin información no hay datos, sin combinatorias no hay innovación. El mismo César Hidalgo, junto a Ricardo Hausmann y otros han creado un índice complejidad económica que es casi una índice de combinatorias. Es decir, no importa si Chile exporta más en dólares en cobre a Corea del Sur, si este exporta menos dólares en vehículos a Chile. En el fondo, Corea del Sur exporta más complejidad, mas innovación, más información, más datos. (Hausmann, Hidalgo, Bustos, Coscia, & Simoes, 2014).
La combinatoria de datos aterriza también en la cultura. ¿No es acaso la comida India una forma sofisticada de combinar temperaturas, ingredientes, tostados, con ingredientes que todos conocemos? ¿Es la vestimenta de una mujer de Jaipur diferente al canon occidental, el tener un anillo en el dedo gordo del pie? ¿No es acaso García Márquez un experto en combinar palabras que todos conocemos para formar novelas conmovedoras? ¿No es acaso Messi un experto en combinar impulsos nerviosos con respuestas musculares y trigonometría espacial?. Casi todo podría resumirse a la cantidad de elementos a combinar y capacidad de combinatoria. La ciencia de datos frecuentemente se entusiasma con lo primero.
Si se trata de combinación de elementos y/o personas debe existir un lubricante que evite las asperezas. El triunfo de Sillicon Valley puede largamente atribuirse al lubricante que no es otra cosa que la confianza y tolerancia. Richard Florida (2003)atribuye a la tolerancia una de las razones del triunfo de las ciudades, en el sentido que promueve la migración de las mentes más brillantes y su aglomeración. Fukuyama (1995), en la misma línea de Florida argumenta que la confianza detona capital social y este prosperidad. Su argumento central: la confianza y el capital social reducen costos de transacción. En Bolivia 91% de las personas considera que no es una buena idea en confiar en terceros (Centro de Investigaciones Sociales, 2018)
Big data, la revolución industrial y la rata muerta
Siguiendo la línea de la combinatoria, Rifkin propone que las revoluciones industriales dependen de la combinación de tres cosas: generación de energía, medios de comunicación y medios de transporte. La primera revolución utilizó al vapor como energía, al tren como transporte y al telégrafo y teléfono como medio de comunicación. La revolución actual está progresivamente dejando atrás la energía del petróleo y sus derivados y pasando a la energía renovable. El internet es el nuevo medio de comunicación y el transporte es cada vez más colaborativo. (Rifkin, 2011)
Para Rifkin, particularmente el internet y los datos en tiempo real podrían ser el enchufe donde se conecten desde los autos, hasta la administración de energía. Los datos transportarían toda la información acumulada de la sociedad y modificarían el modo en el que vivimos, pensamos y comerciamos. Por ejemplo, podríamos generar a partir de paneles solares o molinos eólicos en el techo de nuestras casas la energía, que de ser excedentaria, estaría disponible en el mercado del internet para venderla a quienes sufran de déficit, todo en segundos. La idea mas provocadora de Rifkin consiste en apostar que el gobierno de los datos y su particular relación con el mercado de energía reducirían el costo marginal de la energía cerca de 0, y esto modificaría la política global.
El ejemplo más cercano es Spotify, la aplicación para escuchar música en vivo tiene un costo marginal muy bajo. El costo para la empresa para que un nuevo usuario acceda al servicio es tan pequeño que se aproxima a 0. Si la energía fuera el Spotify del futuro, entonces las geopolítica del petróleo probablemente se evaporaría. Mckinsey (Dobbs, Manyika, & Woetzel, 2015) ha estimado que la actual revolución industrial es 10 veces más rápida, tiene una escala 300 veces más grande y un impacto 3000 veces mayor.
Las cifras de Mckinsey son una avalancha que cuesta deglutir y abren interrgoantes ¿Si los datos quieren gobernarlo todo, cuánta información hay en el mundo hoy? ¿Pude el mundo lidiar con tanta información? ¿La capacidad de procesamiento de información del ser humano y de las computadoras están listas para la abundancia de los datos? ¿Cómo está afectando la sobre abundancia de datos a nuestra forma de pensar?
La primera parte trató de algo más abstracto, la relación entre información, datos, combinatorias, innovación y desarrollo. Ahora se aborda los datos puros, los que generamos con los click, los que modifican referendos y los que pueden procesarse hoy en bases de datos.
El exceso de información se sintoniza con la idea de Rifkin de conectarlo todo al internet. La dificulta de explicar la cantidad actual de información en el mundo ha llevado a aproximar el tema desde diferentes posiciones. Una de ellas es calcular la magnitud de información que se genera, la otra la capacidad de almacenamiento y finalmente, la qué se vuelve obsoleta cada segundo, es la que intenta calcular la magnitud de información disponible. La universidad de Berkeley (2003)intentó responder desde la última posición. Su respuesta: desde que la humanidad empezó a archivar su producción hasta el año 2002 5 exabytes que es lo mismo que 5 trillones de gigabytes que es lo mismo que un estadio de cerca de 40 mil personas llenas de DVD´s con información hasta el límite de su capacidad. A partir de allí Kirk Borne (2013) estima que esa misma cantidad, es decir un estadio lleno de DVD´s se creo en el año 2003. Para el año 2011, dice, se creaban estadios llenos de DVD´s con información cada dos días y para el 2013 se creaba la misma cantidad de información cada 10 minutos. Quizás hoy el ritmo de generación de información esté en segundos. Se calcula, por ejemplo que la información que generen los autos inteligentes, que se manejan solos, será de 1 gigabyte por segundo. (Mearian, 2013)
Martin Hilbert y Priscila López (2011) también calcularon la cantidad de información desde la perspectiva del almacenamiento. Para el 2007, nos dicen el almacenamiento de información podría crear un camino 4, 5 veces mas largo entre la luna y la tierra con puros DVD’s con onformación. Ahora, si pensamos que datos e información no son sinónimos de computadoras sino toda la información contendida en el ADN humano, en los átomos, en la materia en general, Hilbert nos dice que el El ADN humano en sus 60 trillones de células de un cuerpo humano almacena mas información que todas nuestras computadoras juntas (Hilbert, 2012)
En trabajo muy desafiante Seth Lloyd, profesor de computación quantum en el MIT, se propuso calcular toda la información posible que el mundo podría almacenar. La respuesta es clara: tanta información cómo átomos existentes en la tierra; 1090 bits. . Juntando el trabajo de Lloyd y Hilbert y López. Hidalgo (2015b)estima que considerando la información como hecho omnipresente el mundo necesitaría “más de un trillón de años para llenar toda la capacidad de almacenamiento de información del planeta, generando 1021 bits por segundo”.
Ahora bien, la información sin capacidad de procesamiento no es nada. Una base de datos necesita de un Excel, Numbers, SPSS, R, Python u otro software para procesarse, estos programas a su vez necesitan de computadores con procesadores de “x” núcleos, sean INTEL u otros. Las plantas para saber la cantidad de agua y sol que deben colectar necesitan capacidad de procesamiento a nivel molecular, los pájaros que migran, el sistema nervioso etc. (Hidalgo, 2015a)
Entonces, ¿nuestra capacidad de procesamiento es limitada y debe ser suplida por inteligencia artificial?. Depende, Levitin calcula que la velocidad de procesamiento del ser humano es de 160 bits pro segundo, de los cuales utilizamos la mitad cuando sostenemos una conversación. La inteligencia artificial basa su éxito en la sustitución del ser humano en velocidad de procesamiento. Sin embargo cuando hablamos de la velocidad de procesamiento de la información a nivel del ADN, el envío de una orden cerebral para mover un dedo, nuestro cerebro es aún más potente “Cien cerebros juntos pueden aproximadamente ejecutar tantos impulsos nerviosos como nuestra computadora puede ejecutar instrucciones por segundo y el sistema circulatorio de 1000 personas envía tantas células de sangre por segundo como todos los humanos envían bits….Pero la humanidad está alcanzando niveles de procesamiento que utiliza la naturaleza para sostener la vida inteligente” (Hilbert, 2012).
Los efectos del exceso de datos a nivel cerebral es una rama novedosa de estudio de la neurociencia. Levitin (2014). ha detectado que la novedad de la información nos produce ansiedad en la espera y placer al recibirla. En un experimento brevemente detallado en una nota publicada en el periódico The Guardian Levitin (2015)cuenta como a una rata le introducen cátodos en la parte del cerebro en la que se activa el placer cuando recibimos una nueva información, un nuevo mensaje de whatsapp, por ejemplo. La rata, en el experimento, era capaz de darse descargas eléctricas autónomamente. Lo hace hasta morir, descuidando la comida por el placer.
El placer al recibir nueva información se debe a que se ha dislocado el mensaje del mensajero. Antes, cuando uno recibía un mensaje por telegrama sabía, sin mirar el mensaje, que algún familiar había muerto. El telegrama su usaba para anunciar muerte. Sin embargo ahora, los canales son múltiples y no tienen significado. Un mensaje al correo electrónico puede significar desde un despido hasta una cadena de oración. Por tanto, se explica la ansiedad de los mensajes nuevos y el placer al quitarles su celofán. Hay una bella narración sobre esto, centrada en el municipio de Irupana escrita por Guimer Zambrana Salas. “El telegrama era el medio del extremo: Te lo enviaban para felicitarte por algún acontecimiento o para comunicarte alguna noticia grave, habitualmente muy dolorosa. Te están buscando, dice que te ha llegado telegrama. El solo anuncio de su llegada era para espantar a cualquiera”. (Zambrana Salas, 2011)
Asimismo, un estudio de Hewlett-Packard reporta que el coeficiente intelectual de sus trabajadores distraídos por los correos electrónicos y llamadas cayó 10 puntos en promedio de su nivel normal. El doble de caída de quienes fuman mariguana. Por su parte, un estudio de Microsoft, detecto que en promedio una persona tarda 24 minutos en volver a su trabajo si es interrumpido por un email (Hemp, 2009). Levitin podría estar en lo correcto: el placer de la interrupción por el exceso de información tiene efectos palpables.
Conclusiones
Esta es una publicación producida por el Tribunal Supremo Electoral y por lo mismo las conclusiones y recomendaciones se dirigirán en algunos casos a esta institución.
- Los datos son solo expresiones de la información. Si somos conscientes de la información pero no se hecho dato debe hacérselo. Aquí algunos ejemplos:
o Tener georeferenciados los resultados electorales a nivel de recintos electorales. De hacerse podría hacer seguimiento histórico de los procesos electorales a partir de 5 mil o más unidades.
o Tener un registro de todos los candidatos electos, muertos, con renuncia y revocados
- La combinatoria de información/datos es vital. ¿Ha ayudado al ley que protege a la mujer de violencia política a reducir las renuncias de mujeres electas? Por ejmplo.
- La visualización es importante pero sin datos no es posible nada
- Aún más importante que todo lo anterior es descubrir información. ¿Qué información se necesita?
- La información ha crecido exponencialmente, pero es poca en relación a la capacidad de almacenamiento global
- La capacidad de procesamiento de datos de las computadoras está alcanzando niveles de procesamiento de la naturaleza. El cerebro humano es todavía mas potente que muchas computadoras juntas.
- Información y datos no son bases de datos en Excel. Información es el ADN del mundo y está a nivel atómico. Los datos dan vida a la información
- El exceso de información a modificado el binomio canal de información-mensaje. Eso a su vez produce ansiedad y placer y afecta nuestra capacidad cognitiva
Referencias
Centro de Investigaciones Sociales. (2018). Encuesta mundial de valores en Bolivia 2017 (pp. 1–74). CIS.
BBC. (2017, Diciembre 17). Cómo Alcuino de York, “el hombre más sabio del mundo,” forjó la base para la computadora hace 1.200 años. Descargado Junio 25, 2018, de http://www.bbc.com/mundo/noticias-42355574
Berkeley University. (2003). How much information? School of Information Management and Systems.
Borne, K. (2013, Junio 10). Big Data, Small World. Descargado Noviembre 2, 2016, de https://www.youtube.com/watch?v=Zr02fMBfuRA&list=FLgR53iAycCt0OthUbOvv0jw&index=45
Dobbs, R., Manyika, J., & Woetzel, J. (2015, Abril). The four global forces breaking all the trends. Descargado Octubre 25, 2015, de http://www.mckinsey.com/insights/strategy/the_four_global_forces_breaking_all_the_trends
Florida, R. (2003). Cities and the Creative Class. City & Community, 2(1), 3–19. http://doi.org/10.1111/1540-6040.00034
Fukuyama, F. (1995). Trust: the social virtues and the creation of prosperity. Free Press.
Hausmann, R., Hidalgo, C. A., Bustos, S., Coscia, M., & Simoes, A. (2014). The Atlas of Economic Complexity. MIT Press.
Hemp, P. (2009). Death by information overload. Harvard Business Review, 87(9), 82–9– 121. Descargado de https://hbr.org/2009/09/death-by-information-overload
Hidalgo, C. (2015a). Why Information Grows. Penguin UK.
Hidalgo, C. (2015b, Julio 7). What is the information storage capacity of Earth, and how full is it today? Scientific American, 1–92.
Hilbert, M. (2012). How much information is there in the “information society?” Significance, 9(4), 8–12. http://doi.org/10.1111/j.1740-9713.2012.00584.x
Hilbert, M., & López, P. (2011). The World’s Technological Capacity to Store, Communicate, and Compute Information. Science, 332(6025), 60–65. http://doi.org/10.1126/science.1200970
Levitin, D. (2014). The Organized Mind. Penguin.
Levitin, D. (2015, October 18). Why the modern world is bad for your brain. Descargado Octubre 26, 2016, de http://www.theguardian.com/science/2015/jan/18/modern-world-bad-for-brain-daniel-j-levitin-organized-mind-information-overload
Mearian, L. (2013, July 23). Self-driving cars could create 1gb of data a second. Computerworld.com. Descargado de https://www.computerworld.com/article/2484219/emerging-technology/self-driving-cars-could-create-1gb-of-data-a-second.html
Rifkin, J. (2011). The Third Industrial Revolution: How Lateral Power Is Transforming Energy, the Economy, and the World. St. Martin's Press.
Zambrana Salas, G. (2011, Septiembre 20). Del telégrafo al celular. Descargado Julio 4, 2018, de https://elmancebao.blogspot.com/2011/09/del-telegrafo-al-celular.html
Massachussets Instute of Techology ↩︎