Nº 45 Junio 2008
Índice

- La cita del mes
- Nota del editor
- El pensador del mes
- El Artículo
- Petabytes
- Y algunas reacciones...

La cita del mes

“No existe disputa más violenta que la que se produce entre la gente que aceptó una idea ayer y la que aceptará la misma idea mañana”.

Christopher Morley

Nota del editor

Este nuevo número de Komplex se dedica de forma exclusiva al reciente número de Wired Magazine, presentando la tesis de su editor jefe Chris Anderson: “El final de la teoría, ¿la avalancha de datos volverá obsoleto el método científico?, añadimos una serie de ejemplos que ilustran la tesis y algunas reacciones al anuncio de esta nueva “Era del Petabyte”, recogidas de Edge.

Nuestro objetivo, una vez más, no es otro que proporcionaros nuevos temas de conversación, y como siempre, si deseáis hacer alguna aportación, o comentario o dejar de recibirlo, podéis dirigiros a complejidad@bioef.org.

El pensador del mes

Chris Anderson

Chris Anderson es editor jefe de Wired magazine, desde 2001. Bajo su edición Wired ha sido nominada cinco veces a los National Magazine Award, y ganó el Premio a la Excelencia en 2005, año en que fue reconocido como Editor del Año en Estados Unidos. Es autor de  The Long Tail: Why the Future of Business is Selling Less of More, publicado en 2006 y que alcanzó los primeros puestos entre los libros más vendidos en la lista del New York Times (hay edición en castellano: La economía long tail”.Tendencias. Barcelona. 2007). Mantiene un blog sobre este tema en www.thelongtail.com.
Previamente Anderson había sido editor de la sección de negocios Americana, de la sección de negocios asiática y de la sección de tecnología de  The Economist, de cuya versión digital fue el precursor. Sus comienzos como editor fueron en las dos revistas científicas más prestigiosas: Nature y Science. Previamente había sido investigador en el sistema de física de mesones en el laboratorio de Los Álamos. Es licenciado en Física por la Universidad George Washington  y estudió Mecánica Cuántica y Periodismo científico en Berkeley.

Anderson es un participante regular del World Economic Forum de Davos, Suiza.
El Artículo



El final de la teoría, ¿la avalancha de datos volverá obsoleto el método científico?

"Todos los modelos son erróneos, pero algunos sirven”
Es lo que proclamaba el estadístico George Box hace 30 años, y tenía razón. ¿pero qué alternativa teníamos? Solo los modelos, desde las ecuaciones cosmológicas a las teorías del comportamiento humano, parecían ser capaces de explicar, de forma consistente aunque imperfecta, el mundo que nos rodea. Hasta ahora. Hoy en día compañías como Google, que han crecido en tiempos de datos masivamente abundantes, no necesitan basarse en modelos erróneos. Más aún, no necesitan modelos para nada.
Hace sesenta años, los ordenadores digitales hicieron ”legible” la información. Hace veinte años, Internet la hizo “buscable”. Hace diez años, los primeros y  lentos buscadores la convirtieron en una base de datos unificada. Ahora Google y otras empresas parecidas están escudriñando la época más medida de la historia, tratando este corpus masivo de información como un laboratorio de la condición humana. Son los hijos de la Era Petabyte.
La Era Petabyte es diferente porque más cosas son diferentes. Los Kilobytes se almacenaban en discos blandos. Los Megabytes en discos duros. Los terabytes se almacenaban en “cloud computing”. A lo largo de esta progresión pasamos de la analogía del “archivo” a la del “almacén de archivadores” a la de la “biblioteca” y de ahí a… para los petabytes nos hemos quedado sin analogías organizativas.
A escala de los petabytes, la información no es un asunto de taxonomías y órdenes de simplemente tres (y cuatro) dimensiones, sino de estadísticas dimensionalmente agnósticas. Exige un enfoque radicalmente distinto, uno que requiere que abandonemos las ataduras de considerar los datos como algo que podemos visualizar en su totalidad. Nos fuerza a ver los datos primero de forma matemática y solo después establecerles un contexto. Por ejemplo, Google fue capaz de conquistar el mundo de la publicidad con solo matemáticas aplicadas. No pretendía saber nada sobre publicidad sobre su cultura y sus convenciones, simplemente asumió que mejores datos, con mejores instrumentos de análisis, ganaría la partida. Y tenía razón.  
La filosofía fundacional de Google es que no sabemos por qué esta página es mejor que esta otra: si las estadísticas de los enlaces que nos llevan a ella dicen que lo es, nos basta. No se precisa de análisis semánticos o causales. Por eso Google es capaz de traducir lenguas que no “conoce” (dado el mismo corpus de datos Google traduce kingon al farsi con la misma facilidad que francés al alemán). Y puede adecuar anuncios al contenido sin ningún conocimiento o asunción acerca del anuncio ni de la página.  
Hablando ante el Congreso de tecnologías Emergentes de O'Reilly, este pasado marzo, Peter Norvig, director de investigación de Google, actualizaba la cita de George Box: “Todos los modelos son erróneos y, cada vez más, podemos prescindir de ellos” Estamos en un mundo en el que cantidades ingentes de datos y matemáticas aplicadas están reemplazando a cualquier otra herramienta con la que hubiésemos cargado hasta ahora. Olvidemos las taxonomías, las ontologías y la psicología. ¡Quién sabe por qué la gente hace lo que hace? La cuestión es que lo hace y podemos seguir y medir eso que hacen con una fidelidad sin precedentes. Con datos suficientes los números hablan solos.
Pero el gran objetivo, aquí, no es la publicidad, es la ciencia. El método científico está construido sobre la base de hipótesis que hay que comprobar. Estos modelos, en su mayor parte, son sistemas que los científicos visualizan en su imaginación. Los modelos a continuación son comprobados y los experimentos confirman o falsan esos modelos teóricos de cómo funciona el mundo. Esta es la forma en que la ciencia ha funcionado desde hace unos (pocos) cientos de años.
Los científicos están formados para reconocer que correlación no es lo mismo que causación, que no deben extraerse conclusiones basándose simplemente en una correlación entre X e Y (puede ser mera coincidencia). Por el contrario, se deben buscar y entender los mecanismos que subyacen y que conectan a X e Y. Una vez que tienes un modelo puedes relacionar los conjuntos de datos con confianza. Los datos sin modelo son solo ruido.  
Pero enfrentado a cantidades masivas de datos este  enfoque de la ciencia (hipótesis, modelo, prueba) está resultando obsoleto. Consideremos lo ocurrido en  Física: los modelos newtonianos eran pobres aproximaciones a la realidad (erróneos a nivel atómico, pero útiles a pesar de todo). Hace unos cien años, la mecánica cuántica estadísticamente fundamentada, ofrecía un cuadro mejor, pero la mecánica cuántica no deja de ser también un modelo, y como tal cuajado de imperfecciones, es una caricatura de una realidad subyacente mucho más compleja. La razón por la que la Física ha derivado a especulaciones teóricas sobre modelos unificados de “n” dimensiones durante las últimas décadas (esa fase de  “historia maravillosa” que se da en las disciplinas que carecen de datos que llevarse a la boca) es que no tenemos ni idea de cómo llevar a cabo el experimento que pudiese falsar la hipótesis: la energía necesaria es excesiva, los aceleradores demasiado caros, y así sucesivamente.

Ahora, la biología está siguiendo el mismo camino. Los modelos que nos enseñaron en la escuela sobre genes “dominantes” y “recesivos” que seguían un comportamiento estrictamente mendeliano, han resultado ser una simplificación de la realidad aún mayor que la de las leyes de Newton. El descubrimiento de las interacciones gen-proteína y otros aspectos de la epigenética ponen en cuestión la visión del ADN como “destino” inamovible e incluso están aportando pruebas de que el ambiente puede influenciar rasgos heredables, algo que no hace mucho se consideraba genéticamente imposible. En resumen, que cuanto más conocemos de la biología, más lejos nos encontramos de un modelo que pueda explicarla.
Ahora disponemos de un mejor método. Los petabytes nos permiten afirmar:”La correlación es suficiente”. Podemos dejar de buscar modelos. Podemos analizar los datos sin hipótesis previas de qué es lo que pueden mostrar. Podemos meter todos esos  datos en el mayor conjunto de ordenadores que el mundo haya visto nunca y dejar que los algoritmos estadísticos encuentren patrones donde la ciencia es incapaz.
El mejor ejemplo práctico de esto es la secuenciación genética de J. Craig Venter. Equipado de secuenciadores de alta velocidad y superordenadores que analizan estadísticamente los datos que se producen, Venter pasó de secuenciar organismos individuales a secuenciar ecosistemas completos. En el año 2003 comenzó a secuenciar gran parte del océano, retrazando la ruta del Capitán Cook. Y en 2005 comenzó a secuenciar el aire. Durante el proceso descubrió miles de especies de bacterias y otros organismos desconocidos.
Si las palabras “descubrir una nueva especie” le recuerdan a Darwin y sus dibujos de pinzones es posible que se encuentre atorado en una forma antigua de hacer ciencia. Venter no podría decirle casi nada de las nuevas especies que ha descubierto. No sabe cómo es su aspecto, ni cómo viven y casi nada sobre su morfología. No dispone siquiera de su genoma completo. Todo lo que tiene es un pitido estadístico, una única secuencia que por ser distinta de cualquier otra conocida de su base de datos, debe corresponder a una nueva especie.
Esta secuencia puede correlacionarse con otras secuencias que se parecen a las de especies de las que sabemos más. En ese caso Venter puede hacer algunas suposiciones acerca del organismo: que convierte en energía la luz del sol de una forma determinada… o que descienden de un antepasado común. Pero, más allá de eso, no dispone de un modelo para esas especies mejor que el que Google tiene para MySpace. Son solo datos. Pero analizándolos con recursos informáticos tan potentes como los de Google, Venter ha hecho avanzar la biología más que cualquier otro de su generación
Este tipo de pensamiento está preparado para convertirse en breve en mayoritario. En febrero la  National Science Foundation anunció la puesta en marcha del Cluster Exploratory, un programa que financia investigación diseñada para ser desarrollada en una plataforma informática distribuida de gran escala creada por IBM y Google junto a seis universidades piloto. El cluster consistirá en 1.600 procesadores con muchos terabytes de memoria y cientos de terabytes de almacenamiento, junto al software correspondiente, incluyendo el Tivoli de IBM y versiones “open source” del Google File System y del  MapReduce. Los primeros experimentos de CluE  incluyen simulaciones del cerebro y del sistema nervioso y otras investigaciones biológicas en el límite entre el “wetware” y el software.
Aprender a utilizar un “ordenador” de este tamaño puede ser todo un reto. Pero la oportunidad es enorme la nueva disponibilidad de ingentes cantidades de datos junto a las herramientas estadísticas para exprimirlos ofrece una forma radicalmente nueva de entender el mundo. La correlación sustituye a la causación y la ciencia puede avanzar incluso sin modelos coherentes, sin teorías unificadas e incluso sin  explicación mecanicista alguna. No hay razón alguna para aferrarse a los viejos tiempos. Es hora de preguntarse: ¿Qué pude aprender la ciencia de Google?”

The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Chris Anderson. Wired Magazine. 23/junio/2008
Petabytes



Alimentando a las masas: Datos ganan. Predicciones oficiales de producción pierden.

“Los “almanaques zaragozanos” han quedado finalmente obsoletos. El ultimo octubre, la consultora agrícola Lanworth no solo previó que el Departamento de Agricultura de Estados Unidos había sobrestimado las previsiones de la cosecha de maíz, acertó en cuánto. Casi 200 millones de fanegas… El Departamento de Agricultura americano realiza sus estimaciones a través de cuestionarios y encuestas a una muestra de agricultores. Lanworth usa imágines digitales obtenidas por satélite, mapas digitales del terreno, y previsiones meteorológicas para prever cosechas a escala de campos de cereal individualizados. Considera incluso las condiciones de cultivo y los patrones de rotación de los mismos y luego combina esta ingente cantidad de números para determinar la producción futura…” [seguir leyendo +]

Persiguiendo quarks; a veces nos sobra información

El último modelo de cámara digital va a quedar absolutamente superado a finales de año en el Gran Colisionador de Hadrones cerca de Ginebra. Mientras los haces de protones corren en direcciones opuestas en el anillo  subterráneo de 17 millas, cruzando y volviendo a cruzar sin cesar, la frontera franco-suiza, seis detectores de partículas sacaran mil millones de “fotos” por segundo de los impactos resultantes. Los restos experimentales de estas colisiones pueden aportar respuestas a algunas de las más apasionantes preguntas de la física… [seguir leyendo +]

Buscando zonas calientes: Podemos monitorizar epidemias hora a hora

Si queremos detener un brote epidémico, o un ataque bioterrorista, debemos actuar deprisa. Pero la información sanitaria se mueve casi siempre a la velocidad de un recepcionista en la consulta del médico. El objetivo de Essence, Sistema de Vigilancia Electrónica para la pronta comunicación de epidemias en la comunidad, del Departamento de Defensa estadounidense, es acelerar ese tempo. Comenzó su andadura en 1999 para recoger datos en el área Washington DC y ahora monitoriza la mayor parte del sistema sanitario militar (unos 400 dispositivos en todo el mundo).
"No tenemos por qué ser exactos para detectar las cosas” dice Jay Mansfield, director de sistemas de información estratégica del Sistema Global de Vigilancia y Respuesta a Infecciones Emergentes, “Pero tenemos que ser precisos”. Informes de cada clínica, medico o farmacia se agrupan en categorías sindrómicas más que en enfermedades específicas. Un medico puede diagnosticar bronquitis y otro pulmonía, pero a Essence no le importa, solo busca enfermedades similares, y  en dónde y cuándo están sucediendo. "Es como una alarma de incendios, se dispara si hay humo, de forma que puedes ir a la cocina a ver que ocurre”
Cada día le llegan  100 megabytes de datos, y el equipo almacena datos de 18 meses, o sea unos 2,5 terabytes, por lo que es más frecuente el humo que el fuego… [seguir leyendo +]

Para ganar juicios: La minería de datos escarba a por mugre

 


 Escanear nuestros huesos: desgastes y desgarrones

 

Buscar la mejor tarifa aérea: el algoritmo predictor

 


Seguir las noticias: una forma mas inteligente de predecir guerras y disturbios 

 


Predecir el voto: sumar muchos pequeños grupos específicos

 


Poner precio al terrorismo: valorar costos y riesgos

 

Visualizar grandes números: gráficos de barra para palabras

 

Clasificar el mundo: Google inventa nuevas formas de gestionar los datos

 

Y algunas reacciones...

 

GEORGE DYSON: “…La súbita aparición de conjuntos masivos de datos y la apertura de un territorio científico completamente nuevo promete una vuelta al entusiasmo del nacimiento de la ciencia (moderna) en el siglo XVII cuando, como Newton, Boyle, Hooke, Petty y los demás comprendieron que era “cosa de la Filosofía Natural” descubrir las cosas. Lo que Chris Anderson insinúa en su artículo es que la Ciencia va a ser cada vez más propiedad de una nueva generación de Filósofos Naturales, que no solo leen la Naturaleza tal como es, sino que están empezando a leer también esa memoria asociativa colectiva masivamente distribuida, ese “ordenador único” de Kevin Kelly, la “Overmind”.
 ¿Hará esto el método científico obsoleto? No. estamos aún demasiado cerca de los comienzos del método científico para hablar de su fin. Como escribía Sir Robert Southwell a William Petty, el 28 de Septiembre de 1687, poco después de ser nombrado presidente de la Royal Society “La intuición de la verdad nunca puede resultar tan apetitosa como la verdad ya cazada” [+]

KEVIN KELLY : “… Pero a medida que más y más observaciones y medidas de la naturaleza son capturadas en tiempo real, 24 horas al día, siete días a la semana, incrementando la variedad de sensores y pruebas, la ciencia también entrará en el ámbito de los zillones de datos que serán fácilmente procesados por la Analítica Correlativa. En ese espacio de ciencia, encontraremos respuestas que funcionan, pero que no entendemos. Esto ¿sería comprender parcialmente? ¿O un diferente tipo de comprensión?
Quizás el comprender y las respuestas estén sobrevalorados. Se dice que Pablo Picasso comentó: “El problema con los ordenadores es que solo te dan respuestas” Esos sistemas que correlacionan ingentes cantidades de datos nos van a proporcionar montones de buenas respuestas, pero es todo lo que nos van a dar. Eso es lo que el “Ordenador Único” hace, darnos buenas respuestas. En este próximo mundo de “cloud computing” las respuestas perfectamente adecuadas van a volverse una mercancía. El valor real del resto de la ciencia será entonces hacer buenas preguntas.” [+] 


JOHN HORGAN : “…Chris Anderson parece creer que los ordenadores van a reducir la ciencia a pura inducción, prediciendo el futuro basándose en el pasado. Este método por supuesto no puede predecir los “cisnes negros”, lo anómalo, los eventos realmente nuevos. Los expertos humanos que se basan en las teorías tampoco pueden predecirlos, pero en el futuro que somos capaces de imaginar, creo que esos expertos sabrán manejar mejor esos cisnes negros cuando aparezcan…” [+] 


ANÓNIMO en Wired: “Todos tus genes pertenecen a un príncipe nigeriano con necesidades de caja que te los revendería a un precio razonable y la mejor vitamina para ti es la viagra, que precisas con urgencia. Son datos de la red con una correlación de más del 97%”


Y también las reacciones de:


Stewart Brand, W. Daniel Hillis, Sean Carroll, Jaron Lanier, Joseph Traub, Douglas Rushkoff, Oliver Morton, Daniel Everett, Gloria Origgi, Lee Smolin, y Joel Garreau