El reto Informático
- Autor: Publicado por: a20040958
- Publicado el 2010-03-22 lun 02:02:56
- Categoría: General Visto: 376 veces
-
Mi nombre es José Miguel Barba Radanovich y Beto, esta para tí...
A continuación, la traducción del articulo de Richard Dawkins "The Informational Challenge" que pueden encontrar siguiendo el link. Dado que la traducción está hecha por mi y yo no soy biologo ni ing. informático, les pido su comprensión...
El reto informático
Por Richard Dawkins
En Setiembre de 1997, le permití a un grupo de filmación australiano entrevistarme en mi casa en Oxford sin darme cuenta que su objetivo era hacer propaganda creacionista. Durante su (sospechosamente amateur) entrevista, me emitieron un truculento reto para resolver: “De un ejemplo de una mutación genética o proceso evolutivo que notablemente incremente la información en el genoma.” Es el tipo de pregunta que solo un creacionista preguntaría de esa manera, y fue en ese momento que concluí que había caído en el juego de darle una entrevista a un grupo creacionista –cosa que por regla general no hago, y por buenas razones.
En mi furia me rehusé a discutir la pregunta en mayor amplitud, ordenándoles que detengan la cámara. Sin embargo, eventualmente revise mi decisión de terminar la entrevista del todo. Ello solamente debido a la petición que me realizaron en vista de que habían venido desde Australia solo para entrevistarme. Incluso si esto es una considerable exageración, resultaba, en perspectiva, poco generoso de mi parte el destruir el formulario de uso de imagen y botarlos de mi casa. Y con ello, di mi brazo a torcer.
Mi generosidad fue compensada de una manera que cualquiera que esté familiarizado con las tácticas de estos grupos fundamentalistas pudo haber predicho. Cuando finalmente vi el video un año después , me di cuenta que había sido editado para dar la falsa impresión de que no era capaz de contestar la pregunta acerca de la información . En total justicia, esto puede no haber sido tan intencionalmente engañoso como parece, uno debe entender que estas personas en realidad creen que su pregunta no puede ser contestada. Por muy patético que suene, el objetivo final de su viaje desde Australia parece haber sido filmar a un evolucionista siendo incapaz de contestarla.
En retrospectiva (dado que ya había sido sorprendido y los había recibido en mi casa para comenzar) hubiese sido más sabio el responderles, pero, yo prefiero ser entendido cuando hablo con la gente (conociendo el horror de impresionar a la gente con la ciencia) y esta era una pregunta que definitivamente no podía contestarse de un solo golpe. En principio, debe uno explicar el significado técnico de la palabra “información”. Luego, la relevancia de esta para la evolución, es también complicada (no “difícil” pero requiere de tiempo).
En lugar de caer en mayor recriminación y disputas sobre cómo ocurrieron los hechos (pues, para ser justos debo decir que el desarrollo de los eventos corre distinto en mi memoria que en la de el productor del video), trataremos de reenfocarnos en el asunto desde una perspectiva más constructiva y resolveremos la pregunta inicial; el “Reto Informático”, en su extensión apropiada (el tipo de extensión que uno puede alcanzar en un artículo).
A continuación, la traducción del articulo de Richard Dawkins "The Informational Challenge" que pueden encontrar siguiendo el link. Dado que la traducción está hecha por mi y yo no soy biologo ni ing. informático, les pido su comprensión...
El reto informático
Por Richard Dawkins
En Setiembre de 1997, le permití a un grupo de filmación australiano entrevistarme en mi casa en Oxford sin darme cuenta que su objetivo era hacer propaganda creacionista. Durante su (sospechosamente amateur) entrevista, me emitieron un truculento reto para resolver: “De un ejemplo de una mutación genética o proceso evolutivo que notablemente incremente la información en el genoma.” Es el tipo de pregunta que solo un creacionista preguntaría de esa manera, y fue en ese momento que concluí que había caído en el juego de darle una entrevista a un grupo creacionista –cosa que por regla general no hago, y por buenas razones.
En mi furia me rehusé a discutir la pregunta en mayor amplitud, ordenándoles que detengan la cámara. Sin embargo, eventualmente revise mi decisión de terminar la entrevista del todo. Ello solamente debido a la petición que me realizaron en vista de que habían venido desde Australia solo para entrevistarme. Incluso si esto es una considerable exageración, resultaba, en perspectiva, poco generoso de mi parte el destruir el formulario de uso de imagen y botarlos de mi casa. Y con ello, di mi brazo a torcer.
Mi generosidad fue compensada de una manera que cualquiera que esté familiarizado con las tácticas de estos grupos fundamentalistas pudo haber predicho. Cuando finalmente vi el video un año después , me di cuenta que había sido editado para dar la falsa impresión de que no era capaz de contestar la pregunta acerca de la información . En total justicia, esto puede no haber sido tan intencionalmente engañoso como parece, uno debe entender que estas personas en realidad creen que su pregunta no puede ser contestada. Por muy patético que suene, el objetivo final de su viaje desde Australia parece haber sido filmar a un evolucionista siendo incapaz de contestarla.
En retrospectiva (dado que ya había sido sorprendido y los había recibido en mi casa para comenzar) hubiese sido más sabio el responderles, pero, yo prefiero ser entendido cuando hablo con la gente (conociendo el horror de impresionar a la gente con la ciencia) y esta era una pregunta que definitivamente no podía contestarse de un solo golpe. En principio, debe uno explicar el significado técnico de la palabra “información”. Luego, la relevancia de esta para la evolución, es también complicada (no “difícil” pero requiere de tiempo).
En lugar de caer en mayor recriminación y disputas sobre cómo ocurrieron los hechos (pues, para ser justos debo decir que el desarrollo de los eventos corre distinto en mi memoria que en la de el productor del video), trataremos de reenfocarnos en el asunto desde una perspectiva más constructiva y resolveremos la pregunta inicial; el “Reto Informático”, en su extensión apropiada (el tipo de extensión que uno puede alcanzar en un artículo).
INFORMACIÓN
La definición técnica de “información” fue introducida por el ingeniero de origen americano Claude Shannon en 1948. Mientras trabajaba para la Bell Telephone Company, Shannon se centro en medir la información a manera de bienes o servicios (commodities), dado el costo de enviar un mensaje a través de la línea telefónica. Mucho de lo que se pasa en un mensaje no es información: es redundante; uno puede, entonces, ahorrar dinero si graba el mensaje de manera que se remuevan las redundancias. Redundancia es un segundo término técnico introducido por Shannon, como el antónimo de Información. Ambas definiciones provenientes de las matemáticas, pero no por ello, fuera de alcance del reino de la palabra.
Redundancia es cualquier parte del mensaje que no es informativa, ya sea porque el receptor conoce ya de ella (no está sorprendido de recibirla) o porque duplica otras partes del mensaje. Así, en la oración “Freddy es un perro poodle”, la palabra “perro” es redúndate debido a que “poodle” ya nos dice que Freddy es un perro. Un telegrama económico omitiría la palabra “perro”, así incrementando la proporción informativa del mensaje. “@Tito 8pm c/u trago. XOXO” contiene la misma información que el más largo, pero mucho más redundante “Nos reunimos donde Alberto Talavera a las 8.00 de la noche. Cada cual lleve la bebida de su preferencia. Besos y Abrazos”. Resulta claro que el mensaje breve y telegráfico, es más barato de enviar (a pesar que el receptor tendrá que trabajar un poco más en descifrarlo- dado que la redundancia tiene sus ventajas-.). Shannon buscaba una fórmula matemática para reflejar la idea de que cualquier mensaje podía ser reducido a: pura información (aquella por la que vale la pena pagar), redundancia (que puede ser borrada del mensaje para maximizar el uso del mismo, pues el receptor puede reconstruir su significado) y el ruido (que es sinsentido azaroso).
“Estuvo nublado en Lima toda la semana” contiene relativamente poca información, dado que le receptor no está sorprendido por ella. Por otro lado, “Estuvo nublado en Panamá toda la semana” sería un mensaje con alto contenido informático, y vale la pena pagar extra para enviar o recibirla. Shannon quería capturar este sentido de “contenido informático = capacidad de sorpresa”. Está relacionado a la otra definición de información (“aquello que no se duplica en otras partes del mensaje”) puesto que en la repetición se pierde la capacidad de sorprender. Notemos que la definición de Shannon de la cantidad de información no se refiere a la veracidad de la misma. La formula a la que llego era ingeniosa e intuitivamente satisfactoria: Estimemos, sugirió, la ignorancia o incertidumbre del receptor antes de recibir el mensaje, y comparémosla con la ignorancia o incertidumbre que aun tiene luego de recibir el mensaje. La cantidad de ignorancia que ha desaparecido es el contenido informático.
La unidad de información según Shannon es el bit, corto para “binary digit”. Un bit es definido como la cantidad de información necesaria para dividir la incertidumbre del receptor entre dos, sin importar que tan grande haya sido dicha incertidumbre (los lectores mas pegados a las matemáticas notarán que el bit es, por ello, una medida logarítmica).
En la práctica, uno debe encontrar una forma de medir la incertidumbre previa (aquella que es reducida por la información cuando esta llega). Para algunos tipos de mensajes sencillos, esto se obtiene fácilmente en términos probabilísticos. Un padre que observa el nacimiento de su bebe desde arriba del anfiteatro del quirófano, no puede observar los detalles, por lo cual la enfermera a prometido levantar un cartel rosado si es una niña y uno azul si es niño. ¿Cuánta información contiene el mensaje de la enfermera levantando el cartel rosado? La respuesta es un bit (la incertidumbre previa es dividida en dos), pues el padre sabe que un bebe de algún genero ha nacido, así que su incertidumbre solo abarca 2 posibilidades (niño o niña) y para termino de la discusión ambas son igual de posibles. El cartel rosado divide la incertidumbre del padre de 2 posibilidades a una (niña), pero si en lugar de un cartel, el doctor hubiese salido del quirófano, sacudido la mano del padre y dicho: “Felicidades Sr. Es usted el orgulloso padre de una saludable niña”, la información cubierta por el mensaje de 12 palabras aun sería igual a un bit.
INFORMATICA
La información contenida en las computadoras consiste de la repetición de 0 y 1. Existen solamente dos posibilidades, por lo cual, cada 0 o 1 contiene un bit. La capacidad de memoria de una computadora o la de un disco o casete, es a menudo medida en bits, siendo ello el número total de 0s y 1s que dicho dispositivo puede almacenar. Para ciertos propósitos, es un medio más conveniente de medición el byte (siendo este el equivalente a 8 bits), el kilobyte (1000 bytes u 8000 bits), el megabyte (un millón de bytes u 8 millones de bits) o el gigabyte (1000 millones de bytes u 8000 millones de bits). Nótese que estas cifras se refieren al total de capacidad disponible. Esta es la máxima cantidad de información que el dispositivo puede contener. La cantidad efectiva de información almacenada en el es una cuestión distinta. La capacidad de mi disco duro es de 4.2 gigabytes, de estos, 1.4 gigabytes están efectivamente siendo utilizados para almacenar datos. Pero incluso eso no es la información en el sentido que le da Shannon. El verdadero contenido de información es mucho más pequeño, pues la información podría guardarse mucho mas eficientemente (en un sentido económico).
Podemos hacernos una idea del verdadero contenido de información utilizando uno de esos ingeniosos programas de compresión como el “Stuffit”. Estos programas buscan las redundancias en las secuencias de 1s y 0s y libera una gran parte de ella al recodificar, para liberarnos de los rasgos predecibles.
La máxima concentración informática (de información) se consigue (aunque es poco probable en la práctica) solamente si cada 0 y cada 1 nos sorprende en la misma proporción. Antes que los datos sean transmitidos en bloque por la internet, es comúnmente comprimida para reducir las redundancias.
Ahí funciona la economía. Pero por otro lado, también es una Buena idea conservar ciertas redundancias en el mensaje, para poder corregir errores. En un texto totalmente libre de redundancia, luego de aparecido un error, no hay forma de reconstruir lo que se pretendía en principio. Los códigos de cómputo a menudo tienen incorporados a propósito ciertos “bits repetidos” para ayudar en la detección de errores.
De la misma manera, el ADN, tiene varios procedimientos de corrección de errores que dependen de las redundancias. Al hablar de los genomas, volveremos a tratar las ideas de capacidad total de información, capacidad efectivamente utilizada y concentración de información.
Shannon en visionó la naturaleza de la información de todo tipo, sin importar su significado, o su veracidad o falsedad, o el medio por el que se transporta, como pasible de ser medida en bits y de ser traducida a otros medios de información. El biólogo JBS Haldane utilizo la teoría de Shannon para calcular el número de bits de información que brinda una abeja obrera a sus compañeras cuando “baila” las coordenadas de la fuente de comida (aproximadamente 3 bits para señalar la dirección en que esta y otros 3 para la distancia a la que se encuentra). En la misma unidad, recientemente he calculado que necesito separar 120 megabits de memoria en la laptop para almacenar los primeros acordes de “Also Sprach Zarathustra”, los que quiero que acompañen una conferencia sobre evolución. La idea de economía de Shannon nos permite calcular cuánto tiempo de modem nos va a tomar enviar el texto completo de un libro al publicista en una tierra lejana. Cincuenta años después de las teorías de Shannon, su idea de la información como un “commodity”, calculable e intercambiable como el dinero o la energía, ha llegado a su clímax.
ADN e Información
El ADN contiene información de la misma manera que una computadora, y la capacidad del genoma se puede también medir en bits, si se desea. El ADN no utiliza un código binario, sino uno cuaternario. Así donde la unidad de información es un 1 o un 0, la unidad en el ADN puede ser T, A, C o G. Si decimos que una parte en especial de la secuencia de ADN es una T, ¿cuanta información se transmite de mí a usted? Comenzamos midiendo la incertidumbre previa; ¿Cuántas posibilidades yacían abiertas? Cuatro, ¿Cuántas posibilidades caben aún? Una sola. De ello podría deducirse que la informacion transferida es de 4 bits, pero en realidad fueron solo 2. He aquí el por qué (asumiendo que las cuatro letras son igual de probables, como lo son los palos en una baraja de cartas). Recuerde que la teoría de Shannon se preocupa por la forma más económica de transmitir un mensaje. Pensemos en ello entonces como la cantidad de preguntas de si/no que tendremos que realizar para llegar al punto de certeza, desde un punto de incertidumbre con cuatro posibilidades, asumiendo que planeamos las preguntas de la manera más económica: “La letra desconocida ¿Está antes de la D en el abecedario?” No. Eso reduce las posibilidades a G y T y ahora solo necesitamos una pregunta más para saber con total certidumbre. Entonces con este método, cada “letra” en el ADN tiene una capacidad de 2 bits
Siempre que la incertidumbre previa del receptor pueda expresarse como un numero equiprobable de alternativas N, la información contenida en el mensaje que reduce esas posibilidades a una sola es log2N (la potencia a que 2 debe elevarse para proveernos de el numero de alternativas N). Si uno elige una carta, cualquiera sea, de un paquete, la mención de la carta carga log2(52) bits de información o 5.7 bits. En otras palabras, dado un determinado número de juego de adivinanza, tomaría 5.7 preguntas de si/no en promedio para adivinar la carta, siempre que las preguntas sean hechas de la forma económicamente más eficiente posible.
Las primeras 2 preguntas deben establecer el color y el palo (¿es roja? ¿Es diamantes?), mientras las siguientes preguntas se dedican a dividir y conquistar la respuesta (¿es mayor a 7?), finalmente determinando la carta elegida. Cuando la incertidumbre previa no es tan equiprobable, la formula de Shannon se vuelve ligeramente más compleja, pero esencialmente similar. Por cierto, la formula de promedios comparados de Shannon es la misma que los físicos han usado, desde el siglo XIX para calcular la entropía. Por muy interesantes implicancias que tenga el tema, vamos a dejarlo ahí por el momento.
INFORMACIÓN Y EVOLUCIÓN
Con lo anterior tenemos suficiente sobre la teoría de la información. Es una teoría que desde hace mucho tiempo me ha fascinado y la cual he usado muchas veces en trabajos de investigación. Revisemos ahora como podemos utilizar dicha teoría para analizar si la información contenida en el genoma, incrementa con la evolución. Primero, regresemos a la triple distinción que hicimos entre la capacidad total de información, capacidad utilizada y verdadero contenido de información, cuando esta es almacenada de la forma más económica posible. La capacidad total de información del genoma humano se mide en gigabits. La de la bacteria Escherichia coli se mide en megabits. Nosotros, como todos los animales, somos descendientes de un ancestro al cual, si estuviese disponible para analizar, calificaríamos ahora como una bacteria; Así que posiblemente durante los miles de millones de años desde que ese ancestro común existió, la capacidad de información ha aumentado en 3 rangos de magnitud (potencias de 10)- aproximadamente mil veces. Esto es satisfactoriamente posible y confortable para el ego humano. ¿Debería entonces el ego humano sentirse herido por el hecho de que el genoma del tritón común, Triturus cristatus, tienen una capacidad estimada de 40 gigabits, una rango de magnitud mayor al genoma humano? No, pues en todo caso, la mayor parte de la capacidad del genoma de cualquier animal no se utiliza para almacenar información útil. Existen muchos pseudo-genes no funcionales y enormes cantidades de paparruchas repetitivas, invaluables para los investigadores forenses, pero que no se traducen en proteínas en las células vivas. El tritón común tiene, entonces, un “disco duro” más grande que el humano, pero, como la gran mayoría de nuestro “disco duro” no se utiliza, no deberíamos sentirnos insultados. Otras especies de tritón tienen genomas mucho más pequeños. Por qué el Creador es de repente tan descuidado o caprichoso con los tamaños de los genomas de los tritones es una pregunta que los creacionistas deberían considerar. Desde un punto de vista evolutivo sin embargo, resulta muy sencillo (Revisar The Selfish Gene pp 44 – 45 y p 275, en la segunda edición).
GENES DUPLICADOS
Evidentemente el total de la capacidad de información del genoma es una variable a lo largo y ancho del reino animal, y debe haber cambiado considerablemente con la evolución, posiblemente en ambas direcciones. A las pérdidas de material genético las llamamos supresión. Nuevos genes brotan a través de varios tipos de duplicación. Un ejemplo perfecto de ello es la hemoglobina, la molécula pluri-proteica que transporta oxigeno en la sangre.
La hemoglobina de un humano adulto está compuesta de cuatro cadenas proteicas entretejidas llamadas globinas. Sus secuencias muestran que las cuatro globinas están estrechamente relacionadas entre sí, sin embargo no son idénticas. Dos de ellas son las llamadas globinas alfa (cada cadena de 141 aminoácidos), y dos de ellas globinas beta (cada cadena de 146 aminoácidos). Los genes que contienen los códigos de las globinas alfa se encuentran en el cromosoma 11; aquellos que contienen los códigos de las globinas beta están en el cromosoma 16. En cada uno de estos cromosomas, podemos hallar una cantidad de genes de globina alineados, entrelazados con ADN irrelevante. El grupo alfa, en el cromosoma 11, contiene siete genes de globinas. Cuatro de estos son pseudo-genes, versiones alfa deshabilitadas por fallas en su secuencia y que no se traducen en proteínas. Dos son verdaderos globinas alfa, utilizadas por los adultos. El último gen es el llamado zeta que se utiliza solo en embriones. La hemoglobina adulta, como hemos visto, contiene dos cadenas alfa y dos beta.
Dejando de lado la complejidad del sistema, he aquí un punto fascinante. Un análisis letra-por letra, muestra que estos tipos de genes de globina son literalmente miembros de una misma familia; literalmente primos. Pero estos primos lejanos, aun coexisten dentro de un mismo genoma, y dentro del de todos los vertebrados. Y a la escala de los organismos, los vertebrados son también nuestra familia. El árbol de la evolución vertebrada es el árbol familiar del cual todos somos parte, sus ramas representan los eventos de especiación (la división de la especie en pares de especies “hijas”). Pero hay otro árbol familiar ocupando la misma escala temporal, pero cuyas ramas no representan la especiación, si no los eventos de duplicación genética dentro del genoma.
La docena (aproximadamente) de globinas dentro de ti son descendientes de un gen de globina antiguo el cual, en un ancestro remoto que vivió hace aproximadamente quinientos mil años, se duplicó, luego de lo cual ambas copias permanecieron en el genoma. Hubo entonces, dos copias del mismo, en distintas partes del genoma de todos los animales que descendieron de este ancestro, uno de ellos destinado a formar el grupo alfa (y a lo que eventualmente paso a llamarse el cromosoma 11 en nuestro genoma) y el otro a grupo beta (en el cromosoma 16). Conforme fueron pasando los siglos, hubo mas y mas duplicaciones (y sin duda supresiones también). Cerca de 400 millones de años atrás, el ancestral gen alfa se volvió a duplicar, pero esta vez ambos genes permanecieron juntos, comenzando un grupo dentro del mismo cromosoma. Uno de ellos estaba destinado a convertirse en el zeta de los embriones, el otro devino en el gen de la globina alfa de los humanos adultos (otras ramas le dieron origen a los otros pseudo -genes que ya mencionamos). La historia se repite con el grupo beta, salvo que las duplicaciones ocurren en una era geologica distinta.
Ahora, he aquí un punto igualmente fascinante: Dada la división ente el grupo alfa y el grupo beta se dio hace 500 millones de años, se dará por sentado que no solo nuestro genoma humano mostrara la división/posesión de genes alfa en áreas distintas de los genes beta. Veremos entonces la misma división si observamos los genes de cualquier mamífero, reptil, ave, anfibio o pez, dado que nuestros ancestros comunes vivieron todos menos de 500 millones de años en el pasado. Siempre que se ha investigado, las expectativas han sido confirmadas, siendo que la mayor esperanza de encontrar un vertebrado que no comparta nuestra división alfa/beta estaría en la lamprea, dado que este es nuestro “primo” más remoto en cuanto a vertebrados se refiere; son los únicos vertebrados sobrevivientes cuyo ancestro común con nosotros pudo haber vivido antes de la división. Podemos estar bastante seguros que esta anguila es el único tipo de vertebrado que carece de la división alfa/beta.
La duplicación de los genes tiene un impacto histórico similar a aquel de la duplicación de las especies (“especiación”) en filogenia. Es responsable de la diversidad genética, de la misma manera que la especiación es responsable por la diversidad filética. Comenzando con un solo ancestro común, la magnífica diversidad de la vida se ha llevado a través de una serie de ramificaciones de nuevas especies, que eventualmente le permitió crecer a las ramas mayores y a los cientos de millones de especies diversas que habitan la tierra. Un mismo sistema de ramificaciones, pero esta vez con genomas, a través de la duplicación genética, ha dado origen al gran y diverso sistema de grupos de genes que constituye el genoma humano moderno.
La historia de las globinas es solo una entre muchas. La duplicación y la supresión genética ocurren de cuando en vez en los genomas. Es a través de estos y otros medios similares, que el tamaño del genoma puede crecer con la evolución. Ahora bien, debemos recordar la distinción que hicimos líneas arriba entre la capacidad total del genoma y la porción de dicha capacidad que se utiliza. Recordemos que no todos los genes de globinas llegan a ser utilizados, pues algunos de ellos, como theta en el grupo alfa de genes de globina, son pseudo-genes, visiblemente parte de genes funcionales, pero nunca trasladados al lenguaje de las proteínas. Y lo que es verdad para las globinas es verdad también para la mayoría de genes, pues los genomas están plagados de pseudo- genes no funcionales, que son los duplicados fallidos y eternamente inactivos de genes funcionales, mientras sus primos funcionales progresan sus asuntos en otras partes del mismo genoma. Y hay mucho ADN que no merece ni siquiera el nombre de pseu-gen, ya que es generado también por duplicación, pero no por la duplicación de genes funcionales. Consiste en múltiples copias de paparruchas, “repeticiones en tándem” y otros sinsentidos que puede ser útil para los forenses pero que no parece guardar ninguna utilidad para el cuerpo en sí mismo.
Otra vez, los creacionistas deben pasar más tiempo especulando en por qué el creador se molesta en llenar los genomas con pseudo-genes intraducibles y ADN de repeticiones en tándem.
INFORMACIÓN EN EL GENOMA
¿Podemos medir la capacidad de información que es efectivamente utilizado en el genoma? Cuando menos, podemos estimarlo, siendo en el humano un 2% (considerablemente menos que la porción que he usado de mi disco duro). Puede presumirse que una cifra considerablemente más baja corresponderá al tritón crestado, pero no tengo información acerca de si se ha o no medido. En cualquier caso no debemos perdernos en la idea chauvinista de que el genoma humano debe (por alguna razón) tener la base de datos más grande de ADN porque somos tan maravillosos. El gran biólogo evolucionista George C Williams ha señalado que los animales con ciclos vitales complejos deben almacenar los códigos para el desarrollo de todas las etapas, pero solo tiene un genoma para hacerlo. Así, una mariposa debe almacenar toda la información para construir a la oruga, el capullo y la mariposa. La fasciola hepática tiene seis distintas etapas en su ciclo vital, cada una especializada para un tipo distinto de vida. No deberíamos entonces sentirnos muy insultados si la fasciola hepática termina teniendo genomas más grandes que el nuestro (por cierto, no lo tiene).
Recordemos también que incluso la capacidad total de información del genoma que es utilizada no es igual al total de información en el sentido en que Shannon utiliza el término. El verdadero total de información es aquello que nos deja la desaparición de redundancias, cuando estas son comprimidas por el equivalente teórico del “Stuffit”. Hay algunos virus que parecen utilizar un sistema de compresión parecido al “Stuffit”, para ello hacen uso del hecho de que el ARN (estos virus no poseen ADN pero el principio es el mismo) se lee en conjuntos de 3; para ello existe un marco que se mueve a lo largo de la secuencia del ARN, leyendo las 3 letras a un solo tiempo. Obviamente, bajo circunstancias normales, si el marco comienza a leer en el lugar equivocado (en una mutación llamada de marco desplazado), se convierte en un total sinsentido: los conjuntos son diferentes de aquellos que tienen sentido. Pero estos fascinantes virus explotan la lectura de marco desplazado, obteniendo dos mensajes por el precio de uno, al tener un mensaje completamente distinto encriptado en la misma serie de letras cuando se lee con el marco desplazado. En principio, uno podría obtener hasta tres mensajes por el costo de almacenaje de uno, pero no sé si existe algún ejemplo de ello.
INFORMACIÓN EN EL CUERPO
Una cosa es estimar la capacidad de información total del genoma, y la cantidad de esta que es utilizada, pero calcular su contenido informático (en términos de Shannon) es harina de otro costal. Lo mejor que podemos hacer es olvidarnos del genoma y mirar, más bien, a su producto, el fenotipo (el cuerpo funcional de un animal o planta). En 1951, JWS Pringle, quien luego se convertiría en mi profesor en Oxford, postuló utilizar un sistema similar al de Shannon para medir la “complejidad”. Pringle quería expresarla matemáticamente en bits, pero yo he encontrado la siguiente forma verbal bastante útil al momento de explicar sus ideas a mis estudiantes.
En general tenemos un sentido intuitivo de que una langosta, por decir, es más compleja (mas “avanzada” dirían algunos) que algún otro animal, por decir una oruga. ¿Podemos medir algo para confirmar o negar este hecho intuitivo? Sin literalmente partir todo en bits, podemos dar una aproximación del contenido informático de ambos animales de la siguiente manera: imaginemos escribir un libro que describa a la langosta. Ahora imagina escribir otro libro que describa a la oruga al mismo nivel de detalle. Dividimos el número de palabras en uno entre el número de palabras en el otro y tenemos un aproximado de la complejidad relativa. Es necesario especificar que ambos libros deben describir sus respectivos animales “al mismo nivel de detalle”. Obviamente si describimos a la oruga a un nivel celular y la langosta a nivel de los más reconocibles rasgos anatómicos, la oruga resultaría teniendo mucha ventaja.
Pero realizando esta prueba correctamente, puedo apostar que el libro de la langosta es mayor que el libro de la oruga. Es un simple argumento de plausibilidad. Ambos animales están compuestos de segmentos, pero mientras la oruga está compuesta de segmentos más o menos iguales entre sí, los segmentos de la langosta (siguiendo básicamente la misma arquitectura y a pesar de llevar en cada segmento un ganglio nervioso, un par de apéndices, etc.) son en su mayoría distintos uno del otro. El libro de la oruga tendría un capitulo describiendo la estructura típica de un segmento, seguido por la frase “repetir N veces” donde N es el numero de segmentos, mientras la langosta requeriría de un capitulo distinto para cada segmento. Esta descripción no es del todo justa para la oruga cuyos segmentos delantero y trasero son relativamente distintos del resto, pero aun así podría apostar, si alguien se molesta en realizar el experimento, el aproximado de contenido de información sobre la langosta sería sustancialmente mayor al aproximado de información sobre la oruga.
No es de directo interés evolutivo el comparar a langostas y orugas de esta manera, pues nadie cree que unas hayan evolucionado de las otras. Obviamente ningún animal moderno evoluciono de otro animal moderno, en lugar de eso, cualquier par de animales moderno tuvo al menos un ancestro común, el cual vivió en algún punto (en principio) pasible de descubrimiento. Casi toda la evolución sucedió mucho tiempo atrás, lo cual hace que los detalles sean difíciles de analizar. Pero podemos utilizar el experimento mental del “largo del libro” para acordar el que significaría preguntar acerca del incremento de contenido informático en la evolución, si tuviéramos los animales prehistóricos para observar.
La respuesta, en la práctica, es complicada y controversial, encontrada siempre con un vigoroso debate sobre si la evolución es siempre progresiva. Soy uno de aquellos que se adhieren a la limitada respuesta de: Si. Mi colega Stephen Jay Gould tiende más bien a la respuesta de no. No creo que nadie pueda negar que, por cualquier medio posible, sea información anatómica, capacidad total del genoma, capacidad utilizada del genoma o información efectiva en el genoma (aquella sin redundancias), ha habido una mayoritaria tendencia al incremento de información en el curso de la evolución humana desde nuestros ancestros bacteria. Mucha gente, sin embargo, podría estar en desacuerdo con respecto a dos puntos relevantes: Primero, en cuanto a si dicha tendencia puede encontrarse en todas, o al menos una mayoría, de las líneas evolutivas (por ejemplo la evolución de los parásitos comúnmente muestra una tendencia a reducir la complejidad anatómica ya que los parásitos están mejor cuando son simples); Segunda, acerca de si incluso en líneas evolutivas donde la tendencia es clara por un considerable periodo , está rodeada de tantos detrimentos y avances que la propia idea de progreso es discutible. Distinguidos biólogos apoyan ambos lados de la discusión.
Quienes apoyan la idea de un “diseño inteligente” como guía de la evolución, por cierto, deben estar profundamente comprometidos con la idea de que el contenido informático aumenta con la evolución. Incluso si la información proviene de Dios, y especialmente si viene de él, debería incrementar y el incremento debe seguramente reflejarse en el genoma. Salvo, por supuesto (dado que cualquier cosa puede suceder en las teorías serpentinas) que dios realice sus milagros evolutivos por medios no genéticos.
Quizás la lección más importante que debemos aprender de Pringle es que el contenido informático de un sistema biológico es solo otra forma de llamar a su complejidad. Por ello el reto de los creacionistas (con el que comenzamos) es equivalente a aquel de explicar cómo es que seres complejos pudieron evolucionar de antecedentes sencillos, a lo cual he dedicado ya tres libros (The Blind Watchmaker, River Out of Eden, Climbing Mount Improbable) y no me propongo repetir su contenido en estas páginas. “El reto informático” resultó ser no otro que el viejo y conocido dilema de “¿Cómo puede algo tan complejo como un ojo evolucionar de la nada?” pero disfrazado de lenguaje matemático, probablemente en un intento de sorprender al lector. O quizás aquellos que lo preguntan han sido a su vez sorprendidos, y por ello no se dan cuenta que es el antiguo y ya respondido asunto.
EL LIBRO DE LOS MUERTOS (EN GENETICA)
Volvamos la mirada, finalmente, a otra forma de entender el reto informático. Volvemos la mirada ahora del análisis general de la historia de la evolución a las minucias de la selección natural. La selección natural en sí, cuando se analiza, es la reducción de un amplio grupo de alternativas. Errores genéticos al azar (mutación), recombinación sexual y apareamiento migratorio, todo nos provee con un amplio campo para el cambio genético: las alternativas disponibles. La mutación, entonces, no es un incremento en el verdadero contenido de información (informático), sino su completo opuesto, pues la mutación, en la analogía de Shannon, contribuye al incremento de la incertidumbre previa. Sin embargo, considerando la selección natural, la cual reduce la “incertidumbre previa” al contribuir con información de la fuente genética. En cada generación, la selección natural retira los genes menos exitosos de la fuente genética, de manera que los restantes creen un set cada vez mas especifico de genes. La reducción es no azarosa, de manera que se mejore, en el sentido Darwiniano (mejora en la capacidad de sobrevivir y reproducirse). Desde luego el rango total de variaciones aumenta con cada generación debido a las nuevas mutaciones y o tro tipo de variaciones. Pero la verdad se mantiene en cuanto a la selección natural como sistema de concentración (reducción) de un campo mucho más amplio, que incluye a los menos exitosos, en torno a los genes más exitosos. Esto funcionará de manera análoga a la definición de información con la que comenzáramos el artículo: información es aquello que nos permite reducir las opciones, comenzando por la incertidumbre inicial (el rango total de posibilidades) y terminando en la certidumbre (la selección “exitosa” entre las posibilidades ofrecidas). De acuerdo con esta analogía, la selección natural es el medio por el cual la fuente genética obtiene su información para la siguiente generación.
Si la fuente genética se alimenta por medio de la selección natural, ¿de qué información se trata? Se trata de la información acerca de cómo sobrevivir. Estrictamente hablando, es sobre cómo sobrevivir y reproducirse, en las condiciones prevalentes en la época en que la generación anterior vivió. Al punto en que, si las condiciones actuales son diferentes de las ancestrales, el “consejo genético” ancestral sería incorrecto. En casos extremos esto significa la extinción de la especie. Si las condiciones de la generación actual no son muy diferentes de las de la generación anterior, la información que llega al genoma actual de la generación anterior, es útil.
La información que deriva del pasado ancestral puede resultar en un manual para sobrevivir en el presente: una historia familiar de “moralejas” ancestrales sobre cómo sobrevivir. Solo necesitamos un poco de licencia poética y podremos afirmar que la información en los genomas actuales (producida por la selección natural) es, de hecho, información sobre antiguos espacios en los que nuestros sobrevivieron.
Esta idea de la información proveniente de generaciones anteriores en la fuente genética es uno de los temas en mi nuevo libro, Unweaving the Rainbow. Me toma un capítulo entero, “The Genetic Book of the Dead”, desarrollar la idea, así que no la repetiré aquí, salvo para decir dos cosas: Primera, que es toda la fuente genética (vista como una unidad) y no el genoma de un individuo particular, la que se debe observar como receptor de la información ancestral de cómo sobrevivir. Los genomas de individuos particulares son muestras al azar, hechas azarosas por motivo de la recombinación sexual. Segunda, que somos seres privilegiados al poder “interceptar” la información si deseamos, y “leer” la complejidad del cuerpo de un animal, o de sus genes, como una descripción codificada de mundos ancestrales. Citando de mi libro: “¿No es una idea interesante? Somos archivos digitales del Plioceno Africano, o incluso de los mares Devonianos; depósitos andantes de la sabiduría de días pasados. Podríamos pasar una vida leyendo en esta antigua biblioteca y morir insatisfecho de la pura maravilla de la misma.”
Los productores nunca se dignaron a enviarme una copia. El tema escapo a mi memoria hasta que un colega norteamericano me aviso sobre él.
Véase “Creationist Deception Exposed”, The Skeptic 18(1998), 3, pp 7 – 10, por WILLIAMS, Barry
Mi nombre es José Miguel Barba y; Beto, puedes venir a reclamarla cuando quieras...
línea
La definición técnica de “información” fue introducida por el ingeniero de origen americano Claude Shannon en 1948. Mientras trabajaba para la Bell Telephone Company, Shannon se centro en medir la información a manera de bienes o servicios (commodities), dado el costo de enviar un mensaje a través de la línea telefónica. Mucho de lo que se pasa en un mensaje no es información: es redundante; uno puede, entonces, ahorrar dinero si graba el mensaje de manera que se remuevan las redundancias. Redundancia es un segundo término técnico introducido por Shannon, como el antónimo de Información. Ambas definiciones provenientes de las matemáticas, pero no por ello, fuera de alcance del reino de la palabra.
Redundancia es cualquier parte del mensaje que no es informativa, ya sea porque el receptor conoce ya de ella (no está sorprendido de recibirla) o porque duplica otras partes del mensaje. Así, en la oración “Freddy es un perro poodle”, la palabra “perro” es redúndate debido a que “poodle” ya nos dice que Freddy es un perro. Un telegrama económico omitiría la palabra “perro”, así incrementando la proporción informativa del mensaje. “@Tito 8pm c/u trago. XOXO” contiene la misma información que el más largo, pero mucho más redundante “Nos reunimos donde Alberto Talavera a las 8.00 de la noche. Cada cual lleve la bebida de su preferencia. Besos y Abrazos”. Resulta claro que el mensaje breve y telegráfico, es más barato de enviar (a pesar que el receptor tendrá que trabajar un poco más en descifrarlo- dado que la redundancia tiene sus ventajas-.). Shannon buscaba una fórmula matemática para reflejar la idea de que cualquier mensaje podía ser reducido a: pura información (aquella por la que vale la pena pagar), redundancia (que puede ser borrada del mensaje para maximizar el uso del mismo, pues el receptor puede reconstruir su significado) y el ruido (que es sinsentido azaroso).
“Estuvo nublado en Lima toda la semana” contiene relativamente poca información, dado que le receptor no está sorprendido por ella. Por otro lado, “Estuvo nublado en Panamá toda la semana” sería un mensaje con alto contenido informático, y vale la pena pagar extra para enviar o recibirla. Shannon quería capturar este sentido de “contenido informático = capacidad de sorpresa”. Está relacionado a la otra definición de información (“aquello que no se duplica en otras partes del mensaje”) puesto que en la repetición se pierde la capacidad de sorprender. Notemos que la definición de Shannon de la cantidad de información no se refiere a la veracidad de la misma. La formula a la que llego era ingeniosa e intuitivamente satisfactoria: Estimemos, sugirió, la ignorancia o incertidumbre del receptor antes de recibir el mensaje, y comparémosla con la ignorancia o incertidumbre que aun tiene luego de recibir el mensaje. La cantidad de ignorancia que ha desaparecido es el contenido informático.
La unidad de información según Shannon es el bit, corto para “binary digit”. Un bit es definido como la cantidad de información necesaria para dividir la incertidumbre del receptor entre dos, sin importar que tan grande haya sido dicha incertidumbre (los lectores mas pegados a las matemáticas notarán que el bit es, por ello, una medida logarítmica).
En la práctica, uno debe encontrar una forma de medir la incertidumbre previa (aquella que es reducida por la información cuando esta llega). Para algunos tipos de mensajes sencillos, esto se obtiene fácilmente en términos probabilísticos. Un padre que observa el nacimiento de su bebe desde arriba del anfiteatro del quirófano, no puede observar los detalles, por lo cual la enfermera a prometido levantar un cartel rosado si es una niña y uno azul si es niño. ¿Cuánta información contiene el mensaje de la enfermera levantando el cartel rosado? La respuesta es un bit (la incertidumbre previa es dividida en dos), pues el padre sabe que un bebe de algún genero ha nacido, así que su incertidumbre solo abarca 2 posibilidades (niño o niña) y para termino de la discusión ambas son igual de posibles. El cartel rosado divide la incertidumbre del padre de 2 posibilidades a una (niña), pero si en lugar de un cartel, el doctor hubiese salido del quirófano, sacudido la mano del padre y dicho: “Felicidades Sr. Es usted el orgulloso padre de una saludable niña”, la información cubierta por el mensaje de 12 palabras aun sería igual a un bit.
INFORMATICA
La información contenida en las computadoras consiste de la repetición de 0 y 1. Existen solamente dos posibilidades, por lo cual, cada 0 o 1 contiene un bit. La capacidad de memoria de una computadora o la de un disco o casete, es a menudo medida en bits, siendo ello el número total de 0s y 1s que dicho dispositivo puede almacenar. Para ciertos propósitos, es un medio más conveniente de medición el byte (siendo este el equivalente a 8 bits), el kilobyte (1000 bytes u 8000 bits), el megabyte (un millón de bytes u 8 millones de bits) o el gigabyte (1000 millones de bytes u 8000 millones de bits). Nótese que estas cifras se refieren al total de capacidad disponible. Esta es la máxima cantidad de información que el dispositivo puede contener. La cantidad efectiva de información almacenada en el es una cuestión distinta. La capacidad de mi disco duro es de 4.2 gigabytes, de estos, 1.4 gigabytes están efectivamente siendo utilizados para almacenar datos. Pero incluso eso no es la información en el sentido que le da Shannon. El verdadero contenido de información es mucho más pequeño, pues la información podría guardarse mucho mas eficientemente (en un sentido económico).
Podemos hacernos una idea del verdadero contenido de información utilizando uno de esos ingeniosos programas de compresión como el “Stuffit”. Estos programas buscan las redundancias en las secuencias de 1s y 0s y libera una gran parte de ella al recodificar, para liberarnos de los rasgos predecibles.
La máxima concentración informática (de información) se consigue (aunque es poco probable en la práctica) solamente si cada 0 y cada 1 nos sorprende en la misma proporción. Antes que los datos sean transmitidos en bloque por la internet, es comúnmente comprimida para reducir las redundancias.
Ahí funciona la economía. Pero por otro lado, también es una Buena idea conservar ciertas redundancias en el mensaje, para poder corregir errores. En un texto totalmente libre de redundancia, luego de aparecido un error, no hay forma de reconstruir lo que se pretendía en principio. Los códigos de cómputo a menudo tienen incorporados a propósito ciertos “bits repetidos” para ayudar en la detección de errores.
De la misma manera, el ADN, tiene varios procedimientos de corrección de errores que dependen de las redundancias. Al hablar de los genomas, volveremos a tratar las ideas de capacidad total de información, capacidad efectivamente utilizada y concentración de información.
Shannon en visionó la naturaleza de la información de todo tipo, sin importar su significado, o su veracidad o falsedad, o el medio por el que se transporta, como pasible de ser medida en bits y de ser traducida a otros medios de información. El biólogo JBS Haldane utilizo la teoría de Shannon para calcular el número de bits de información que brinda una abeja obrera a sus compañeras cuando “baila” las coordenadas de la fuente de comida (aproximadamente 3 bits para señalar la dirección en que esta y otros 3 para la distancia a la que se encuentra). En la misma unidad, recientemente he calculado que necesito separar 120 megabits de memoria en la laptop para almacenar los primeros acordes de “Also Sprach Zarathustra”, los que quiero que acompañen una conferencia sobre evolución. La idea de economía de Shannon nos permite calcular cuánto tiempo de modem nos va a tomar enviar el texto completo de un libro al publicista en una tierra lejana. Cincuenta años después de las teorías de Shannon, su idea de la información como un “commodity”, calculable e intercambiable como el dinero o la energía, ha llegado a su clímax.
ADN e Información
El ADN contiene información de la misma manera que una computadora, y la capacidad del genoma se puede también medir en bits, si se desea. El ADN no utiliza un código binario, sino uno cuaternario. Así donde la unidad de información es un 1 o un 0, la unidad en el ADN puede ser T, A, C o G. Si decimos que una parte en especial de la secuencia de ADN es una T, ¿cuanta información se transmite de mí a usted? Comenzamos midiendo la incertidumbre previa; ¿Cuántas posibilidades yacían abiertas? Cuatro, ¿Cuántas posibilidades caben aún? Una sola. De ello podría deducirse que la informacion transferida es de 4 bits, pero en realidad fueron solo 2. He aquí el por qué (asumiendo que las cuatro letras son igual de probables, como lo son los palos en una baraja de cartas). Recuerde que la teoría de Shannon se preocupa por la forma más económica de transmitir un mensaje. Pensemos en ello entonces como la cantidad de preguntas de si/no que tendremos que realizar para llegar al punto de certeza, desde un punto de incertidumbre con cuatro posibilidades, asumiendo que planeamos las preguntas de la manera más económica: “La letra desconocida ¿Está antes de la D en el abecedario?” No. Eso reduce las posibilidades a G y T y ahora solo necesitamos una pregunta más para saber con total certidumbre. Entonces con este método, cada “letra” en el ADN tiene una capacidad de 2 bits
Siempre que la incertidumbre previa del receptor pueda expresarse como un numero equiprobable de alternativas N, la información contenida en el mensaje que reduce esas posibilidades a una sola es log2N (la potencia a que 2 debe elevarse para proveernos de el numero de alternativas N). Si uno elige una carta, cualquiera sea, de un paquete, la mención de la carta carga log2(52) bits de información o 5.7 bits. En otras palabras, dado un determinado número de juego de adivinanza, tomaría 5.7 preguntas de si/no en promedio para adivinar la carta, siempre que las preguntas sean hechas de la forma económicamente más eficiente posible.
Las primeras 2 preguntas deben establecer el color y el palo (¿es roja? ¿Es diamantes?), mientras las siguientes preguntas se dedican a dividir y conquistar la respuesta (¿es mayor a 7?), finalmente determinando la carta elegida. Cuando la incertidumbre previa no es tan equiprobable, la formula de Shannon se vuelve ligeramente más compleja, pero esencialmente similar. Por cierto, la formula de promedios comparados de Shannon es la misma que los físicos han usado, desde el siglo XIX para calcular la entropía. Por muy interesantes implicancias que tenga el tema, vamos a dejarlo ahí por el momento.
INFORMACIÓN Y EVOLUCIÓN
Con lo anterior tenemos suficiente sobre la teoría de la información. Es una teoría que desde hace mucho tiempo me ha fascinado y la cual he usado muchas veces en trabajos de investigación. Revisemos ahora como podemos utilizar dicha teoría para analizar si la información contenida en el genoma, incrementa con la evolución. Primero, regresemos a la triple distinción que hicimos entre la capacidad total de información, capacidad utilizada y verdadero contenido de información, cuando esta es almacenada de la forma más económica posible. La capacidad total de información del genoma humano se mide en gigabits. La de la bacteria Escherichia coli se mide en megabits. Nosotros, como todos los animales, somos descendientes de un ancestro al cual, si estuviese disponible para analizar, calificaríamos ahora como una bacteria; Así que posiblemente durante los miles de millones de años desde que ese ancestro común existió, la capacidad de información ha aumentado en 3 rangos de magnitud (potencias de 10)- aproximadamente mil veces. Esto es satisfactoriamente posible y confortable para el ego humano. ¿Debería entonces el ego humano sentirse herido por el hecho de que el genoma del tritón común, Triturus cristatus, tienen una capacidad estimada de 40 gigabits, una rango de magnitud mayor al genoma humano? No, pues en todo caso, la mayor parte de la capacidad del genoma de cualquier animal no se utiliza para almacenar información útil. Existen muchos pseudo-genes no funcionales y enormes cantidades de paparruchas repetitivas, invaluables para los investigadores forenses, pero que no se traducen en proteínas en las células vivas. El tritón común tiene, entonces, un “disco duro” más grande que el humano, pero, como la gran mayoría de nuestro “disco duro” no se utiliza, no deberíamos sentirnos insultados. Otras especies de tritón tienen genomas mucho más pequeños. Por qué el Creador es de repente tan descuidado o caprichoso con los tamaños de los genomas de los tritones es una pregunta que los creacionistas deberían considerar. Desde un punto de vista evolutivo sin embargo, resulta muy sencillo (Revisar The Selfish Gene pp 44 – 45 y p 275, en la segunda edición).
GENES DUPLICADOS
Evidentemente el total de la capacidad de información del genoma es una variable a lo largo y ancho del reino animal, y debe haber cambiado considerablemente con la evolución, posiblemente en ambas direcciones. A las pérdidas de material genético las llamamos supresión. Nuevos genes brotan a través de varios tipos de duplicación. Un ejemplo perfecto de ello es la hemoglobina, la molécula pluri-proteica que transporta oxigeno en la sangre.
La hemoglobina de un humano adulto está compuesta de cuatro cadenas proteicas entretejidas llamadas globinas. Sus secuencias muestran que las cuatro globinas están estrechamente relacionadas entre sí, sin embargo no son idénticas. Dos de ellas son las llamadas globinas alfa (cada cadena de 141 aminoácidos), y dos de ellas globinas beta (cada cadena de 146 aminoácidos). Los genes que contienen los códigos de las globinas alfa se encuentran en el cromosoma 11; aquellos que contienen los códigos de las globinas beta están en el cromosoma 16. En cada uno de estos cromosomas, podemos hallar una cantidad de genes de globina alineados, entrelazados con ADN irrelevante. El grupo alfa, en el cromosoma 11, contiene siete genes de globinas. Cuatro de estos son pseudo-genes, versiones alfa deshabilitadas por fallas en su secuencia y que no se traducen en proteínas. Dos son verdaderos globinas alfa, utilizadas por los adultos. El último gen es el llamado zeta que se utiliza solo en embriones. La hemoglobina adulta, como hemos visto, contiene dos cadenas alfa y dos beta.
Dejando de lado la complejidad del sistema, he aquí un punto fascinante. Un análisis letra-por letra, muestra que estos tipos de genes de globina son literalmente miembros de una misma familia; literalmente primos. Pero estos primos lejanos, aun coexisten dentro de un mismo genoma, y dentro del de todos los vertebrados. Y a la escala de los organismos, los vertebrados son también nuestra familia. El árbol de la evolución vertebrada es el árbol familiar del cual todos somos parte, sus ramas representan los eventos de especiación (la división de la especie en pares de especies “hijas”). Pero hay otro árbol familiar ocupando la misma escala temporal, pero cuyas ramas no representan la especiación, si no los eventos de duplicación genética dentro del genoma.
La docena (aproximadamente) de globinas dentro de ti son descendientes de un gen de globina antiguo el cual, en un ancestro remoto que vivió hace aproximadamente quinientos mil años, se duplicó, luego de lo cual ambas copias permanecieron en el genoma. Hubo entonces, dos copias del mismo, en distintas partes del genoma de todos los animales que descendieron de este ancestro, uno de ellos destinado a formar el grupo alfa (y a lo que eventualmente paso a llamarse el cromosoma 11 en nuestro genoma) y el otro a grupo beta (en el cromosoma 16). Conforme fueron pasando los siglos, hubo mas y mas duplicaciones (y sin duda supresiones también). Cerca de 400 millones de años atrás, el ancestral gen alfa se volvió a duplicar, pero esta vez ambos genes permanecieron juntos, comenzando un grupo dentro del mismo cromosoma. Uno de ellos estaba destinado a convertirse en el zeta de los embriones, el otro devino en el gen de la globina alfa de los humanos adultos (otras ramas le dieron origen a los otros pseudo -genes que ya mencionamos). La historia se repite con el grupo beta, salvo que las duplicaciones ocurren en una era geologica distinta.
Ahora, he aquí un punto igualmente fascinante: Dada la división ente el grupo alfa y el grupo beta se dio hace 500 millones de años, se dará por sentado que no solo nuestro genoma humano mostrara la división/posesión de genes alfa en áreas distintas de los genes beta. Veremos entonces la misma división si observamos los genes de cualquier mamífero, reptil, ave, anfibio o pez, dado que nuestros ancestros comunes vivieron todos menos de 500 millones de años en el pasado. Siempre que se ha investigado, las expectativas han sido confirmadas, siendo que la mayor esperanza de encontrar un vertebrado que no comparta nuestra división alfa/beta estaría en la lamprea, dado que este es nuestro “primo” más remoto en cuanto a vertebrados se refiere; son los únicos vertebrados sobrevivientes cuyo ancestro común con nosotros pudo haber vivido antes de la división. Podemos estar bastante seguros que esta anguila es el único tipo de vertebrado que carece de la división alfa/beta.
La duplicación de los genes tiene un impacto histórico similar a aquel de la duplicación de las especies (“especiación”) en filogenia. Es responsable de la diversidad genética, de la misma manera que la especiación es responsable por la diversidad filética. Comenzando con un solo ancestro común, la magnífica diversidad de la vida se ha llevado a través de una serie de ramificaciones de nuevas especies, que eventualmente le permitió crecer a las ramas mayores y a los cientos de millones de especies diversas que habitan la tierra. Un mismo sistema de ramificaciones, pero esta vez con genomas, a través de la duplicación genética, ha dado origen al gran y diverso sistema de grupos de genes que constituye el genoma humano moderno.
La historia de las globinas es solo una entre muchas. La duplicación y la supresión genética ocurren de cuando en vez en los genomas. Es a través de estos y otros medios similares, que el tamaño del genoma puede crecer con la evolución. Ahora bien, debemos recordar la distinción que hicimos líneas arriba entre la capacidad total del genoma y la porción de dicha capacidad que se utiliza. Recordemos que no todos los genes de globinas llegan a ser utilizados, pues algunos de ellos, como theta en el grupo alfa de genes de globina, son pseudo-genes, visiblemente parte de genes funcionales, pero nunca trasladados al lenguaje de las proteínas. Y lo que es verdad para las globinas es verdad también para la mayoría de genes, pues los genomas están plagados de pseudo- genes no funcionales, que son los duplicados fallidos y eternamente inactivos de genes funcionales, mientras sus primos funcionales progresan sus asuntos en otras partes del mismo genoma. Y hay mucho ADN que no merece ni siquiera el nombre de pseu-gen, ya que es generado también por duplicación, pero no por la duplicación de genes funcionales. Consiste en múltiples copias de paparruchas, “repeticiones en tándem” y otros sinsentidos que puede ser útil para los forenses pero que no parece guardar ninguna utilidad para el cuerpo en sí mismo.
Otra vez, los creacionistas deben pasar más tiempo especulando en por qué el creador se molesta en llenar los genomas con pseudo-genes intraducibles y ADN de repeticiones en tándem.
INFORMACIÓN EN EL GENOMA
¿Podemos medir la capacidad de información que es efectivamente utilizado en el genoma? Cuando menos, podemos estimarlo, siendo en el humano un 2% (considerablemente menos que la porción que he usado de mi disco duro). Puede presumirse que una cifra considerablemente más baja corresponderá al tritón crestado, pero no tengo información acerca de si se ha o no medido. En cualquier caso no debemos perdernos en la idea chauvinista de que el genoma humano debe (por alguna razón) tener la base de datos más grande de ADN porque somos tan maravillosos. El gran biólogo evolucionista George C Williams ha señalado que los animales con ciclos vitales complejos deben almacenar los códigos para el desarrollo de todas las etapas, pero solo tiene un genoma para hacerlo. Así, una mariposa debe almacenar toda la información para construir a la oruga, el capullo y la mariposa. La fasciola hepática tiene seis distintas etapas en su ciclo vital, cada una especializada para un tipo distinto de vida. No deberíamos entonces sentirnos muy insultados si la fasciola hepática termina teniendo genomas más grandes que el nuestro (por cierto, no lo tiene).
Recordemos también que incluso la capacidad total de información del genoma que es utilizada no es igual al total de información en el sentido en que Shannon utiliza el término. El verdadero total de información es aquello que nos deja la desaparición de redundancias, cuando estas son comprimidas por el equivalente teórico del “Stuffit”. Hay algunos virus que parecen utilizar un sistema de compresión parecido al “Stuffit”, para ello hacen uso del hecho de que el ARN (estos virus no poseen ADN pero el principio es el mismo) se lee en conjuntos de 3; para ello existe un marco que se mueve a lo largo de la secuencia del ARN, leyendo las 3 letras a un solo tiempo. Obviamente, bajo circunstancias normales, si el marco comienza a leer en el lugar equivocado (en una mutación llamada de marco desplazado), se convierte en un total sinsentido: los conjuntos son diferentes de aquellos que tienen sentido. Pero estos fascinantes virus explotan la lectura de marco desplazado, obteniendo dos mensajes por el precio de uno, al tener un mensaje completamente distinto encriptado en la misma serie de letras cuando se lee con el marco desplazado. En principio, uno podría obtener hasta tres mensajes por el costo de almacenaje de uno, pero no sé si existe algún ejemplo de ello.
INFORMACIÓN EN EL CUERPO
Una cosa es estimar la capacidad de información total del genoma, y la cantidad de esta que es utilizada, pero calcular su contenido informático (en términos de Shannon) es harina de otro costal. Lo mejor que podemos hacer es olvidarnos del genoma y mirar, más bien, a su producto, el fenotipo (el cuerpo funcional de un animal o planta). En 1951, JWS Pringle, quien luego se convertiría en mi profesor en Oxford, postuló utilizar un sistema similar al de Shannon para medir la “complejidad”. Pringle quería expresarla matemáticamente en bits, pero yo he encontrado la siguiente forma verbal bastante útil al momento de explicar sus ideas a mis estudiantes.
En general tenemos un sentido intuitivo de que una langosta, por decir, es más compleja (mas “avanzada” dirían algunos) que algún otro animal, por decir una oruga. ¿Podemos medir algo para confirmar o negar este hecho intuitivo? Sin literalmente partir todo en bits, podemos dar una aproximación del contenido informático de ambos animales de la siguiente manera: imaginemos escribir un libro que describa a la langosta. Ahora imagina escribir otro libro que describa a la oruga al mismo nivel de detalle. Dividimos el número de palabras en uno entre el número de palabras en el otro y tenemos un aproximado de la complejidad relativa. Es necesario especificar que ambos libros deben describir sus respectivos animales “al mismo nivel de detalle”. Obviamente si describimos a la oruga a un nivel celular y la langosta a nivel de los más reconocibles rasgos anatómicos, la oruga resultaría teniendo mucha ventaja.
Pero realizando esta prueba correctamente, puedo apostar que el libro de la langosta es mayor que el libro de la oruga. Es un simple argumento de plausibilidad. Ambos animales están compuestos de segmentos, pero mientras la oruga está compuesta de segmentos más o menos iguales entre sí, los segmentos de la langosta (siguiendo básicamente la misma arquitectura y a pesar de llevar en cada segmento un ganglio nervioso, un par de apéndices, etc.) son en su mayoría distintos uno del otro. El libro de la oruga tendría un capitulo describiendo la estructura típica de un segmento, seguido por la frase “repetir N veces” donde N es el numero de segmentos, mientras la langosta requeriría de un capitulo distinto para cada segmento. Esta descripción no es del todo justa para la oruga cuyos segmentos delantero y trasero son relativamente distintos del resto, pero aun así podría apostar, si alguien se molesta en realizar el experimento, el aproximado de contenido de información sobre la langosta sería sustancialmente mayor al aproximado de información sobre la oruga.
No es de directo interés evolutivo el comparar a langostas y orugas de esta manera, pues nadie cree que unas hayan evolucionado de las otras. Obviamente ningún animal moderno evoluciono de otro animal moderno, en lugar de eso, cualquier par de animales moderno tuvo al menos un ancestro común, el cual vivió en algún punto (en principio) pasible de descubrimiento. Casi toda la evolución sucedió mucho tiempo atrás, lo cual hace que los detalles sean difíciles de analizar. Pero podemos utilizar el experimento mental del “largo del libro” para acordar el que significaría preguntar acerca del incremento de contenido informático en la evolución, si tuviéramos los animales prehistóricos para observar.
La respuesta, en la práctica, es complicada y controversial, encontrada siempre con un vigoroso debate sobre si la evolución es siempre progresiva. Soy uno de aquellos que se adhieren a la limitada respuesta de: Si. Mi colega Stephen Jay Gould tiende más bien a la respuesta de no. No creo que nadie pueda negar que, por cualquier medio posible, sea información anatómica, capacidad total del genoma, capacidad utilizada del genoma o información efectiva en el genoma (aquella sin redundancias), ha habido una mayoritaria tendencia al incremento de información en el curso de la evolución humana desde nuestros ancestros bacteria. Mucha gente, sin embargo, podría estar en desacuerdo con respecto a dos puntos relevantes: Primero, en cuanto a si dicha tendencia puede encontrarse en todas, o al menos una mayoría, de las líneas evolutivas (por ejemplo la evolución de los parásitos comúnmente muestra una tendencia a reducir la complejidad anatómica ya que los parásitos están mejor cuando son simples); Segunda, acerca de si incluso en líneas evolutivas donde la tendencia es clara por un considerable periodo , está rodeada de tantos detrimentos y avances que la propia idea de progreso es discutible. Distinguidos biólogos apoyan ambos lados de la discusión.
Quienes apoyan la idea de un “diseño inteligente” como guía de la evolución, por cierto, deben estar profundamente comprometidos con la idea de que el contenido informático aumenta con la evolución. Incluso si la información proviene de Dios, y especialmente si viene de él, debería incrementar y el incremento debe seguramente reflejarse en el genoma. Salvo, por supuesto (dado que cualquier cosa puede suceder en las teorías serpentinas) que dios realice sus milagros evolutivos por medios no genéticos.
Quizás la lección más importante que debemos aprender de Pringle es que el contenido informático de un sistema biológico es solo otra forma de llamar a su complejidad. Por ello el reto de los creacionistas (con el que comenzamos) es equivalente a aquel de explicar cómo es que seres complejos pudieron evolucionar de antecedentes sencillos, a lo cual he dedicado ya tres libros (The Blind Watchmaker, River Out of Eden, Climbing Mount Improbable) y no me propongo repetir su contenido en estas páginas. “El reto informático” resultó ser no otro que el viejo y conocido dilema de “¿Cómo puede algo tan complejo como un ojo evolucionar de la nada?” pero disfrazado de lenguaje matemático, probablemente en un intento de sorprender al lector. O quizás aquellos que lo preguntan han sido a su vez sorprendidos, y por ello no se dan cuenta que es el antiguo y ya respondido asunto.
EL LIBRO DE LOS MUERTOS (EN GENETICA)
Volvamos la mirada, finalmente, a otra forma de entender el reto informático. Volvemos la mirada ahora del análisis general de la historia de la evolución a las minucias de la selección natural. La selección natural en sí, cuando se analiza, es la reducción de un amplio grupo de alternativas. Errores genéticos al azar (mutación), recombinación sexual y apareamiento migratorio, todo nos provee con un amplio campo para el cambio genético: las alternativas disponibles. La mutación, entonces, no es un incremento en el verdadero contenido de información (informático), sino su completo opuesto, pues la mutación, en la analogía de Shannon, contribuye al incremento de la incertidumbre previa. Sin embargo, considerando la selección natural, la cual reduce la “incertidumbre previa” al contribuir con información de la fuente genética. En cada generación, la selección natural retira los genes menos exitosos de la fuente genética, de manera que los restantes creen un set cada vez mas especifico de genes. La reducción es no azarosa, de manera que se mejore, en el sentido Darwiniano (mejora en la capacidad de sobrevivir y reproducirse). Desde luego el rango total de variaciones aumenta con cada generación debido a las nuevas mutaciones y o tro tipo de variaciones. Pero la verdad se mantiene en cuanto a la selección natural como sistema de concentración (reducción) de un campo mucho más amplio, que incluye a los menos exitosos, en torno a los genes más exitosos. Esto funcionará de manera análoga a la definición de información con la que comenzáramos el artículo: información es aquello que nos permite reducir las opciones, comenzando por la incertidumbre inicial (el rango total de posibilidades) y terminando en la certidumbre (la selección “exitosa” entre las posibilidades ofrecidas). De acuerdo con esta analogía, la selección natural es el medio por el cual la fuente genética obtiene su información para la siguiente generación.
Si la fuente genética se alimenta por medio de la selección natural, ¿de qué información se trata? Se trata de la información acerca de cómo sobrevivir. Estrictamente hablando, es sobre cómo sobrevivir y reproducirse, en las condiciones prevalentes en la época en que la generación anterior vivió. Al punto en que, si las condiciones actuales son diferentes de las ancestrales, el “consejo genético” ancestral sería incorrecto. En casos extremos esto significa la extinción de la especie. Si las condiciones de la generación actual no son muy diferentes de las de la generación anterior, la información que llega al genoma actual de la generación anterior, es útil.
La información que deriva del pasado ancestral puede resultar en un manual para sobrevivir en el presente: una historia familiar de “moralejas” ancestrales sobre cómo sobrevivir. Solo necesitamos un poco de licencia poética y podremos afirmar que la información en los genomas actuales (producida por la selección natural) es, de hecho, información sobre antiguos espacios en los que nuestros sobrevivieron.
Esta idea de la información proveniente de generaciones anteriores en la fuente genética es uno de los temas en mi nuevo libro, Unweaving the Rainbow. Me toma un capítulo entero, “The Genetic Book of the Dead”, desarrollar la idea, así que no la repetiré aquí, salvo para decir dos cosas: Primera, que es toda la fuente genética (vista como una unidad) y no el genoma de un individuo particular, la que se debe observar como receptor de la información ancestral de cómo sobrevivir. Los genomas de individuos particulares son muestras al azar, hechas azarosas por motivo de la recombinación sexual. Segunda, que somos seres privilegiados al poder “interceptar” la información si deseamos, y “leer” la complejidad del cuerpo de un animal, o de sus genes, como una descripción codificada de mundos ancestrales. Citando de mi libro: “¿No es una idea interesante? Somos archivos digitales del Plioceno Africano, o incluso de los mares Devonianos; depósitos andantes de la sabiduría de días pasados. Podríamos pasar una vida leyendo en esta antigua biblioteca y morir insatisfecho de la pura maravilla de la misma.”
Los productores nunca se dignaron a enviarme una copia. El tema escapo a mi memoria hasta que un colega norteamericano me aviso sobre él.
Véase “Creationist Deception Exposed”, The Skeptic 18(1998), 3, pp 7 – 10, por WILLIAMS, Barry
Mi nombre es José Miguel Barba y; Beto, puedes venir a reclamarla cuando quieras...
línea
Etiquetas : Informatica, evolucion, Richard Dawkins, genoma

Total de Votos: 1 - Rating: 5.00
Ingrese su correo electrónico para suscribirse a los comentarios de este artículo:





