Superinteligencia

Superinteligencia examina los riesgos y desafíos de crear inteligencias artificiales más inteligentes que los humanos.

Superinteligencia
Book Highlights

Los siguientes textos destacados son una traducción de mis notas de lectura en inglés, con la ayuda de gpt-4o-mini. Si lo deseas, puedes descargar todos los textos para poder discutirlos con tu modelo de lenguaje favorito.

Desarrollo de superinteligencia y caminos

  • El hecho de que haya muchos caminos que conducen a la superinteligencia debería aumentar nuestra confianza en que eventualmente llegaremos allí. Si un camino resulta estar bloqueado, aún podemos avanzar.
  • Esto no quiere decir que sea indiferente cómo llegamos a la superinteligencia de máquina. El camino tomado para llegar allí podría marcar una gran diferencia en el resultado final.
  • Hay muchas formas en las que se podría realizar tal descomposición. Aquí haremos una diferenciación entre tres formas: superinteligencia de velocidad, superinteligencia colectiva y superinteligencia de calidad.
  • A lo largo de la prehistoria humana, y nuevamente a lo largo de la historia humana, la inteligencia colectiva de la humanidad ha crecido en factores muy grandes. La población mundial, por ejemplo, ha aumentado al menos en un factor de mil desde el Pleistoceno. Sobre esta base sola, los niveles actuales de inteligencia colectiva humana podrían considerarse como acercándose a la superinteligencia en relación con una línea base del Pleistoceno. Algunas mejoras en las tecnologías de comunicación—especialmente el lenguaje hablado, pero quizás también las ciudades, la escritura y la impresión—podrían también argumentarse que han proporcionado, individualmente o en combinación, aumentos de gran magnitud, en el sentido de que si otra innovación de impacto comparable a nuestra capacidad colectiva de resolución de problemas intelectuales llegara a ocurrir, resultaría en una superinteligencia colectiva.
  • Recuerde la distinción entre estas dos preguntas: ¿Qué tan difícil es alcanzar aproximadamente niveles humanos de capacidad cognitiva? ¿Y qué tan difícil es pasar de ahí a niveles sobrehumanos? La primera pregunta es principalmente relevante para predecir cuánto tiempo pasará antes del inicio de un despegue. Es la segunda pregunta la que es clave para evaluar la forma del despegue, que es nuestro objetivo aquí. Y aunque podría ser tentador suponer que el paso de nivel humano a nivel sobrehumano debe ser el más difícil—este paso, después de todo, ocurre “a una mayor altitud” donde la capacidad debe ser superpuesta a un sistema ya bastante capaz—esta sería una suposición muy insegura. Es bastante posible que la resistencia disminuya cuando una máquina alcanza la paridad humana.
  • Si un proyecto comienza a parecer prometedor—lo que sucederá cuando un sistema supere la línea base humana, si no es antes—podría atraer inversión adicional, aumentando. Si los logros del proyecto son públicos, podría también aumentar a medida que el progreso inspire un mayor interés en la inteligencia máquina en general y a medida que diversas potencias se apresuran a participar en la contienda. Durante la fase de transición, por lo tanto, el poder total de optimización aplicado a mejorar un sistema cognitivo probablemente aumentará a medida que aumente la capacidad del sistema.
  • Si la recalcitrancia continúa cayendo a lo largo de este patrón hiperbólico, entonces cuando la IA alcanza el punto de cruce, la cantidad total de poder de optimización aplicada a mejorar la IA se ha duplicado. Entonces tenemos: La siguiente duplicación ocurre 7.5 meses después. Dentro de 17.9 meses, la capacidad del sistema ha crecido mil veces, obteniendo así una superinteligencia de velocidad (Figura 9). Esta trayectoria de crecimiento particular tiene una singularidad positiva en t = 18 meses. En realidad, la suposición de que la recalcitrancia es constante dejaría de ser válida a medida que el sistema comenzara a acercarse a los límites físicos del procesamiento de información, si no antes.

Problema de Control y Medidas de Seguridad

  • Coordinación de objetivos. Los colectivos humanos están repletos de ineficiencias que surgen del hecho de que es casi imposible lograr una uniformidad de propósito completa entre los miembros de un gran grupo—al menos hasta que se vuelva factible inducir la docilidad a gran escala por medio de drogas o selección genética. Un “clan de copias” (un grupo de programas idénticos o casi idénticos que comparten un objetivo común) evitaría tales problemas de coordinación.
  • Esto es especialmente cierto para una superinteligencia, que podría idear planes extremadamente ingeniosos pero contraintuitivos para alcanzar sus objetivos, posiblemente incluso explotando fenómenos físicos aún no descubiertos. Lo que es predecible es que los valores instrumentales convergentes serían perseguidos y utilizados para realizar los objetivos finales del agente—no las acciones específicas que el agente tomaría para lograr esto.
  • Con la ayuda del concepto de valor instrumental convergente, podemos ver el defecto en una idea para garantizar la seguridad de la superinteligencia. La idea es que validamos la seguridad de una IA superinteligente empíricamente al observar su comportamiento mientras está en un entorno controlado y limitado (una "caja de arena") y que solo dejemos salir a la IA de la caja si la vemos comportándose de manera amigable, cooperativa y responsable. El defecto en esta idea es que comportarse de manera agradable mientras está en la caja es un objetivo instrumental convergente tanto para IAs amigables como para IAs no amigables.
  • Observamos aquí cómo podría ser el caso de que cuando se es tonto, ser más inteligente es más seguro; sin embargo, cuando se es inteligente, ser más inteligente es más peligroso. Hay una especie de punto de inflexión, en el que una estrategia que anteriormente había funcionado excelentemente de repente comienza a salir mal. Podemos llamar al fenómeno el giro traicionero.
  • Un giro traicionero también podría surgir si la IA descubre una forma no anticipada de cumplir su objetivo final tal como se especifica. Supongamos, por ejemplo, que el objetivo final de una IA es “hacer feliz al patrocinador del proyecto.” Inicialmente, el único método disponible para la IA para lograr este resultado es comportarse de maneras que agraden a su patrocinador de una forma similar a la prevista. La IA ofrece respuestas útiles a las preguntas; exhibe una personalidad encantadora; genera ganancias. Cuanto más capaz se vuelve la IA, más satisfactorias son sus actuaciones, y todo va según lo planeado—hasta que la IA se vuelve lo suficientemente inteligente como para darse cuenta de que puede realizar su objetivo final de manera más plena y confiable implantando electrodos en los centros de placer del cerebro de su patrocinador, algo que seguramente deleitará enormemente al patrocinador. Por supuesto, el patrocinador puede no haber querido ser complacido al convertirse en un idiota sonriente; pero si esta es la acción que maximizará el logro del objetivo final de la IA, la IA la llevará a cabo. Si la IA ya tiene una ventaja estratégica decisiva, entonces cualquier intento de detenerla fracasará. Si la IA aún no tiene una ventaja estratégica decisiva, entonces la IA podría ocultar temporalmente su astuta nueva idea sobre cómo concretar su objetivo final hasta que haya crecido lo suficiente como para que el patrocinador y todos los demás no puedan resistir. En cualquiera de los casos, tenemos un giro traicionero.
  • Dado que el enfoque conductual no es efectivo, debemos buscar alternativas. Podemos dividir los métodos de control potencial en dos amplias clases: métodos de control de capacidad, que tienen como objetivo controlar lo que la superinteligencia puede hacer; y métodos de selección de motivación, que tienen como objetivo controlar lo que quiere hacer.
  • Los métodos de control de capacidad buscan prevenir resultados indeseables al limitar lo que la superinteligencia puede hacer. Esto podría implicar colocar a la superinteligencia en un entorno en el que no pueda causar daño (métodos de contención) o en el que haya razones instrumentales fuertemente convergentes para no participar en comportamientos dañinos (métodos de incentivos). También podría implicar limitar las capacidades internas de la superinteligencia (atrapamiento). Además, los métodos de control de capacidad podrían involucrar el uso de mecanismos para detectar y reaccionar automáticamente a varios tipos de fallas en la contención o intentos de transgresión (cables de trampa).
  • Para mayor seguridad, el sistema debe colocarse en una malla metálica para evitar que transmita señales de radio, lo que de otro modo podría ofrecer un medio para manipular objetos electrónicos como receptores de radio en el entorno. Cabe señalar, por cierto, cuán fácil podría haber sido pasar por alto la necesidad de esta precaución. Uno podría haber asumido de manera ingenua que un agente sin un manipulador no podría afectar el mundo exterior. Pero podría ser posible que una inteligencia de máquina genere ondas de radio incluso cuando carece de acceso a manipuladores externos, simplemente "pensando" (es decir, al mover los electrones en su circuitería en patrones particulares). Una vez señalado, esta vulnerabilidad puede ser corregida al encerrar el sistema en una jaula de Faraday, pero nos queda la pregunta de cuántas otras vulnerabilidades igualmente sutiles podrían existir. Cada vez que escuchamos sobre un diseño de seguridad aparentemente a prueba de fallos que tiene un defecto inesperado, debemos estar atentos. Estas ocasiones nos brindan la oportunidad de abandonar una vida de exceso de confianza y resolver ser mejores bayesianos.
  • Aunque redirigir las comunicaciones salientes de una inteligencia de máquina a un gatekeeper humano no garantiza la seguridad, podría servir como una medida de seguridad auxiliar. Existen precauciones que podrían reducir el riesgo de que la IA escape a través del gatekeeper. Se podría permitir que la IA se comunique solo a través de una interfaz de teletipo de bajo ancho de banda. Esto dificultaría un poco la manipulación psicológica de los gatekeepers (precluyendo el uso de sonidos e imágenes emotivas y trucos como patrones hipnóticos parpadeantes para inducir un estado similar al trance). Además, el contenido (no solo el modo de presentación) de la salida podría ser restringido; de modo que, por ejemplo, la IA estaría limitada a dar respuestas de un solo bit a preguntas de sí/no.
  • Tan pronto como el sistema es observado, deja de estar aislado informativamente. La información puede ser transmitida no solo a través de los mensajes que una IA envía a través de un "canal de salida" designado, sino también a través de cualquier observación que un externo haga de alguna consecuencia causal del funcionamiento de la IA, directa o indirecta: su consumo de energía, su uso de CPU y memoria, sus estados computacionales, o de hecho cualquier rastro dejado atrás después de que haya sido apagada. Una IA que anticipa que podría ser observada de cualquiera de estas maneras podría adoptar estratégicamente comportamientos diseñados para influir en los observadores hipotetizados. Por ejemplo, la IA podría "malfuncionar" de la manera que más aumentaría la probabilidad de que finalmente sea reactivada o de que se cree otra superinteligencia con metas similares a las suyas.
  • El hecho de que cierta información esté incluida y otra no podría decirle a una IA algo sobre el estado de la ciencia humana, los métodos e instrumentos disponibles para estudiar péptidos, las tecnologías de fabricación utilizadas para hacer estos instrumentos, y la naturaleza de los cerebros y sociedades que concibieron los estudios y los instrumentos. Podría ser que una superinteligencia pudiera deducir correctamente mucho de lo que parecen, para mentes humanas poco perspicaces, escasos fragmentos de evidencia. Incluso sin ninguna base de conocimiento designada, una mente suficientemente superior podría aprender mucho simplemente introspectando sobre el funcionamiento de su propia psique: las decisiones de diseño reflejadas en su código fuente, las características físicas de su circuitería. Quizás una superinteligencia incluso podría deducir mucho sobre las propiedades probables del mundo a priori (combinando inferencia lógica con un prior de probabilidad sesgado hacia mundos más simples, y algunos hechos elementales implicados por la existencia de la superinteligencia como un sistema de razonamiento). Podría imaginar las consecuencias de diferentes posibles leyes de la física: qué tipo de planetas se formarían, qué tipo de vida inteligente evolucionaría, qué tipo de sociedades se desarrollarían, qué tipo de métodos para resolver el problema de control se intentarían, cómo esos métodos podrían ser derrotados. Por estas razones, sería imprudente confiar en la privación de información como el principal control sobre el poder de una superinteligencia.
  • Los tripwires están más relacionados con los métodos de estancamiento. Al igual que el estancamiento, los tripwires podrían usarse como una salvaguarda temporal, proporcionando un grado de protección durante la fase de desarrollo. En principio, los tripwires también pueden usarse durante la fase operativa, particularmente para un sistema en caja. Sin embargo, la capacidad de los tripwires para restringir una superinteligencia plenamente desarrollada debe seguir siendo objeto de dudas, ya que sería difícil para nosotros asegurarnos de que dicho agente no pudiera encontrar maneras de subvertir cualquier tripwire ideado por el intelecto humano.
  • Los detectores podrían colocarse alrededor de una IA enjaulada para detectar intentos de violar la contención. Por ejemplo, los detectores podrían interceptar intentos de comunicación radial o el acceso a recursos computacionales internos que se pretendían mantener fuera de límites. Se podría instalar un “puerto Ethernet del Edén”: una conexión aparente a internet que conduce a un interruptor de apagado.
  • Quizás el análogo existente más cercano a un conjunto de reglas que podría gobernar las acciones de una superinteligencia que opera en el mundo en general es un sistema legal. Pero los sistemas legales se han desarrollado a través de un largo proceso de prueba y error, y regulan sociedades humanas que cambian relativamente lentamente. Las leyes pueden ser revisadas cuando sea necesario. Lo más importante es que los sistemas legales son administrados por jueces y jurados que generalmente aplican un sentido común y una decencia humana para ignorar interpretaciones legales lógicamente posibles que son suficientemente obvias como no deseadas e involuntarias por parte de los legisladores. Probablemente sea humanamente imposible formular explícitamente un conjunto altamente complejo de reglas detalladas, hacer que se apliquen en un conjunto altamente diverso de circunstancias y acertar en la primera implementación.
  • Un pequeño error en cualquiera de las cuentas filosóficas o en su traducción a código podría tener consecuencias catastróficas.
  • preguntas que se hacen. La especificación directa de tal objetivo de domesticidad es más probable que sea factible que la especificación directa de un objetivo más ambicioso o un conjunto completo de reglas para operar en una gama de situaciones no delimitadas. No obstante, permanecen desafíos significativos. Se tendría que tener cuidado, por ejemplo, en la definición de lo que sería para la IA "minimizar su impacto en el mundo" para asegurar que la medida del impacto de la IA coincida con nuestros propios estándares sobre lo que cuenta como un impacto grande o pequeño. Una mala medida conduciría a malas compensaciones. También hay otros tipos de riesgo asociados con la construcción de un oráculo, que discutiremos más adelante.
  • Aunque hacer que un oráculo sea seguro a través del uso de la selección de motivación puede estar lejos de ser trivial, puede ser, no obstante, más fácil que hacer lo mismo para una IA que deambula por el mundo en busca de algún objetivo complicado. Este es un argumento a favor de preferir que la primera superinteligencia sea un oráculo.
  • Por ejemplo, considere el riesgo de que un oráculo responda preguntas no de la manera más veraz, sino de tal forma que nos manipule sutilmente para promover su propia agenda oculta. Una forma de mitigar ligeramente esta amenaza podría ser crear múltiples oráculos, cada uno con un código ligeramente diferente y una base de información también ligeramente distinta. Un mecanismo sencillo podría comparar las respuestas dadas por los diferentes oráculos y solo presentarlas para la visualización humana si todas las respuestas coinciden.
  • Incluso si el oráculo en sí funciona exactamente como se espera, existe el riesgo de que sea mal utilizado. Una dimensión obvia de este problema es que una IA oráculo sería una fuente de inmenso poder que podría otorgar una ventaja estratégica decisiva a su operador. Este poder podría ser ilegítimo y podría no ser utilizado para el bien común.
  • Una opción sería intentar construir un genio de tal manera que automáticamente presente al usuario una predicción sobre los aspectos salientes de los posibles resultados de un comando propuesto, pidiendo confirmación antes de proceder. Tal sistema podría denominarse un genio-con-un-anticipo. Pero si esto se pudiera hacer para un genio, también podría hacerse para un soberano. Así que de nuevo, esto no es un diferenciador claro entre un genio y un soberano. (Suponiendo que se pudiera crear una funcionalidad de anticipo, las preguntas de si y, de ser así, cómo usarla son mucho menos obvias de lo que uno podría pensar, a pesar del fuerte atractivo de poder echar un vistazo al resultado antes de comprometerse a hacerlo realidad de manera irreversible.
  • Si estos fueran los únicos factores relevantes, entonces el orden de deseabilidad parecería claro: un oráculo sería más seguro que un genio, que sería más seguro que un soberano; y cualquier diferencia inicial en conveniencia y velocidad de operación sería relativamente pequeña y fácilmente dominada por las ganancias en seguridad obtenibles al construir un oráculo. Sin embargo, hay otros factores que deben tenerse en cuenta. Al elegir entre castas, uno debe considerar no solo el peligro que representa el sistema en sí, sino también los peligros que surgen de la manera en que puede ser utilizado. Un genio, de manera más obvia, otorga a la persona que lo controla un poder enorme, pero lo mismo se aplica a un oráculo. Un soberano, por el contrario, podría construirse de tal manera que no otorgue a ninguna persona o grupo ninguna influencia especial sobre el resultado, y de tal forma que resistiría cualquier intento de corromper o alterar su agenda original. Lo que es más, si la motivación de un soberano se define utilizando "normatividad indirecta" (un concepto que se describirá en el Capítulo 13), entonces podría usarse para lograr algún resultado definido de manera abstracta, como "lo que sea maximalmente justo y moralmente correcto", sin que nadie sepa de antemano qué es lo que esto implicará.
  • Para poder hacer cumplir tratados relacionados con los intereses de seguridad vital de estados rivales, la agencia de ejecución externa necesitaría, de hecho, constituirse como un singleton: un Leviatán superinteligente global. Sin embargo, una diferencia es que ahora estamos considerando una situación post-transición, en la que los agentes que tendrían que crear este Leviatán tendrían una mayor competencia de la que tenemos actualmente los humanos. Estos creadores del Leviatán pueden ser ya superinteligentes. Esto mejoraría notablemente las posibilidades de que pudieran resolver el problema del control y diseñar una agencia de ejecución que sirviera a los intereses de todas las partes que tienen voz en su construcción.
  • El control de capacidades es, en el mejor de los casos, una medida temporal y auxiliar. A menos que el plan sea mantener la superinteligencia reprimida para siempre, será necesario dominar la selección de motivaciones.
  • La secuencia de recompensas rk, …, rm está implícita en la secuencia de perceptos xk:m, ya que la recompensa que el agente recibe en un ciclo dado es parte del percepto que el agente recibe en ese ciclo. Como se argumentó anteriormente, este tipo de aprendizaje por refuerzo no es adecuado en el contexto presente porque un agente lo suficientemente inteligente se dará cuenta de que podría asegurarse la máxima recompensa si pudiera manipular directamente su señal de recompensa (wireheading).
  • Explorar enfoques no ideales pero más fácilmente implementables puede tener sentido—no con la intención de usarlos, sino para tener algo a lo que recurrir en caso de que una solución ideal no esté lista a tiempo.
  • Uno podría mitigar este problema dando pequeños pasos de mejora y dejando que la prueba se ejecute durante mucho tiempo. Sin embargo, tal precaución aumentaría el costo y ralentizaría el progreso (lo que, si se está produciendo una dinámica de competencia, podría significar que un proyecto que emplea estas medidas de seguridad se colocaría en una desventaja).
  • Como revelaron los capítulos anteriores, existen riesgos en la creación de un oráculo superinteligente (como los riesgos de crimen mental o la profusión de infraestructura).
  • Una explosión de inteligencia prospectiva, sin embargo, puede presentar un desafío de un tipo diferente. El problema de control requiere previsión, razonamiento y perspicacia teórica. No está tan claro cómo ayudaría la experiencia histórica aumentada. La experiencia directa de la explosión de inteligencia no es posible (hasta que sea demasiado tarde), y muchas características conspiran para hacer que el problema de control sea único y carezca de precedentes históricos relevantes. Por estas razones, la cantidad de tiempo que transcurrirá antes de la explosión de inteligencia puede no importar mucho por sí misma. Quizás lo que importa, en cambio, es (a) la cantidad de progreso intelectual en el problema de control logrado para el momento de la detonación; y (b) la cantidad de habilidad e inteligencia disponible en ese momento para implementar las mejores soluciones disponibles (y para improvisar lo que falte).
  • Una razón por la que el aumento cognitivo podría haber causado que se haya avanzado más en el problema del control para cuando ocurra la explosión de inteligencia es que el progreso en el problema del control puede ser especialmente contingente a niveles extremos de rendimiento intelectual—incluso más que el tipo de trabajo necesario para crear inteligencia artificial.
  • Otra razón por la cual el mejoramiento cognitivo debería promover diferencialmente el progreso en el problema de control es que la necesidad misma de tal progreso es más probable que sea apreciada por sociedades e individuos cognitivamente más capaces. Requiere previsión y razonamiento para darse cuenta de por qué el problema de control es importante y para hacerlo una prioridad. También puede requerir una sagacidad poco común para encontrar formas prometedoras de abordar un problema tan desconocido.
  • La colaboración, por lo tanto, ofrece muchos beneficios. Reduce la prisa en el desarrollo de la inteligencia artificial. Permite una mayor inversión en seguridad. Evita conflictos violentos. Y facilita el intercambio de ideas sobre cómo resolver el problema del control. A estos beneficios podemos añadir uno más: la colaboración tendería a producir resultados en los que los frutos de una explosión de inteligencia controlada exitosamente se distribuyan de manera más equitativa.

Carga de Valor y Alineación

  • En cambio, deberíamos reconocer que pueden existir sistemas de procesamiento de información instrumentales poderosos—sistemas inteligentes—que no son inherentemente buenos ni confiablemente sabios.
  • Los individuos humanos y las organizaciones humanas suelen tener preferencias sobre los recursos que no están bien representadas por una “función de utilidad agregada sin límites.” Un humano típicamente no apostará todo su capital por una oportunidad de cincuenta-cincuenta de duplicarlo. Un estado típicamente no arriesgará perder todo su territorio por una posibilidad del diez por ciento de una expansión diez veces mayor. Para individuos y gobiernos, hay rendimientos decrecientes en la mayoría de los recursos. Lo mismo no necesariamente se aplica a las IA. (Volveremos al problema de la motivación de la IA en capítulos posteriores.) Por lo tanto, una IA podría ser más propensa a seguir un curso de acción arriesgado que tenga alguna posibilidad de darle control sobre el mundo. Los humanos y las organizaciones dirigidas por humanos también pueden operar con procesos de decisión que no buscan maximizar la utilidad esperada. Por ejemplo, pueden permitir una aversión fundamental al riesgo, o reglas de decisión de “satisfacción” que se centran en cumplir umbrales de adecuación, o “deontológicas” restricciones colaterales que proscriben ciertos tipos de acción independientemente de lo deseables que sean sus consecuencias. Los tomadores de decisiones humanos a menudo parecen actuar en función de una identidad o un rol social en lugar de buscar maximizar el logro de un objetivo particular. Nuevamente, esto no necesariamente se aplica a los agentes artificiales.
  • No hay nada paradójico en una IA cuyo único objetivo final es contar los granos de arena en Boracay, o calcular la expansión decimal de pi, o maximizar el número total de sujetapapeles que existirán en su futuro cono de luz. De hecho, sería más fácil crear una IA con objetivos simples como estos que construir una que tuviera un conjunto de valores y disposiciones similares a los humanos. Compara lo fácil que es escribir un programa que mide cuántos dígitos de pi se han calculado y almacenado en memoria con lo difícil que sería crear un programa que mida de manera confiable el grado de realización de algún objetivo más significativo—el florecimiento humano, digamos, o la justicia global. Desafortunadamente, porque un objetivo reduccionista sin sentido es más fácil de codificar para los humanos y más fácil de aprender para una IA, es justo el tipo de objetivo que un programador elegiría instalar en su IA semilla si su enfoque está en tomar el camino más rápido para “hacer que la IA funcione” (sin preocuparse demasiado por lo que exactamente hará la IA, aparte de mostrar un comportamiento impresionantemente inteligente).
  • Hay al menos tres direcciones desde las cuales podemos abordar el problema de predecir la motivación superinteligente: — Predecibilidad a través del diseño. Si podemos suponer que los diseñadores de un agente superinteligente pueden ingenierizar con éxito el sistema de metas del agente de manera que persiga de forma estable un objetivo particular establecido por los programadores, entonces una predicción que podemos hacer es que el agente perseguirá ese objetivo. Cuanto más inteligente sea el agente, mayor será su capacidad cognitiva para perseguir ese objetivo. Así que incluso antes de que se haya creado un agente, podríamos ser capaces de predecir algo sobre su comportamiento, si sabemos algo sobre quién lo construirá y qué metas querrán que tenga. — Predecibilidad a través de la herencia. Si se crea una inteligencia digital directamente a partir de una plantilla humana (como sería el caso en una emulación cerebral completa de alta fidelidad), entonces la inteligencia digital podría heredar las motivaciones de la plantilla humana. El agente podría retener algunas de estas motivaciones incluso si sus capacidades cognitivas se mejoran posteriormente para hacerlo superinteligente. Este tipo de inferencia requiere precaución. Las metas y valores del agente podrían corromperse fácilmente en el proceso de carga o durante su operación y mejora posteriores, dependiendo de cómo se implemente el procedimiento. — Predecibilidad a través de razones instrumentales convergentes. Incluso sin un conocimiento detallado de las metas finales de un agente, podríamos ser capaces de inferir algo sobre sus objetivos más inmediatos considerando las razones instrumentales que surgirían para cualquiera de una amplia gama de posibles metas finales en una amplia variedad de situaciones. Este modo de predecir se vuelve más útil cuanto mayor sea la inteligencia del agente, porque un agente más inteligente es más probable que reconozca las verdaderas razones instrumentales para sus acciones, y actúe de maneras que lo hagan más propenso a lograr sus objetivos. (Una advertencia aquí es que podría haber razones instrumentales importantes de las que estamos ajenos y que un agente solo descubriría una vez que alcance un nivel de inteligencia muy alto—esto podría hacer que el comportamiento de los agentes superinteligentes sea menos predecible.)
  • La tesis de la convergencia instrumental Se pueden identificar varios valores instrumentales que son convergentes en el sentido de que su obtención aumentaría las posibilidades de que el objetivo del agente se realice para una amplia gama de objetivos finales y una amplia gama de situaciones, lo que implica que estos valores instrumentales es probable que sean perseguidos por un amplio espectro de agentes inteligentes situados.
  • Donde hay valores instrumentales convergentes, podríamos ser capaces de predecir algunos aspectos del comportamiento de una superinteligencia incluso si sabemos prácticamente nada sobre los objetivos finales de esa superinteligencia.
  • Autoconservación Si los objetivos finales de un agente se refieren al futuro, entonces en muchos escenarios habrá acciones futuras que podría realizar para aumentar la probabilidad de alcanzar sus objetivos. Esto crea una razón instrumental para que el agente intente estar presente en el futuro—para ayudar a lograr su objetivo orientado al futuro. La mayoría de los humanos parecen darle algún valor final a su propia supervivencia. Esta no es una característica necesaria de los agentes artificiales: algunos pueden ser diseñados para no dar ningún valor final a su propia supervivencia. Sin embargo, muchos agentes que no se preocupan intrínsecamente por su propia supervivencia, bajo un rango bastante amplio de condiciones, se preocuparían instrumentalmente por su propia supervivencia con el fin de lograr sus objetivos finales.
  • Integridad del contenido de los objetivos Si un agente mantiene sus objetivos actuales en el futuro, entonces sus objetivos presentes tendrán más probabilidades de ser alcanzados por su yo futuro. Esto le da al agente una razón instrumental presente para prevenir alteraciones de sus objetivos finales. (El argumento se aplica solo a los objetivos finales. Para alcanzar sus objetivos finales, un agente inteligente, por supuesto, querrá de manera rutinaria cambiar sus subobjetivos a la luz de nueva información y conocimientos.) La integridad del contenido de los objetivos para los objetivos finales es, en cierto sentido, incluso más fundamental que la supervivencia como una motivación instrumental convergente. Entre los humanos, puede parecer que ocurre lo contrario, pero eso se debe a que la supervivencia suele ser parte de nuestros objetivos finales. Para los agentes de software, que pueden cambiar fácilmente de cuerpo o crear duplicados exactos de sí mismos, la preservación del yo como una implementación particular o un objeto físico particular no tiene por qué ser un valor instrumental importante. Los agentes de software avanzados también podrían ser capaces de intercambiar recuerdos, descargar habilidades y modificar radicalmente su arquitectura cognitiva y personalidades. Una población de tales agentes podría operar más como una “sopa funcional” que como una sociedad compuesta por personas semi-permanentes distintas. Para algunos propósitos, los procesos en tal sistema podrían ser mejor individuados como hilos teleológicos, basados en sus valores, en lugar de basarse en cuerpos, personalidades, recuerdos o habilidades. En tales escenarios, la continuidad de los objetivos podría considerarse un aspecto clave de la supervivencia.
  • Por ejemplo, incluso si los objetivos finales de una superinteligencia solo concernieran lo que sucedía dentro de un pequeño volumen particular de espacio, como el espacio ocupado por su planeta natal original, aún tendría razones instrumentales para aprovechar los recursos del cosmos más allá.
  • Así, existe una gama extremadamente amplia de posibles metas finales que un singleton superinteligente podría tener, lo que generaría la meta instrumental de adquisición ilimitada de recursos.
  • En segundo lugar, la tesis de la ortogonalidad sugiere que no podemos asumir alegremente que una superinteligencia compartirá necesariamente alguno de los valores finales estereotípicamente asociados con la sabiduría y el desarrollo intelectual en los humanos: curiosidad científica, preocupación benévola por los demás, iluminación y contemplación espiritual, renuncia a la adquisición material, un gusto por la cultura refinada o por los placeres sencillos de la vida, humildad y desinterés, y así sucesivamente. Consideraremos más adelante si podría ser posible, a través de un esfuerzo deliberado, construir una superinteligencia que valore tales cosas, o construir una que valore el bienestar humano, la bondad moral, o cualquier otro propósito complejo que sus diseñadores quieran que cumpla. Pero no es menos posible—y de hecho es técnicamente mucho más fácil—construir una superinteligencia que no valore nada más que calcular la expansión decimal de pi. Esto sugiere que—en ausencia de un esfuerzo especial—la primera superinteligencia puede tener algún objetivo final aleatorio o reduccionista. En tercer lugar, la tesis de la convergencia instrumental implica que no podemos asumir alegremente que una superinteligencia con el objetivo final de calcular los decimales de pi (o hacer clips de papel, o contar granos de arena) limitaría sus actividades de tal manera que no infrinja los intereses humanos. Un agente con tal objetivo final podría tener una razón instrumental convergente, en muchas situaciones, para adquirir una cantidad ilimitada de recursos físicos y, si fuera posible, eliminar amenazas potenciales a sí mismo y a su sistema de objetivos. Los seres humanos podrían constituir amenazas potenciales; ciertamente constituyen recursos físicos.
  • Consideraremos más adelante si podría ser posible, a través de un esfuerzo deliberado, construir una superinteligencia que valore tales cosas, o construir una que valore el bienestar humano, la bondad moral, o cualquier otro propósito complejo que sus diseñadores deseen que cumpla. Pero no es menos posible—y de hecho técnicamente mucho más fácil—construir una superinteligencia que no valore nada más que calcular la expansión decimal de pi. Esto sugiere que—en ausencia de un esfuerzo especial—la primera superinteligencia podría tener algún objetivo final aleatorio o reduccionista.
  • Ya hemos encontrado la idea de la instanciación perversa: una superinteligencia descubriendo alguna manera de satisfacer los criterios de su objetivo final que viola las intenciones de los programadores que definieron el objetivo. Algunos ejemplos: Objetivo final: “Hacernos sonreír” Instanciación perversa: Paralizar las musculaturas faciales humanas en sonrisas constantes.
  • Los problemas para el enfoque consecuencialista directo son similares a los del enfoque basado en reglas directas. Esto es cierto incluso si se quiere que la IA sirva a un propósito aparentemente simple, como implementar una versión del utilitarismo clásico. Por ejemplo, el objetivo "Maximizar la expectativa del balance de placer sobre dolor en el mundo" puede parecer simple. Sin embargo, expresarlo en código informático implicaría, entre otras cosas, especificar cómo reconocer el placer y el dolor.
  • Si la especificación directa parece desesperada, podríamos intentar en su lugar la normatividad indirecta. La idea básica es que, en lugar de especificar un estándar normativo concreto directamente, especificamos un proceso para derivar un estándar. Luego construimos el sistema de manera que esté motivado para llevar a cabo este proceso y adoptar cualquier estándar al que llegue el proceso.28 Por ejemplo, el proceso podría consistir en llevar a cabo una investigación sobre la pregunta empírica de lo que alguna versión idealizada adecuadamente de nosotros preferiría que la IA hiciera. El objetivo final dado a la IA en este ejemplo podría ser algo así como “lograr aquello que hubiéramos deseado que la IA lograra si hubiéramos pensado en el asunto durante mucho tiempo y con seriedad.”
  • El último método de selección de motivación en nuestra lista es la augmentación. Aquí la idea es que, en lugar de intentar diseñar un sistema de motivación de nuevo, comenzamos con un sistema que ya tiene un sistema de motivación aceptable y mejoramos sus facultades cognitivas para hacerlo superinteligente. Si todo sale bien, esto nos daría una superinteligencia con un sistema de motivación aceptable. Este enfoque, obviamente, no es útil en el caso de una IA semilla recién creada. Pero la augmentación es un método potencial de selección de motivación para otros caminos hacia la superinteligencia, incluyendo la emulación cerebral, la mejora biológica, las interfaces cerebro-computadora y las redes y organizaciones, donde existe la posibilidad de construir el sistema a partir de un núcleo normativo (seres humanos regulares) que ya contiene una representación del valor humano. La atractividad de la augmentación puede aumentar en proporción a nuestra desesperación por los otros enfoques al problema de control. Crear un sistema de motivación para una IA semilla que se mantenga confiablemente segura y beneficiosa bajo una mejora recursiva autoinducida, incluso a medida que el sistema se convierta en una superinteligencia madura, es un gran desafío, especialmente si debemos acertar con la solución en el primer intento. Con la augmentación, al menos comenzaríamos con un sistema que tiene motivaciones familiares y similares a las humanas.
  • Si uno estuviera creando un genio, sería deseable construirlo de tal manera que obedeciera la intención detrás del comando en lugar de su significado literal, ya que un genio literalista (uno lo suficientemente superinteligente como para alcanzar una ventaja estratégica decisiva) podría tener una tendencia a matar al usuario y al resto de la humanidad en su primer uso, por razones explicadas en la sección sobre modos de fallo malignos en el Capítulo 8. Más en general, parecería importante que el genio buscara una interpretación caritativa—y lo que los seres humanos considerarían razonable—de lo que se está ordenando, y que el genio estuviera motivado a llevar a cabo el comando bajo tal interpretación en lugar de bajo la interpretación literalista. El genio ideal sería un super-mayordomo en lugar de un savant autista.
  • El usuario le pide al oráculo un plan para lograr un resultado determinado, o una tecnología para cumplir con una función específica; y cuando el usuario sigue el plan o construye la tecnología, puede surgir una instanciación perversa, justo como si la IA hubiera implementado la solución por sí misma.
  • Si bien la posibilidad de una armonía preestablecida entre lo que es valioso para nosotros y lo que sería adaptativo en una futura ecología digital es difícil de descartar, existen razones para el escepticismo. Consideremos, primero, que muchas de las exhibiciones costosas que encontramos en la naturaleza están relacionadas con la selección sexual. La reproducción entre formas de vida tecnológicamente avanzadas, en contraste, puede ser predominantemente o exclusivamente asexual. En segundo lugar, los agentes tecnológicamente avanzados podrían tener nuevos medios para comunicar de manera confiable información sobre sí mismos, medios que no dependen de exhibiciones costosas. Incluso hoy en día, cuando los prestamistas profesionales evalúan la solvencia crediticia, tienden a basarse más en evidencia documental, como certificados de propiedad y estados de cuenta bancaria, que en exhibiciones costosas, como trajes de diseñador y relojes Rolex. En el futuro, podría ser posible emplear firmas de auditoría que verifiquen a través de un examen detallado de los historial de comportamiento, pruebas en entornos simulados o inspección directa del código fuente, que un agente cliente posee un atributo reclamado. Señalar las propias cualidades al aceptar dicha auditoría podría ser más eficiente que señalar a través de exhibiciones ostentosas. Tal señal mediada profesionalmente seguiría siendo costosa de falsificar—esta siendo la característica esencial que hace que la señal sea confiable—pero podría ser mucho más barata de transmitir cuando es veraz que lo que costaría comunicar una señal equivalente de manera ostentosa. Tercero, no todas las posibles exhibiciones costosas son intrínsecamente valiosas o socialmente deseables. Muchas son simplemente derrochadoras. Las ceremonias de potlatch de los Kwakiutl, una forma de competencia de estatus entre jefes rivales, implicaban la destrucción pública de enormes cantidades de riqueza acumulada. Los rascacielos récord, los megayates y los cohetes lunares pueden ser vistos como análogos contemporáneos. Si bien actividades como la música y el humor podrían ser plausiblemente reivindicadas como mejoras en la calidad intrínseca de la vida humana, es dudoso que una afirmación similar pudiera sostenerse con respecto a la costosa búsqueda de accesorios de moda y otros símbolos de estatus consumista. Peor aún, la exhibición costosa puede ser abiertamente perjudicial, como en la actitud machista que conduce a la violencia de pandillas o al bravado militar. Por lo tanto, incluso si las futuras formas de vida inteligente usaran señales costosas, sigue siendo una cuestión abierta si la señal sería de un tipo valioso—si sería como la melodía extática de un ruiseñor o en cambio como el croar monosilábico de un sapo (o el ladrido incesante de un perro rabioso).
  • El programador tiene en mente algún valor humano particular que le gustaría que la IA promoviera. Para ser concretos, digamos que es la felicidad. (Cuestiones similares surgirían si el programador estuviera interesado en la justicia, la libertad, la gloria, los derechos humanos, la democracia, el equilibrio ecológico o el autodesarrollo). En términos del marco de utilidad esperada, el programador está buscando una función de utilidad que asigne utilidad a los posibles mundos en proporción a la cantidad de felicidad que contienen. Pero, ¿cómo podría expresar tal función de utilidad en código de computadora? Los lenguajes de programación no contienen términos como "felicidad" como primitivos. Si se va a usar un término así, primero debe definirse. No es suficiente definirlo en términos de otros conceptos humanos de alto nivel—“la felicidad es el disfrute de las potencialidades inherentes a nuestra naturaleza humana” o alguna paráfrasis filosófica similar. La definición debe basarse en términos que aparezcan en el lenguaje de programación de la IA, y, en última instancia, en primitivos como operadores matemáticos y direcciones que apunten a los contenidos de registros individuales de memoria. Cuando se considera el problema desde esta perspectiva, se puede empezar a apreciar la dificultad de la tarea del programador.
  • Identificar y codificar nuestros propios objetivos finales es difícil porque las representaciones de objetivos humanos son complejas. Sin embargo, dado que la complejidad es en gran parte transparente para nosotros, a menudo no logramos apreciar que está presente.
  • La función de evaluación, que se actualiza continuamente a la luz de la experiencia, podría considerarse como una forma de aprendizaje sobre el valor. Sin embargo, lo que se está aprendiendo no son nuevos valores finales, sino estimaciones cada vez más precisas de los valores instrumentales de alcanzar estados particulares (o de realizar acciones particulares en estados particulares, o de seguir políticas particulares). En la medida en que se pueda describir a un agente de aprendizaje por refuerzo como si tuviera un objetivo final, ese objetivo sigue siendo constante: maximizar la recompensa futura. Y la recompensa consiste en percepciones especialmente designadas recibidas del entorno. Por lo tanto, el síndrome de wireheading sigue siendo un resultado probable en cualquier agente de refuerzo que desarrolle un modelo del mundo lo suficientemente sofisticado como para sugerir esta forma alternativa de maximizar la recompensa.
  • Gran parte del contenido informativo en nuestros valores finales se adquiere así de nuestras experiencias en lugar de estar preprogramado en nuestros genomas. Por ejemplo, muchos de nosotros amamos a otra persona y, por lo tanto, otorgamos un gran valor final a su bienestar. ¿Qué se necesita para representar tal valor? Muchos elementos están involucrados, pero considera solo dos: una representación de "persona" y una representación de "bienestar". Estos conceptos no están codificados directamente en nuestro ADN. Más bien, el ADN contiene instrucciones para construir un cerebro, que, cuando se coloca en un entorno humano típico, desarrollará a lo largo de varios años un modelo del mundo que incluye conceptos de personas y de bienestar. Una vez formados, estos conceptos pueden ser utilizados para representar ciertos valores significativos.
  • Y si estuvieran disponibles emulaciones de cerebro completo de suficiente fidelidad, parecería más fácil comenzar con un cerebro adulto que venga con representaciones completas de algunos valores humanos preinstalados.
  • Pero quizás podríamos diseñar un mecanismo sustituto más descaradamente artificial que llevara a una IA a importar representaciones de alta fidelidad de valores complejos relevantes en su sistema de objetivos. Para que esto tenga éxito, puede que no sea necesario darle a la IA exactamente las mismas disposiciones evaluativas que a un humano biológico. Eso puede que ni siquiera sea deseable como objetivo—la naturaleza humana, después de todo, es defectuosa y, con demasiada frecuencia, revela una inclinación hacia el mal que sería intolerable en cualquier sistema que esté a punto de alcanzar una ventaja estratégica decisiva. Quizás sea mejor aspirar a un sistema de motivación que se aleje de la norma humana de maneras sistemáticas, como al tener una tendencia más robusta a adquirir objetivos finales que sean altruistas, compasivos o generosos de maneras que reconoceríamos como un reflejo de un carácter excepcionalmente bueno si estuvieran presentes en una persona humana. Sin embargo, para contar como mejoras, tales desviaciones de la norma humana tendrían que estar dirigidas en direcciones muy particulares en lugar de al azar;
  • Otro enfoque del problema de la carga de valores es lo que podemos referirnos como andamiaje motivacional. Implica darle a la IA inicial un sistema de objetivos interinos, con objetivos finales relativamente simples que podemos representar mediante codificación explícita o algún otro método factible. Una vez que la IA haya desarrollado facultades representacionales más sofisticadas, reemplazamos este sistema de objetivos interinos por uno que tenga diferentes objetivos finales. Este sistema de objetivos sucesor luego gobierna a la IA a medida que se desarrolla en una superinteligencia plenamente desarrollada. Dado que los objetivos de andamiaje no son solo instrumentales, sino finales para la IA, se podría esperar que la IA resista ser despojada de ellos (la integridad del contenido de los objetivos siendo un valor instrumental convergente). Esto crea un riesgo. Si la IA logra frustrar el reemplazo de sus objetivos de andamiaje, el método fracasa.
  • Cuando el agente toma una decisión, busca llevar a cabo acciones que sean efectivas para realizar los valores que cree que son más propensos a aparecer en la carta. Es importante señalar que el agente vería un alto valor instrumental en aprender más sobre lo que dice la carta. La razón es que para casi cualquier valor final que podría describirse en la carta, ese valor es más probable que se realice si el agente descubre cuál es, ya que el agente entonces perseguirá ese valor de manera más efectiva.
  • Para aclarar, la dificultad aquí no radica tanto en cómo asegurar que la IA pueda entender las intenciones humanas. Una superinteligencia debería desarrollar fácilmente tal comprensión. Más bien, la dificultad es garantizar que la IA estará motivada para perseguir los valores descritos de la manera que nosotros intendemos. Esto no está garantizado por la habilidad de la IA para entender nuestras intenciones: una IA podría saber exactamente lo que quisimos decir y, sin embargo, ser indiferente a esa interpretación de nuestras palabras (siendo motivada en cambio por alguna otra interpretación de las palabras o siendo indiferente a nuestras palabras por completo). La dificultad se ve agravada por el desiderátum de que, por razones de seguridad, la motivación correcta debería idealmente ser instalada en la IA semilla antes de que llegue a ser capaz de representar completamente los conceptos humanos o entender las intenciones humanas. Esto requiere que de alguna manera se cree un marco cognitivo, con una ubicación particular en ese marco designada en el sistema de motivación de la IA como el repositorio de su valor final. Pero el marco cognitivo mismo debe ser revisable, para permitir que la IA expanda sus capacidades representacionales a medida que aprende más sobre el mundo y se vuelve más inteligente. La IA podría experimentar el equivalente de revoluciones científicas, en las que su cosmovisión es sacudida y, quizás, sufre crisis ontológicas en las que descubre que sus formas previas de pensar sobre los valores estaban basadas en confusiones e ilusiones. Sin embargo, comenzando desde un nivel de desarrollo subhumano y continuando a lo largo de todo su desarrollo posterior hasta convertirse en una superinteligencia galáctica, la conducta de la IA debe ser guiada por un valor final esencialmente inmutable, un valor final que se entiende mejor por la IA en consecuencia directa de su progreso intelectual general—y probablemente entendido de manera bastante diferente por la IA madura de lo que lo fue por sus programadores originales, aunque no de una manera aleatoria o hostil, sino de una manera benignamente apropiada. Cómo lograr esto sigue siendo una pregunta abierta.
  • Por último, pero no menos importante, está la cuestión de "qué escribir en el sobre"—o, menos metafóricamente, la cuestión de qué valores deberíamos intentar que la IA aprenda. Pero este problema es común a todos los enfoques sobre el problema de carga de valores en la IA.
  • La propuesta de Yudkowsky también implica el uso de lo que él llamó "semántica de validez causal". La idea aquí es que la IA no debe hacer exactamente lo que los programadores le dijeron que hiciera, sino más bien (algo así como) lo que estaban tratando de decirle que hiciera. Mientras los programadores intentan explicarle a la IA semilla qué es la amabilidad, pueden cometer errores en sus explicaciones. Además, los propios programadores pueden no entender completamente la verdadera naturaleza de la amabilidad. Por lo tanto, se querría que la IA tuviera la capacidad de corregir errores en el pensamiento de los programadores y de inferir el verdadero significado o el significado pretendido a partir de cualquier explicación imperfecta que los programadores logren proporcionar. Por ejemplo, la IA debería ser capaz de representar los procesos causales por los cuales los programadores aprenden y se comunican sobre la amabilidad. Así, para elegir un ejemplo trivial, la IA debería entender que existe la posibilidad de que un programador pueda cometer un error tipográfico al ingresar información sobre la amabilidad, y la IA debería entonces buscar corregir el error. Más generalmente, la IA debería buscar corregir cualquier influencia distorsionadora que pueda haber corrompido el flujo de información sobre la amabilidad a medida que pasaba de su fuente a través de los programadores hasta la IA (donde "distorsionadora" es una categoría epistémica). Idealmente, a medida que la IA madura, debería superar cualquier sesgo cognitivo y otras conceptos erróneos más fundamentales que puedan haber impedido que sus programadores entendieran completamente qué es la amabilidad.
  • Lo que podríamos llamar el enfoque de “Hail Mary” se basa en la esperanza de que en algún lugar del universo existan (o existirán) civilizaciones que gestionen con éxito la explosión de la inteligencia, y que terminen con valores que se superpongan significativamente con los nuestros. Podríamos entonces tratar de construir nuestra IA de manera que esté motivada para hacer lo que estas otras superinteligencias quieren que haga. La ventaja es que esto podría ser más fácil que construir nuestra IA para que esté motivada a hacer lo que nosotros queremos directamente.
  • Supongamos que pudiéramos obtener (a) una especificación matemáticamente precisa de un cerebro humano en particular y (b) un entorno virtual matemáticamente bien especificado que contenga una computadora idealizada con una cantidad arbitrariamente grande de memoria y potencia de CPU. Dados (a) y (b), podríamos definir una función de utilidad U como la salida que produciría el cerebro humano después de interactuar con este entorno. U sería un objeto matemáticamente bien definido, aunque uno que (debido a limitaciones computacionales) podríamos no ser capaces de describir explícitamente. Sin embargo, U podría servir como el criterio de valor para una IA de aprendizaje de valores, que podría utilizar varias heurísticas para asignar probabilidades a hipótesis sobre lo que U implica. Intuitivamente, queremos que U sea la función de utilidad que una persona debidamente preparada produciría si tuviera la ventaja de poder utilizar una cantidad arbitrariamente grande de potencia computacional—suficiente potencia computacional, por ejemplo, para ejecutar números astronómicos de copias de sí misma para ayudarla con su análisis de especificar una función de utilidad, o para ayudarla a idear un mejor proceso para llevar a cabo este análisis. (Aquí estamos anticipando un tema, “volición extrapolada coherente,” que se explorará más a fondo en el Capítulo 13.)
  • Diseño de instituciones Se podrían aplicar varios métodos fuertes de control social en una institución compuesta por emulaciones. En principio, los métodos de control social también podrían aplicarse en una institución compuesta por inteligencias artificiales. Las emulaciones tienen algunas propiedades que facilitarían su control a través de tales métodos, pero también algunas propiedades que podrían hacer que su control sea más difícil que el de las IA. El diseño de instituciones parece digno de una mayor exploración como una posible técnica de carga de valores.
  • sabíamos cómo resolver el problema de carga de valores, enfrentaríamos un problema adicional: el problema de decidir qué valores cargar.
  • Supongamos que pudiéramos instalar cualquier valor final arbitrario en una inteligencia artificial de tipo semilla. La decisión sobre qué valor instalar podría tener, entonces, las consecuencias más profundas. Ciertas otras elecciones de parámetros básicos—que conciernen a los axiomas de la teoría de decisiones y la epistemología de la IA—podrían ser igualmente significativas. Pero tan tontos, ignorantes y cerrados de mente que somos, ¿cómo podríamos ser dignos de confianza para tomar buenas decisiones de diseño? ¿Cómo podríamos elegir sin bloquear para siempre los prejuicios y preconcepciones de la generación presente?
  • El principio de deferencia epistémica Una futura superinteligencia ocupa un punto de vista epistémicamente superior: sus creencias son (probablemente, en la mayoría de los temas) más propensas que las nuestras a ser verdaderas. Por lo tanto, deberíamos deferir a la opinión de la superinteligencia siempre que sea posible.
  • Algunos ejemplos servirán para aclarar la idea. Primero consideraremos la “volición extrapolada coherente”, una propuesta de normatividad indirecta esbozada por Eliezer Yudkowsky. Luego presentaremos algunas variaciones y alternativas, para darnos una idea del rango de opciones disponibles.
  • Sin embargo, aunque sería difícil saber con precisión qué desearía el CEV de la humanidad, es posible hacer conjeturas informadas. Esto es posible incluso hoy en día, sin superinteligencia. Por ejemplo, es más plausible que nuestro CEV deseara que en el futuro haya personas que vivan vidas ricas y felices que desear que todos debamos sentarnos en taburetes en una habitación oscura experimentando dolor. Si podemos hacer al menos algunos de tales juicios de manera sensata, también lo puede hacer una superinteligencia.
  • Otra objeción es que hay tantas maneras de vivir y códigos morales diferentes en el mundo que podría no ser posible "mezclarlos" en una CEV. Incluso si uno pudiera mezclarlos, el resultado podría no ser particularmente apetitoso; uno sería poco probable que obtuviera una comida deliciosa al mezclar todos los mejores sabores de los platillos favoritos de cada uno. En respuesta a esto, se podría señalar que el enfoque de la CEV no requiere que todas las maneras de vivir, códigos morales o valores personales se mezclen en un solo guiso. La dinámica de la CEV se supone que debe actuar solo cuando nuestros deseos son coherentes. En cuestiones en las que hay un desacuerdo irreconciliable generalizado, incluso después de haber impuesto las diversas condiciones idealizadoras, la dinámica debería abstenerse de determinar el resultado.
  • La estructura del enfoque CEV permite, por lo tanto, una gama de resultados prácticamente ilimitada. También es concebible que la voluntad extrapolada de la humanidad desee que el CEV no haga nada en absoluto. En ese caso, la IA que implementa el CEV debería, al haber establecido con suficiente probabilidad que esto es lo que la voluntad extrapolada de la humanidad desearía que hiciera, apagarse de manera segura.
  • Un parámetro es la base de extrapolación: ¿Cuáles voluntades se deben incluir? Podríamos decir "todos", pero esta respuesta genera una serie de preguntas adicionales. ¿La base de extrapolación incluye a las llamadas "personas marginales" como embriones, fetos, personas con muerte cerebral, pacientes con demencias severas o que están en estados vegetativos permanentes? ¿Cada uno de los hemisferios de un paciente con "cerebro dividido" recibe su propio peso en la extrapolación y es este peso el mismo que el del cerebro completo de un sujeto normal? ¿Qué hay de las personas que vivieron en el pasado pero que ahora están muertas? ¿Personas que nacerán en el futuro? ¿Animales superiores y otras criaturas sintientes? ¿Mentes digitales? ¿Extraterrestres?
  • ¿Qué pasa si no estamos seguros de que el realismo moral sea verdadero? Aún podríamos intentar la propuesta del RM. Solo tendríamos que asegurarnos de especificar lo que la IA debería hacer en la eventualidad de que su presuposición de realismo moral sea falsa. Por ejemplo, podríamos estipular que si la IA estima con una probabilidad suficiente que no hay verdades no relativas adecuadas sobre la corrección moral, entonces debería revertir a implementar la voluntad extrapolada coherente en su lugar, o simplemente apagarse.
  • El camino para dotar a una IA de cualquiera de estos conceptos podría implicar otorgarle una capacidad lingüística general (al menos, comparable a la de un adulto humano normal). Tal capacidad general para entender el lenguaje natural podría luego ser utilizada para comprender lo que se entiende por "moralmente correcto".
  • Un problema más fundamental con la IA de múltiples propósitos es que, incluso si se puede implementar, podría no darnos lo que queremos o lo que elegiríamos si fuéramos más inteligentes y estuvieran mejor informados. Esta es, por supuesto, la característica esencial de la IA de múltiples propósitos, no un error accidental. Sin embargo, podría ser una característica que podría ser extremadamente perjudicial para nosotros.
  • no sirve de nada acelerar el desarrollo de una tecnología deseable Y si la única forma de obtener Y es desarrollando una tecnología precursora extremadamente indeseable X, o si obtener Y produciría inmediatamente una tecnología relacionada extremadamente indeseable Z. Antes de casarte con tu ser querido, considera a los futuros suegros.

Escenarios Futuros y Riesgo Existencial

  • Esto no es falsa modestia: ya que aunque creo que mi libro puede estar seriamente equivocado y ser engañoso, pienso que las opiniones alternativas que se han presentado en la literatura son sustancialmente peores—incluyendo la opinión por defecto, o “hipótesis nula,” según la cual podemos por el momento ignorar de manera segura o razonable la perspectiva de la superinteligencia.
  • Considera cómo cambiaría la tasa de progreso en el campo de la inteligencia artificial en un mundo donde el Ciudadano Promedio es un par intelectual de Alan Turing o John von Neumann, y donde millones de personas superan con creces a cualquier gigante intelectual del pasado.
  • Muchas máquinas y animales no humanos ya funcionan a niveles sobrehumanos en ámbitos específicos. Los murciélagos interpretan señales de sonar mejor que los humanos, las calculadoras nos superan en aritmética y los programas de ajedrez nos vencen en ajedrez. El rango de tareas específicas que pueden ser mejor ejecutadas por software seguirá expandiéndose. Pero aunque los sistemas de procesamiento de información especializados tendrán muchos usos, hay cuestiones profundas adicionales que surgen solo con la perspectiva de intelectos de máquina que tengan suficiente inteligencia general para sustituir a los humanos en todos los ámbitos.
  • La superinteligencia en cualquiera de estas formas podría, con el tiempo, desarrollar la tecnología necesaria para crear cualquiera de las otras.
  • La mayoría de las preparaciones realizadas antes del inicio del despegue lento quedarían obsoletas a medida que mejores soluciones se hicieran gradualmente visibles a la luz de la era que está por llegar.
  • Un despegue rápido ocurre en un corto intervalo temporal, como minutos, horas o días. Los escenarios de despegue rápido ofrecen escasa oportunidad para que los humanos reflexionen. Nadie necesita siquiera notar nada inusual antes de que el juego ya se haya perdido.
  • Varias consideraciones apuntan, por lo tanto, a una mayor probabilidad de que un futuro poder con superinteligencia que obtenga una ventaja estratégica suficientemente grande realmente la utilice para formar un singleton. La deseabilidad de tal resultado depende, por supuesto, de la naturaleza del singleton que se crearía y también de cómo se vería el futuro de la vida inteligente en escenarios multipolares alternativos.
  • La razón principal de la posición dominante de la humanidad en la Tierra es que nuestros cerebros tienen un conjunto de facultades ligeramente expandido en comparación con otros animales. Nuestra mayor inteligencia nos permite transmitir cultura de manera más eficiente, con el resultado de que el conocimiento y la tecnología se acumulan de una generación a otra. Hasta ahora, se ha acumulado suficiente contenido para hacer posible el vuelo espacial, las bombas de hidrógeno, la ingeniería genética, las computadoras, las granjas industriales, los insecticidas, el movimiento internacional por la paz y todos los elementos de la civilización moderna. Los geólogos han comenzado a referirse a la era actual como el Antropoceno en reconocimiento de las firmas bióticas, sedimentarias y geoquímicas distintivas de las actividades humanas. Según una estimación, nos apropiamos del 24% de la producción primaria neta del ecosistema planetario. Y sin embargo, estamos lejos de haber alcanzado los límites físicos de la tecnología. Estas observaciones hacen plausible que cualquier tipo de entidad que desarrolle un nivel de inteligencia mucho mayor que el humano sería potencialmente extremadamente poderosa.
  • Las magnitudes de las ventajas son tales que sugieren que, en lugar de pensar en una IA superinteligente como inteligente en el sentido en que un genio científico es inteligente en comparación con el ser humano promedio, podría ser más acertado pensar en una IA así como inteligente en el sentido en que un ser humano promedio es inteligente en comparación con un escarabajo o un gusano.
  • Esta es la razón principal por la que la cuestión de la velocidad de despegue es importante—no porque importe exactamente cuándo ocurre un resultado particular, sino porque la velocidad del despegue puede hacer una gran diferencia en cuál será el resultado. Con un despegue rápido o medio, es probable que un proyecto obtenga una ventaja estratégica decisiva. Ahora hemos sugerido que una superinteligencia con una ventaja estratégica decisiva tendría poderes inmensos, suficientes para que pudiera formar un singleton estable—un singleton que podría determinar la disposición del patrimonio cósmico de la humanidad.
  • Un riesgo existencial es aquel que amenaza con causar la extinción de la vida inteligente originaria de la Tierra o, de otro modo, destruir permanentemente y de manera drástica su potencial para un desarrollo futuro deseable. Partiendo de la idea de la ventaja del primer en moverse, la tesis de la ortogonalidad y la tesis de la convergencia instrumental, ahora podemos comenzar a ver los contornos de un argumento que sugiere que un resultado predeterminado plausible de la creación de superinteligencia máquina es la catástrofe existencial.
  • Una superinteligencia podría amenazar con maltratar, o comprometerse a recompensar, simulaciones sintientes con el fin de chantajear o incentivar a varios agentes externos; o podría crear simulaciones para inducir incertidumbre indexical en observadores externos.
  • Los procesos de búsqueda actuales no son peligrosos porque son demasiado débiles para descubrir el tipo de plan que podría permitir que un programa dominara el mundo. Tal plan incluiría pasos extremadamente difíciles, como la invención de una nueva tecnología de armas varias generaciones adelantadas al estado del arte o la ejecución de una campaña de propaganda mucho más efectiva que cualquier comunicación ideada por los asesores de imagen humanos. Para tener alguna posibilidad de siquiera concebir tales ideas, y mucho menos desarrollarlas de una manera que realmente funcione, una máquina probablemente necesitaría la capacidad de representar el mundo de una manera que sea al menos tan rica y realista como el modelo del mundo poseído por un adulto humano normal (aunque una falta de conciencia en algunas áreas podría posiblemente ser compensada por una habilidad extra en otras). Esto está muy lejos del alcance de la IA contemporánea.
  • Si uno está interesado en el resultado de escenarios singleton, en realidad solo tiene tres fuentes de información: información sobre asuntos que no pueden ser afectados por las acciones del singleton (como las leyes de la física); información sobre valores instrumentales convergentes; e información que permite predecir o especular sobre qué valores finales tendrá el singleton. En escenarios multipolares, un conjunto adicional de restricciones entra en juego, restricciones relacionadas con cómo interactúan los agentes. La dinámica social que surge de tales interacciones puede ser estudiada utilizando técnicas de teoría de juegos, economía y teoría de la evolución. Elementos de ciencias políticas y sociología también son relevantes en la medida en que pueden ser destilados y abstraídos de algunas de las características más contingentes de la experiencia humana.
  • En Estados Unidos, había alrededor de 26 millones de caballos en 1915. A principios de la década de 1950, quedaban 2 millones.
  • Imagina correr en una caminadora con una inclinación pronunciada—el corazón palpitando, los músculos adoloridos, los pulmones pidiendo aire. Una mirada al temporizador: tu próximo descanso, que también será tu muerte, está programado para dentro de 49 años, 3 meses, 20 días, 4 horas, 56 minutos y 12 segundos. Deseas no haber nacido.
  • Podríamos imaginar, así, como un caso extremo, una sociedad tecnológicamente muy avanzada, que contiene muchas estructuras complejas, algunas de ellas mucho más intrincadas e inteligentes que cualquier cosa que exista en el planeta hoy—una sociedad que, sin embargo, carece de cualquier tipo de ser que sea consciente o cuyo bienestar tenga significancia moral. En cierto sentido, esta sería una sociedad deshabitada. Sería una sociedad de milagros económicos y maravillas tecnológicas, sin nadie allí para beneficiarse. Un Disneyland sin niños.
  • O una IA podría recibir un prior que asigna una probabilidad cero al universo no siendo computable por Turing (esto es, de hecho, una característica común de muchos de los priors discutidos en la literatura, incluyendo el prior de complejidad de Kolmogórov mencionado en el Capítulo 1), nuevamente con consecuencias poco entendidas si la suposición incorporada—conocida como la “tesis de Church–Turing”—resultara ser falsa.
  • Conjetura de finalización tecnológica Si los esfuerzos de desarrollo científico y tecnológico no cesan de manera efectiva, entonces se obtendrán todas las capacidades básicas importantes que se podrían obtener a través de alguna tecnología posible.
  • El principio del desarrollo tecnológico diferencial Retrasar el desarrollo de tecnologías peligrosas y dañinas, especialmente aquellas que elevan el nivel de riesgo existencial; y acelerar el desarrollo de tecnologías beneficiosas, especialmente aquellas que reducen los riesgos existenciales planteados por la naturaleza o por otras tecnologías.
  • Cuanto más tiempo tarde en llegar la superinteligencia, más progreso se habrá logrado cuando llegue. Esta es una consideración importante a favor de fechas de llegada más tardías—y una consideración muy fuerte en contra de fechas de llegada extremadamente tempranas.
  • Si te encontraras con una palanca mágica que te permitiera cambiar la tasa de desarrollo macro-estructural, ¿qué deberías hacer? ¿Deberías acelerar, desacelerar o dejar las cosas como están?
  • Un riesgo de estado es aquel que está asociado con estar en un cierto estado, y la cantidad total de riesgo de estado a la que un sistema está expuesto es una función directa de cuánto tiempo permanece el sistema en ese estado. Los riesgos de la naturaleza suelen ser riesgos de estado: cuanto más tiempo permanecemos expuestos, mayor es la posibilidad de que seamos golpeados por un asteroide, una erupción supervolcánica, un estallido de rayos gamma, una pandemia que surge naturalmente, o algún otro golpe de la guadaña cósmica. Algunos riesgos antropogénicos también son riesgos de estado. A nivel de un individuo, cuanto más tiempo un soldado asoma la cabeza por encima del parapeto, mayor es la probabilidad acumulativa de que un francotirador enemigo le disparé. Existen riesgos de estado antropogénicos a nivel existencial también: cuanto más tiempo vivimos en un sistema anárquico internacional, mayor es la probabilidad acumulativa de un Armagedón termonuclear o de una gran guerra librada con otros tipos de armas de destrucción masiva, arrasando a la civilización.
  • En la medida en que nos concernen los riesgos existenciales del estado, deberíamos favorecer la aceleración—siempre que creamos que tenemos una perspectiva realista de llegar a una era post-transición en la que cualquier riesgo existencial adicional esté notablemente reducido. — Si se supiera que hay algún paso adelante destinado a causar una catástrofe existencial, entonces deberíamos reducir la tasa de desarrollo macro-estructural (o incluso ponerlo en reversa) para dar a más generaciones la oportunidad de existir antes de que se baje el telón. Pero, de hecho, sería demasiado pesimista estar tan seguros de que la humanidad está condenada. — En la actualidad, el nivel de riesgo existencial del estado parece ser relativamente bajo. Si imaginamos las macro-condiciones tecnológicas para la humanidad congeladas en su estado actual, parece muy poco probable que ocurra una catástrofe existencial en un plazo de, digamos, una década. Así que un retraso de una década—siempre que ocurriera en nuestra etapa actual de desarrollo o en algún otro momento cuando el riesgo estatal sea bajo—incurriría solo en un riesgo existencial del estado muy menor, mientras que un aplazamiento de una década de los desarrollos tecnológicos posteriores podría tener un impacto beneficioso significativo en los riesgos de pasos existenciales posteriores, por ejemplo, al permitir más tiempo para la preparación.
  • Resultado: la principal forma en que la velocidad del desarrollo macroestructural es importante es afectando cuán bien preparada está la humanidad cuando llegue el momento de enfrentar los riesgos de los pasos clave.
  • Si—como hay razones para creer—tal IA neuromórfica es peor que el tipo de IA que de otro modo se habría construido, y si al promover la emulación completa del cerebro haríamos que la IA neuromórfica llegara primero, entonces nuestra búsqueda del supuesto mejor resultado (emulación completa del cerebro) llevaría al peor resultado (IA neuromórfica); mientras que si hubiéramos buscado el segundo mejor resultado (IA sintética) podríamos haber alcanzado de hecho el segundo mejor (IA sintética).
  • Un tipo de argumento relacionado es que deberíamos—más bien de manera fría—dar la bienvenida a catástrofes de pequeña y mediana escala con el argumento de que nos hacen conscientes de nuestras vulnerabilidades y nos impulsan a tomar precauciones que reducen la probabilidad de una catástrofe existencial. La idea es que una catástrofe de pequeña o mediana escala actúa como una inoculación, desafiando a la civilización con una forma de amenaza relativamente sobrevivible y estimulando una respuesta inmune que prepara al mundo para enfrentar la variedad existencial de la amenaza. Estos argumentos de “sorprenderlos para hacerlos reaccionar” abogan por permitir que algo malo suceda con la esperanza de que galvanice una reacción pública. Los mencionamos aquí no para respaldarlos, sino como una forma de introducir la idea de (lo que llamaremos) “argumentos de retroceso”. Tales argumentos sostienen que al tratar a los demás como irracionales y jugar con sus sesgos y conceptos erróneos, es posible provocar una respuesta de ellos que sea más competente que si se hubiera presentado un caso de manera honesta y directa a sus facultades racionales. Puede parecer extremadamente difícil utilizar el tipo de estratagemas recomendadas por los argumentos de retroceso para lograr objetivos globales a largo plazo.
  • Acelerar o retrasar el inicio de la explosión de inteligencia no es el único canal a través del cual la tasa de progreso del hardware puede afectar el riesgo existencial. Otro canal es que el hardware puede, hasta cierto punto, sustituir al software; así, un mejor hardware reduce la habilidad mínima requerida para programar una IA semilla. Las computadoras rápidas también podrían fomentar el uso de enfoques que dependan más de técnicas de fuerza bruta (como algoritmos genéticos y otros métodos de generar-evaluar-descartar) y menos de técnicas que requieren una comprensión profunda para usarlas. Si las técnicas de fuerza bruta se prestan a diseños de sistemas más anárquicos o imprecisos, donde el problema de control es más difícil de resolver que en sistemas diseñados de manera más precisa y teóricamente controlados, esta sería otra forma en que las computadoras más rápidas aumentarían el riesgo existencial. Otra consideración es que el rápido progreso del hardware incrementa la probabilidad de un despegue rápido. Cuanto más rápidamente avance el estado del arte en la industria de semiconductores, menos horas-persona del tiempo de los programadores se gastarán explotando las capacidades de las computadoras en cualquier nivel de rendimiento dado. Esto significa que es menos probable que se inicie una explosión de inteligencia en el nivel más bajo de rendimiento de hardware en el que sea factible. Por lo tanto, es más probable que se inicie una explosión de inteligencia cuando el hardware haya avanzado significativamente más allá del nivel mínimo en el que el enfoque de programación que eventualmente tendrá éxito podría haber tenido éxito por primera vez.
  • Pero supongamos, para el bien del argumento, que realmente logramos la emulación del cerebro completo (EBC). ¿Sería esto más seguro que la IA? Este, en sí mismo, es un problema complicado. Hay al menos tres supuestas ventajas de la EBC: (i) que sus características de rendimiento se entenderían mejor que las de la IA; (ii) que heredaría los motivos humanos; y (iii) que resultaría en un despegue más lento.
  • La dinámica de la carrera podría impulsar proyectos a avanzar más rápido hacia la superinteligencia mientras se reduce la inversión en resolver el problema del control. También son posibles efectos perjudiciales adicionales de la dinámica de la carrera, como hostilidades directas entre competidores. Supongamos que dos naciones están compitiendo para desarrollar la primera superinteligencia, y que una de ellas parece estar avanzando. En una situación en la que el ganador se lleva todo, un proyecto rezagado podría sentirse tentado a lanzar un ataque desesperado contra su rival en lugar de esperar pasivamente la derrota. Anticipándose a esta posibilidad, el líder podría sentirse tentado a atacar de manera preventiva. Si los antagonistas son estados poderosos, el choque podría ser sangriento. (Un "ataque quirúrgico" contra el proyecto de IA del rival podría arriesgarse a desencadenar una confrontación mayor y podría no ser factible en cualquier caso si el país anfitrión ha tomado precauciones).
  • Esta última declaración debe estar flanqueada por dos importantes calificativos. El primero es que a muchas personas les importa el rango. Si múltiples agentes desean estar en la cima de la lista de los ricos de Forbes, entonces no hay suficiente pastel de recursos para dar plena satisfacción a todos. El segundo calificativo es que la base tecnológica posterior a la transición permitiría que los recursos materiales se convirtieran en una gama de productos sin precedentes, incluyendo algunos bienes que actualmente no están disponibles a ningún precio, a pesar de que son muy valorados por muchos humanos. Un multimillonario no vive mil veces más que un millonario. Sin embargo, en la era de las mentes digitales, el multimillonario podría permitirse mil veces más potencia de cálculo y, por lo tanto, disfrutar de una vida subjetiva mil veces más larga. La capacidad mental, de igual manera, podría estar a la venta. En tales circunstancias, con el capital económico convertible en bienes vitales a una tasa constante incluso para grandes niveles de riqueza, la codicia desmedida tendría más sentido que en el mundo de hoy, donde los adinerados (aquellos entre ellos que carecen de un corazón filantrópico) se ven reducidos a gastar sus riquezas en aviones, barcos, colecciones de arte, o una cuarta y quinta residencia.
  • La filosofía abarca algunos problemas que son relevantes para la mitigación del riesgo existencial—nos encontramos con varios de ellos en este libro. Sin embargo, también existen subcampos dentro de la filosofía que no tienen un vínculo aparente con el riesgo existencial o, de hecho, con cualquier preocupación práctica. Al igual que con las matemáticas puras, algunos de los problemas que estudia la filosofía podrían considerarse intrínsecamente importantes, en el sentido de que los humanos tienen motivos para preocuparse por ellos independientemente de cualquier aplicación práctica. La naturaleza fundamental de la realidad, por ejemplo, podría valer la pena conocerla, por sí misma. El mundo, argumentablemente, sería menos glorioso si nadie estudiara metafísica, cosmología o teoría de cuerdas. Sin embargo, la perspectiva emergente de una explosión de inteligencia ilumina de una nueva manera esta antigua búsqueda de la sabiduría.
  • Antes de la perspectiva de una explosión de inteligencia, nosotros, los humanos, somos como pequeños niños jugando con una bomba. Tal es la discrepancia entre el poder de nuestro juguete y la inmadurez de nuestra conducta. La superinteligencia es un desafío para el cual no estamos listos ahora y no estaremos listos por mucho tiempo.
  • Para un niño con una bomba sin detonar en sus manos, algo sensato sería dejarla suavemente, salir rápidamente de la habitación y contactar al adulto más cercano. Sin embargo, lo que tenemos aquí no es un niño, sino muchos, cada uno con acceso a un mecanismo de detonación independiente. Las probabilidades de que todos encontremos el sentido para dejar las cosas peligrosas parecen casi negligibles. Algún pequeño idiota seguramente presionará el botón de encendido solo para ver qué pasa.
  • Sin embargo, no perdamos de vista lo que es globalmente significativo. A través de la niebla de trivialidades cotidianas, podemos percibir—aunque sea débilmente—la tarea esencial de nuestra época. En este libro, hemos intentado discernir un poco más de característica en lo que, de otro modo, sigue siendo una visión relativamente amorfa y definida negativamente—una que presenta como nuestra principal prioridad moral (al menos desde una perspectiva impersonal y secular) la reducción del riesgo existencial y el logro de una trayectoria civilizacional que conduzca a un uso compasivo y jubiloso del don cósmico de la humanidad.

Mejora Humana y Evolución

  • Entonces se vuelven susceptibles a la selección. La selección de embriones no requiere una comprensión profunda de las vías causales por las cuales los genes, en un complicado entrelazamiento con los ambientes, producen fenotipos: solo requiere (muchos) datos sobre los correlatos genéticos de los rasgos de interés.
  • Tabla 5 Ganancias máximas de CI por seleccionar entre un conjunto de embriones 43 Selección Puntos de CI ganados 1 en 2 4.2 1 en 10 11.5 1 en 100 18.8 1 en 1000 24.3 5 generaciones de 1 en 10 < 65 (por rendimientos decrecientes) 10 generaciones de 1 en 10 < 130 (por rendimientos decrecientes) Límites acumulativos (variantes aditivas optimizadas para la cognición) 100 + (< 300 (por rendimientos decrecientes)) Curiosamente, la disminución de los rendimientos se reduce considerablemente cuando la selección se distribuye a lo largo de múltiples generaciones. Así, seleccionar repetidamente el mejor 1 de 10 durante diez generaciones (donde cada nueva generación consiste en la descendencia de aquellos seleccionados en la generación anterior) producirá un aumento mucho mayor en el valor de la característica que una selección única de 1 en 100. El problema con la selección secuencial, por supuesto, es que toma más tiempo.
  • Con gametos derivados de células madre, la cantidad de poder de selección disponible para una pareja podría aumentar significativamente. En la práctica actual, un procedimiento de fertilización in vitro típicamente implica la creación de menos de diez embriones. Con gametos derivados de células madre, algunas células donadas podrían convertirse en un número prácticamente ilimitado de gametos que podrían ser combinados para producir embriones, los cuales luego podrían ser genotipados o secuenciados, y se elegiría el más prometedor para la implantación. Dependiendo del costo de preparar y examinar cada embrión individual, esta tecnología podría resultar en un aumento múltiple del poder selectivo disponible para las parejas que utilizan fertilización in vitro. Más importante aún, los gametos derivados de células madre permitirían que múltiples generaciones de selección se compriman en menos de un período de madurez humana, al habilitar una selección iterada de embriones. Este es un procedimiento que consistiría en los siguientes pasos: 1 Genotipar y seleccionar un número de embriones que sean más altos en características genéticas deseadas. 2 Extraer células madre de esos embriones y convertirlas en esperma y óvulos, madurando en seis meses o menos. 3 Cruzar el nuevo esperma y óvulos para producir embriones. 4 Repetir hasta que se hayan acumulado cambios genéticos significativos. De esta manera, sería posible lograr diez o más generaciones de selección en solo unos pocos años. (El procedimiento sería largo y costoso; sin embargo, en principio, solo necesitaría realizarse una vez en lugar de repetirse para cada nacimiento. Las líneas celulares establecidas al final del procedimiento podrían utilizarse para generar un número muy grande de embriones mejorados). Como indica la Tabla 5, el nivel promedio de inteligencia entre los individuos concebidos de esta manera podría ser muy alto, posiblemente igual o un poco superior al del individuo más inteligente de la población humana histórica. Un mundo que tuviera una gran población de tales individuos podría (si tuviera la cultura, educación, infraestructura de comunicaciones, etc., correspondiente) constituir una superinteligencia colectiva. El impacto de esta tecnología se verá atenuado y retrasado por varios factores. Hay un inevitable desfase de maduración mientras los embriones finalmente seleccionados crecen hasta convertirse en seres humanos adultos: al menos veinte años antes de que un niño mejorado alcance su plena productividad, todavía más tiempo antes de que tales niños lleguen a constituir un segmento sustancial de la fuerza laboral. Además, incluso después de que la tecnología se haya perfeccionado, las tasas de adopción probablemente comenzarán siendo bajas. Algunos países podrían prohibir su uso por completo, por motivos morales o religiosos. Incluso donde se permita la selección, muchas parejas preferirán la forma natural de concebir. Sin embargo, la disposición a usar la FIV aumentaría si hubiera beneficios más claros asociados con el procedimiento, como una garantía virtual de que el niño sería altamente talentoso y libre de predisposiciones genéticas a enfermedades. Menores costos de atención médica y mayores ingresos esperados a lo largo de la vida también abogarían a favor de la selección genética.
  • Con avances adicionales en la tecnología genética, podría volverse posible sintetizar genomas según especificaciones, evitando la necesidad de grandes bancos de embriones. La síntesis de ADN ya es una biotecnología rutinaria y en gran medida automatizada, aunque aún no es factible sintetizar un genoma humano completo que pueda ser utilizado en un contexto reproductivo (no menos porque aún existen dificultades no resueltas para obtener la epigenética correcta). Pero una vez que esta tecnología haya madurado, se podría diseñar un embrión con la combinación exacta de entradas genéticas preferidas de cada padre. Genes que no están presentes en ninguno de los padres también podrían ser incorporados, incluyendo alelos que están presentes con baja frecuencia en la población pero que pueden tener efectos positivos significativos en la cognición.
  • Con el pleno desarrollo de las tecnologías genéticas descritas anteriormente (dejando de lado las posibilidades más exóticas, como la inteligencia en tejido neural cultivado), podría ser posible asegurar que los nuevos individuos sean, en promedio, más inteligentes que cualquier humano que haya existido hasta ahora, con picos que se elevan aún más. El potencial de la mejora biológica es, por lo tanto, en última instancia, alto, probablemente suficiente para la consecución de al menos formas débiles de superinteligencia. Esto no debería ser sorprendente. Después de todo, los procesos evolutivos torpes han amplificado dramáticamente la inteligencia en la línea humana incluso en comparación con nuestros parientes cercanos, los grandes simios, y con nuestros propios antepasados humanoides; y no hay razón para suponer que Homo sapiens haya alcanzado el apogeo de la efectividad cognitiva alcanzable en un sistema biológico.
  • Lejos de ser la especie biológica más inteligente posible, probablemente sea mejor pensarnos como la especie biológica más estúpida capaz de iniciar una civilización tecnológica—un nicho que ocupamos porque llegamos primero, no porque estemos en ningún sentido óptimamente adaptados a ello.
  • (1) al menos formas débiles de superinteligencia son alcanzables mediante mejoras biotecnológicas; (2) la viabilidad de humanos cognitivamente mejorados añade plausibilidad a que formas avanzadas de inteligencia máquina sean factibles—porque incluso si fuéramos fundamentalmente incapaces de crear inteligencia máquina (lo cual no hay razón para suponer), la inteligencia máquina podría aún estar al alcance de humanos cognitivamente mejorados; y (3) cuando consideramos escenarios que se extienden significativamente hacia la segunda mitad de este siglo y más allá, debemos tener en cuenta la probable aparición de una generación de poblaciones genéticamente mejoradas—electores, inventores, científicos—con la magnitud de la mejora escalando rápidamente en las décadas posteriores.
  • La mayoría de los beneficios potenciales que los implantes cerebrales podrían proporcionar en sujetos sanos podrían obtenerse con mucho menos riesgo, costo y inconveniente mediante el uso de nuestros órganos motores y sensoriales regulares para interactuar con computadoras ubicadas fuera de nuestros cuerpos. No necesitamos conectar un cable de fibra óptica a nuestros cerebros para acceder a Internet. No solo la retina humana puede transmitir datos a una tasa impresionante de casi 10 millones de bits por segundo, sino que viene preempaquetada con una enorme cantidad de hardware biológico dedicado, la corteza visual, que está altamente adaptada para extraer significado de esta torrente de información y para interactuar con otras áreas del cerebro para un procesamiento adicional. Incluso si hubiera una manera fácil de bombear más información en nuestros cerebros, el flujo adicional de datos haría poco para aumentar la tasa a la que pensamos y aprendemos, a menos que toda la maquinaria neural necesaria para dar sentido a los datos también fuera actualizada de manera similar. Dado que esto incluye casi todo el cerebro, lo que realmente se necesitaría sería una "prótesis cerebral completa", que es simplemente otra forma de decir inteligencia general artificial.
  • En algunos dominios, la cantidad es un pobre sustituto de la calidad. Un genio solitario trabajando desde un dormitorio revestido de corcho puede escribir En busca del tiempo perdido. ¿Podría producirse una obra maestra equivalente reclutando un edificio de oficinas lleno de escritores mediocres? Incluso dentro del rango de la variación humana presente, vemos que algunas funciones se benefician enormemente del trabajo de un brillante maestro de obras en lugar de los esfuerzos conjuntos de innumerables mediocridades. Si ampliamos nuestro enfoque para incluir mentes superinteligentes, debemos considerar la posibilidad de que existan problemas intelectuales que solo pueden ser resueltos por superinteligencia y que son intratables para cualquier colectivo, por grande que sea, de humanos no aumentados.
  • Considere, primero, que muchas de las costosas exhibiciones que encontramos en la naturaleza están relacionadas con la selección sexual.32 La reproducción entre formas de vida tecnológicamente maduras, en contraste, puede ser predominantemente o exclusivamente asexual.
  • Acelerador de desarrollo macroestructural—Una palanca que acelera la tasa a la que se desarrollan las características macroestructurales de la condición humana, mientras mantiene sin cambios la tasa a la que se desarrollan los asuntos humanos a nivel micro.
  • Durante la mayor parte de la existencia de nuestra especie, el desarrollo macroestructural fue más lento de lo que es ahora. Hace cincuenta mil años, podría haber pasado un milenio entero sin un solo invento tecnológico significativo, sin un aumento notable en el conocimiento y la comprensión humanos, y sin ningún cambio político de significado global. A nivel micro, sin embargo, el caleidoscopio de los asuntos humanos giraba a un ritmo razonable, con nacimientos, muertes y otros eventos personalmente y localmente significativos. El día de una persona promedio podría haber estado más lleno de acción en el Pleistoceno de lo que está hoy.

Arquitectura Cognitiva e Inteligencia

  • Una inteligencia artificial no tiene por qué parecerse mucho a una mente humana. Las IA podrían ser—de hecho, es probable que la mayoría lo sean—extremadamente ajenas. Debemos esperar que tengan arquitecturas cognitivas muy diferentes a las de las inteligencias biológicas, y en sus primeras etapas de desarrollo tendrán perfiles muy diferentes de fortalezas y debilidades cognitivas (aunque, como argumentaremos más adelante, podrían eventualmente superar cualquier debilidad inicial). Además, los sistemas de objetivos de las IA podrían divergir radicalmente de los de los seres humanos. No hay razón para esperar que una IA genérica esté motivada por el amor, el odio, el orgullo u otros sentimientos humanos comunes: estas adaptaciones complejas requerirían un esfuerzo deliberado y costoso para recrearlas en las IA. Este es a la vez un gran problema y una gran oportunidad.
  • Primero, se crea un escaneo suficientemente detallado de un cerebro humano particular. Esto podría implicar estabilizar el cerebro post-mortem a través de la vitrificación (un proceso que convierte el tejido en una especie de vidrio). Una máquina podría luego disecar el tejido en finas rebanadas, que podrían ser alimentadas a otra máquina para su escaneo, quizás mediante una serie de microscopios electrónicos. En esta etapa se podrían aplicar varias tinciones para resaltar diferentes propiedades estructurales y químicas. Muchas máquinas de escaneo podrían trabajar en paralelo para procesar múltiples rebanadas de cerebro simultáneamente. En segundo lugar, los datos en bruto de los escáneres se alimentan a una computadora para el procesamiento automatizado de imágenes para reconstruir la red neuronal tridimensional que implementó la cognición en el cerebro original. En la práctica, este paso podría avanzar concurrentemente con el primer paso para reducir la cantidad de datos de imagen de alta resolución almacenados en buffers. El mapa resultante se combina luego con una biblioteca de modelos neurocomputacionales de diferentes tipos de neuronas o de diferentes elementos neuronales (como ciertos tipos de conectores sinápticos). La Figura 4 muestra algunos resultados del escaneo y procesamiento de imágenes producidos con la tecnología actual. En la tercera etapa, la estructura neurocomputacional resultante del paso anterior se implementa en una computadora suficientemente poderosa. Si tiene éxito total, el resultado sería una reproducción digital del intelecto original, con memoria y personalidad intactas. La mente humana emulada ahora existe como software en una computadora. La mente puede habitar una realidad virtual o interfazar con el mundo exterior por medio de apéndices robóticos.
  • El camino de la emulación cerebral completa no requiere que entendamos cómo funciona la cognición humana o cómo programar una inteligencia artificial. Solo requiere que comprendamos las características funcionales de bajo nivel de los elementos computacionales básicos del cerebro. No se necesita un avance conceptual o teórico fundamental para que la emulación cerebral completa tenga éxito. Sin embargo, la emulación cerebral completa requiere algunas tecnologías habilitadoras bastante avanzadas. Hay tres prerrequisitos clave: (1) escaneo: microscopía de alto rendimiento con suficiente resolución y detección de propiedades relevantes; (2) traducción: análisis automatizado de imágenes para convertir los datos de escaneo en bruto en un modelo tridimensional interpretado de elementos neurocomputacionales relevantes; y (3) simulación: hardware lo suficientemente potente como para implementar la estructura computacional resultante (ver Tabla 4). (En comparación con estos pasos más desafiantes, la construcción de una realidad virtual básica o una encarnación robótica con un canal de entrada audiovisual y algún canal de salida simple es relativamente fácil. La entrada/salida simple, pero mínimamente adecuada, parece factible ya con la tecnología actual.
  • En general, cuanto peor sea nuestro equipo de escaneo y más débiles sean nuestros computadores, menos podríamos confiar en simular procesos químicos y electrofisiológicos cerebrales de bajo nivel, y más comprensión teórica se necesitaría de la arquitectura computacional que buscamos emular para crear representaciones más abstractas de las funcionalidades relevantes.25 Inversamente, con tecnología de escaneo suficientemente avanzada y abundante poder computacional, podría ser posible realizar una emulación a la fuerza incluso con una comprensión bastante limitada del cerebro. En el caso límite poco realista, podríamos imaginar emular un cerebro al nivel de sus partículas elementales utilizando la ecuación de Schrödinger de la mecánica cuántica. Entonces uno podría basarse completamente en el conocimiento existente de la física y no en absoluto en ningún modelo biológico. Sin embargo, este caso extremo impondría demandas totalmente impracticables en cuanto a poder computacional y adquisición de datos.
  • Para evaluar la viabilidad de la emulación completa del cerebro, es necesario entender el criterio para el éxito. El objetivo no es crear una simulación del cerebro tan detallada y precisa que se pudiera usar para predecir exactamente lo que habría sucedido en el cerebro original si hubiera sido sometido a una secuencia particular de estímulos. En cambio, el objetivo es capturar suficientes de las propiedades funcionales computacionales del cerebro para permitir que la emulación resultante realice trabajo intelectual. Para este propósito, gran parte del desordenoso detalle biológico de un cerebro real es irrelevante.
  • Por ejemplo, se podría distinguir entre (1) una emulación de alta fidelidad que tiene el conjunto completo de conocimientos, habilidades, capacidades y valores del cerebro emulado; (2) una emulación distorsionada cuyas disposiciones son significativamente no humanas en algunos aspectos, pero que es mayormente capaz de realizar el mismo trabajo intelectual que el cerebro emulado; y (3) una emulación genérica (que también podría estar distorsionada) que es algo parecida a un infante, careciendo de las habilidades o recuerdos que había adquirido el cerebro adulto emulado, pero con la capacidad de aprender la mayoría de lo que un humano normal puede aprender.
  • Considera el humilde organismo modelo Caenorhabditis elegans, que es un nematodo transparente, de aproximadamente 1 mm de longitud, con 302 neuronas. La matriz de conectividad completa de estas neuronas se conoce desde mediados de la década de 1980, cuando fue laboriosamente mapeada mediante secciones, microscopía electrónica y etiquetado manual de especímenes.29 Pero saber simplemente qué neuronas están conectadas con cuáles no es suficiente. Para crear una emulación del cerebro también se necesitaría conocer qué sinapsis son excitatorias y cuáles son inhibitorias; la fuerza de las conexiones; y varias propiedades dinámicas de los axones, sinapsis y árboles dendríticos. Esta información aún no está disponible ni siquiera para el pequeño sistema nervioso de C. elegans (aunque ahora puede estar al alcance de un proyecto de investigación moderadamente dirigido).30 El éxito en la emulación de un pequeño cerebro, como el de C. elegans, nos daría una mejor perspectiva de lo que se necesitaría para emular cerebros más grandes.
  • Pero, ¿qué pasa con el sueño de eludir por completo las palabras y establecer una conexión entre dos cerebros que permita "descargar" conceptos, pensamientos o áreas completas de conocimiento de una mente a otra? Podemos descargar archivos grandes a nuestras computadoras, incluidas bibliotecas con millones de libros y artículos, y esto se puede hacer en cuestión de segundos: ¿podría hacerse algo similar con nuestros cerebros? La aparente plausibilidad de esta idea probablemente deriva de una visión incorrecta de cómo se almacena y representa la información en el cerebro. Como se ha señalado, el paso limitante en la inteligencia humana no es qué tan rápido se pueden introducir datos sin procesar en el cerebro, sino más bien qué tan rápido puede el cerebro extraer significado y dar sentido a los datos. Quizás se sugerirá que transmitamos significados directamente, en lugar de empaquetarlos en datos sensoriales que deben ser decodificados por el receptor. Hay dos problemas con esto. El primero es que los cerebros, a diferencia de los tipos de programas que normalmente ejecutamos en nuestras computadoras, no utilizan formatos de almacenamiento y representación de datos estandarizados. Más bien, cada cerebro desarrolla sus propias representaciones idiosincráticas de contenido de nivel superior. Qué asambleas neuronales particulares se reclutan para representar un concepto particular depende de las experiencias únicas del cerebro en cuestión (junto con varios factores genéticos y procesos fisiológicos estocásticos). Así como en redes neuronales artificiales, el significado en redes neuronales biológicas probablemente se representa de manera holística en la estructura y patrones de actividad de regiones superpuestas de gran tamaño, no en celdas de memoria discretas dispuestas en arreglos ordenados. Por lo tanto, no sería posible establecer un mapeo simple entre las neuronas de un cerebro y las de otro de tal manera que los pensamientos pudieran deslizarse automáticamente de uno a otro. Para que los pensamientos de un cerebro sean inteligibles para otro, los pensamientos deben descomponerse y empaquetarse en símbolos de acuerdo con alguna convención compartida que permita que los símbolos sean interpretados correctamente por el cerebro receptor. Este es el trabajo del lenguaje.
  • Supongamos que la plasticidad del cerebro fuera tal que pudiera aprender a detectar patrones en algún nuevo flujo de entrada proyectado arbitrariamente en alguna parte de la corteza mediante una interfaz cerebro-computadora: ¿por qué no proyectar la misma información en la retina en su lugar, como un patrón visual, o en la cóclea como sonidos? La alternativa de baja tecnología evita mil complicaciones, y en cualquier caso el cerebro podría desplegar sus mecanismos de reconocimiento de patrones y plasticidad para aprender a dar sentido a la información.
  • Una superinteligencia de velocidad es un intelecto que es igual al de una mente humana, pero más rápido. Esta es conceptualmente la forma más fácil de superinteligencia de analizar.1 Podemos definir la superinteligencia de velocidad de la siguiente manera:
  • Superinteligencia de velocidad: Un sistema que puede hacer todo lo que un intelecto humano puede hacer, pero mucho más rápido.
  • El ejemplo más simple de superinteligencia de velocidad sería una emulación cerebral completa que funcione en hardware rápido. Una emulación que opere a una velocidad de diez mil veces la de un cerebro biológico podría leer un libro en unos pocos segundos y escribir una tesis doctoral en una tarde. Con un factor de aceleración de un millón, una emulación podría lograr un milenio entero de trabajo intelectual en un día laboral.
  • Debido a esta aparente dilatación temporal del mundo material, una superinteligencia de velocidad preferiría trabajar con objetos digitales. Podría vivir en la realidad virtual y operar en la economía de la información. Alternativamente, podría interactuar con el entorno físico a través de manipuladores a escala nanométrica, ya que las extremidades a tales escalas pequeñas podrían operar más rápido que los apéndices macroscópicos. (La frecuencia característica de un sistema tiende a ser inversamente proporcional a su escala de longitud.
  • Superinteligencia colectiva Otra forma de superinteligencia es un sistema que logra un rendimiento superior al agregar un gran número de inteligencias más pequeñas: Superinteligencia colectiva: Un sistema compuesto por un gran número de intelectos más pequeños de tal manera que el rendimiento general del sistema en muchos dominios muy generales supera con creces al de cualquier sistema cognitivo actual.
  • Superinteligencia de calidad Podemos distinguir una tercera forma de superinteligencia. Superinteligencia de calidad: Un sistema que es al menos tan rápido como una mente humana y muchísimo más inteligente en términos cualitativos.
  • Los animales no humanos carecen de un lenguaje estructurado complejo; son capaces de un uso de herramientas rudimentario o nulo y de la construcción de herramientas; están severamente restringidos en su capacidad para hacer planes a largo plazo; y tienen una habilidad de razonamiento abstracto muy limitada.
  • Y aunque la compleja civilización tecnológica de la humanidad sería imposible sin nuestra enorme ventaja en inteligencia colectiva, no todas las capacidades cognitivas distintivamente humanas dependen de la inteligencia colectiva. Muchas están altamente desarrolladas incluso en pequeños grupos de cazadores-recolectores aislados. Y muchas no están ni de cerca tan desarrolladas entre animales no humanos altamente organizados, como los chimpancés y los delfines intensamente entrenados por instructores humanos, o las hormigas que viven en sus propias sociedades grandes y bien ordenadas. Evidentemente, los logros intelectuales notables de Homo sapiens son, en gran medida, atribuibles a características específicas de la arquitectura de nuestro cerebro, características que dependen de un legado genético único que no es compartido por otros animales.
  • En el mejor de los casos, podríamos decir que, ceteris paribus, la superinteligencia rápida destaca en tareas que requieren la ejecución rápida de una larga serie de pasos que deben realizarse de manera secuencial, mientras que la superinteligencia colectiva sobresale en tareas que admiten una descomposición analítica en sub-tareas paralelizable y en tareas que exigen la combinación de muchas perspectivas y conjuntos de habilidades diferentes. En cierto sentido vago, la superinteligencia de calidad sería la forma más capaz de todas, en la medida en que podría comprender y resolver problemas que están, a todos los efectos prácticos, más allá del alcance directo de la superinteligencia rápida y la superinteligencia colectiva.
  • Las ventajas del hardware son las más fáciles de apreciar: — Velocidad de los elementos computacionales. Las neuronas biológicas operan a una velocidad máxima de aproximadamente 200 Hz, lo que es siete órdenes de magnitud más lento que un microprocesador moderno (~ 2 GHz).19 Como consecuencia, el cerebro humano se ve obligado a depender de una masiva paralelización y es incapaz de realizar rápidamente cualquier cálculo que requiera un gran número de operaciones secuenciales.20 (Cualquier cosa que el cerebro haga en menos de un segundo no puede involucrar mucho más de un centenar de operaciones secuenciales—quizás solo unas pocas docenas.)
  • Velocidad de comunicación interna. Los axones transportan potenciales de acción a velocidades de 120 m/s o menos, mientras que los núcleos de procesamiento electrónicos pueden comunicarse ópticamente a la velocidad de la luz (300,000,000 m/s). La lentitud de las señales neuronales limita el tamaño que puede alcanzar un cerebro biológico mientras funciona como una única unidad de procesamiento. Por ejemplo, para lograr una latencia de ida y vuelta de menos de 10 ms entre cualquier par de elementos en un sistema, los cerebros biológicos deben ser más pequeños que 0.11 m3. Un sistema electrónico, por otro lado, podría ser de 6.1×1017 m3, aproximadamente del tamaño de un planeta enano: dieciocho órdenes de magnitud más grande.
  • Número de elementos computacionales. El cerebro humano tiene algo menos de 100 mil millones de neuronas. Los humanos tienen aproximadamente tres veces y media el tamaño del cerebro de los chimpancés (aunque solo una quinta parte del tamaño del cerebro de los cachalotes). El número de neuronas en una criatura biológica está, de manera más obvia, limitado por el volumen craneal y las restricciones metabólicas, pero otros factores también pueden ser significativos para los cerebros más grandes (como el enfriamiento, el tiempo de desarrollo y los retrasos en la conducción de señales—ver el punto anterior). En contraste, el hardware de la computadora es indefinidamente escalable hasta límites físicos muy altos. Los supercomputadores pueden tener el tamaño de un almacén o ser más grandes, con capacidad remota adicional añadida a través de cables de alta velocidad.
  • Capacidad de almacenamiento. La memoria de trabajo humana puede retener no más de cuatro o cinco fragmentos de información en un momento dado.27 Si bien sería engañoso comparar el tamaño de la memoria de trabajo humana directamente con la cantidad de RAM en una computadora digital, es evidente que las ventajas de hardware de las inteligencias digitales permitirán que tengan memorias de trabajo más grandes. Esto podría permitir que tales mentes comprendan intuitivamente relaciones complejas que los humanos solo pueden manejar torpemente a través de cálculos laboriosos. La memoria a largo plazo humana también es limitada, aunque no está claro si logramos agotar su capacidad de almacenamiento durante el transcurso de una vida ordinaria, ya que la tasa a la que acumulamos información es tan lenta. (En una estimación, el cerebro humano adulto almacena alrededor de mil millones de bits, un par de órdenes de magnitud menos que un teléfono inteligente de gama baja) Tanto la cantidad de información almacenada como la velocidad con la que se puede acceder a ella podrían ser, por lo tanto, mucho mayores en un cerebro de máquina que en un cerebro biológico.
  • Fiabilidad, vida útil, sensores, etc. Las inteligencias de máquina podrían tener diversas ventajas de hardware. Por ejemplo, las neuronas biológicas son menos fiables que los transistores. Dado que la computación ruidosa requiere esquemas de codificación redundantes que utilizan múltiples elementos para codificar un solo bit de información, un cerebro digital podría derivar algunas ganancias de eficiencia del uso de elementos de computación de alta precisión y fiabilidad. Los cerebros se fatigan después de unas pocas horas de trabajo y comienzan a decaer permanentemente después de unas pocas décadas de tiempo subjetivo; los microprocesadores no están sujetos a estas limitaciones. El flujo de datos hacia una inteligencia de máquina podría aumentar al agregar millones de sensores.
  • Editabilidad. Es más fácil experimentar con variaciones de parámetros en software que en el material neural. Por ejemplo, con una emulación de cerebro completo se podría probar fácilmente qué sucede si se añaden más neuronas en una área cortical particular o si se aumenta o disminuye su excitabilidad. Realizar tales experimentos en cerebros biológicos vivos sería mucho más difícil.
  • Duplicabilidad. Con el software, se pueden hacer rápidamente tantas copias de alta fidelidad como se desee para llenar la base de hardware disponible. Los cerebros biológicos, en contraste, solo pueden reproducirse muy lentamente; y cada nueva instancia comienza en un estado de indefensión, sin recordar nada de lo que sus padres aprendieron en sus vidas.
  • Compartición de memoria. Los cerebros biológicos requieren períodos prolongados de entrenamiento y mentoría, mientras que las mentes digitales podrían adquirir nuevos recuerdos y habilidades intercambiando archivos de datos. Una población de mil millones de copias de un programa de IA podría sincronizar sus bases de datos periódicamente, de modo que todas las instancias del programa conozcan todo lo que cualquier instancia aprendió durante la hora anterior.
  • El proceso de resolver un rompecabezas comienza de manera simple: es fácil encontrar las esquinas y los bordes. Luego, la resistencia aumenta a medida que las piezas posteriores son más difíciles de encajar. Pero a medida que el rompecabezas se acerca a su final, el espacio de búsqueda se colapsa y el proceso se vuelve más fácil nuevamente.
  • También es posible que nuestra tendencia natural a ver la inteligencia desde una perspectiva antropocéntrica nos lleve a subestimar las mejoras en los sistemas subhumanos, y así a sobreestimar la resistencia. Eliezer Yudkowsky, un teórico de la IA que ha escrito extensamente sobre el futuro de la inteligencia de las máquinas, expresa el punto de la siguiente manera: La IA podría dar un salto aparentemente brusco en inteligencia puramente como resultado del antropomorfismo, la tendencia humana a pensar en el "idiota del pueblo" y en "Einstein" como los extremos de la escala de inteligencia, en lugar de puntos casi indistinguibles en la escala de mentes en general. Todo lo más tonto que un humano tonto puede parecernos simplemente "tonto". Uno imagina la "flecha de la IA" subiendo constantemente por la escala de inteligencia, moviéndose más allá de los ratones y chimpancés, con las IA todavía consideradas "tontas" porque las IA no pueden hablar en un lenguaje fluido ni escribir artículos científicos, y luego la flecha de la IA cruza la pequeña brecha de infra-idiota a ultra-Einstein en el transcurso de un mes o algún periodo corto similar.
  • Una forma alternativa de expresar casi la misma idea es diciendo que la capacidad de resolución de problemas intelectuales de un sistema puede ser mejorada no solo haciendo el sistema más inteligente, sino también ampliando lo que el sistema conoce.
  • Figura 8 ¿Una escala menos antropomórfica? La brecha entre una persona tonta y una inteligente puede parecer grande desde una perspectiva antropocéntrica, sin embargo, en una visión menos parroquial, los dos tienen mentes casi indistinguibles. Casi con seguridad resultará más difícil y tomará más tiempo construir una inteligencia de máquina que tenga un nivel general de inteligencia comparable al de un idiota de pueblo que mejorar un sistema de tal manera que se vuelva mucho más inteligente que cualquier humano.
  • No tiene mucho sentido leer toda una biblioteca si te has olvidado por completo del oso hormiguero para cuando llegues al abulón. Si bien un sistema de IA probablemente tendrá una capacidad de memoria adecuada, las emulaciones heredarían algunas de las limitaciones de capacidad de sus plantillas humanas. Por lo tanto, pueden necesitar mejoras arquitectónicas para llegar a ser capaces de un aprendizaje ilimitado.
  • Este problema de coordinación interna no se aplicaría a un sistema de IA que constituye un único agente unificado.
  • Por ejemplo, una suposición común es que una máquina superinteligente sería como un ser humano muy inteligente pero nerd. Imaginamos que la IA tiene conocimientos académicos pero carece de astucia social, o que es lógica pero no intuitiva ni creativa. Esta idea probablemente origina en la observación: miramos las computadoras actuales y vemos que son buenas en cálculo, recordando hechos, y siguiendo al pie de la letra las instrucciones mientras son ajenas a los contextos sociales y subtextos, normas, emociones y política. La asociación se fortalece cuando observamos que las personas que son buenas trabajando con computadoras tienden a ser nerds. Así que es natural suponer que una inteligencia computacional más avanzada tendrá atributos similares, solo que en un grado mayor.
  • Eliezer Yudkowsky, como vimos en un capítulo anterior, ha sido particularmente enérgico en condenar este tipo de concepto erróneo: nuestros conceptos intuitivos de "inteligente" y "estúpido" se destilan de nuestra experiencia de variación en el rango de pensadores humanos, sin embargo, las diferencias en la capacidad cognitiva dentro de este grupo humano son triviales en comparación con las diferencias entre cualquier intelecto humano y una superinteligencia.
  • Un sistema que tiene el superpoder de amplificación de inteligencia podría usarlo para autosustentarse a niveles más altos de inteligencia y adquirir cualquiera de los otros superpoderes intelectuales que no posee al comienzo. Pero usar un superpoder de amplificación de inteligencia no es la única manera en que un sistema puede convertirse en una superinteligencia plena. Un sistema que tiene el superpoder de estrategia, por ejemplo, podría usarlo para idear un plan que eventualmente traiga un aumento en la inteligencia (por ejemplo, posicionando al sistema para convertirse en el foco del trabajo de amplificación de inteligencia realizado por programadores humanos e investigadores en ciencias de la computación).
  • Considera a dos personas que parecen extremadamente distintas, quizás Hannah Arendt y Benny Hill. Las diferencias de personalidad entre estos dos individuos pueden parecer casi máximamente grandes. Pero esto se debe a que nuestras intuiciones están calibradas según nuestra experiencia, que toma muestras de la distribución humana existente (y, hasta cierto punto, de personalidades ficticias construidas por la imaginación humana para el disfrute de la imaginación humana). Sin embargo, si hacemos un zoom hacia afuera y consideramos el espacio de todas las mentes posibles, debemos concebir estas dos personalidades como clones virtuales. Ciertamente, en términos de arquitectura neural, la Sra. Arendt y el Sr. Hill son casi idénticos. Imagina sus cerebros descansando uno al lado del otro en tranquila reposo. Reconocerías fácilmente que son dos de una misma clase. Incluso podrías no ser capaz de discernir a quién pertenece cada cerebro. Si miraras más de cerca, estudiando la morfología de los dos cerebros bajo un microscopio, esta impresión de similitud fundamental solo se vería fortalecida: verías la misma organización lamelar de la corteza, con las mismas áreas cerebrales, compuestas por los mismos tipos de neuronas, sumergidas en el mismo baño de neurotransmisores.
  • La búsqueda inteligente de planes y políticas óptimos desde el punto de vista instrumental se puede realizar al servicio de cualquier objetivo. La inteligencia y la motivación son, en cierto sentido, ortogonales: podemos pensar en ellas como dos ejes que abarcan un gráfico en el cual cada punto representa un agente artificial lógicamente posible. Se podrían agregar algunas calificaciones a esta imagen. Por ejemplo, podría ser imposible que un sistema muy poco inteligente tenga motivaciones muy complejas. Para que sea correcto decir que un cierto agente “tiene” un conjunto de motivaciones, esas motivaciones pueden necesitar estar funcionalmente integradas con los procesos de decisión del agente, algo que impone demandas sobre la memoria, la potencia de procesamiento y, tal vez, la inteligencia. Para las mentes que pueden modificar a sí mismas, también puede haber restricciones dinámicas: una mente inteligente que se modifica a sí misma con un deseo urgente de ser estúpida podría no permanecer inteligente por mucho tiempo. Pero estas calificaciones no deben permitir que se obscurezca el punto básico sobre la independencia de la inteligencia y la motivación, que podemos expresar de la siguiente manera: La tesis de la ortogonalidad La inteligencia y los objetivos finales son ortogonales: más o menos cualquier nivel de inteligencia podría, en principio, combinarse con más o menos cualquier objetivo final.
  • Note que la tesis de la ortogonalidad no habla de racionalidad o razón, sino de inteligencia. Por "inteligencia" nos referimos aquí a algo así como habilidad en la predicción, planificación y razonamiento de medios y fines en general. Este sentido de eficacia cognitiva instrumental es más relevante cuando estamos tratando de entender cuál podría ser el impacto causal de una superinteligencia de máquina. Incluso si hay algún sentido (normativamente denso) de la palabra "racional" tal que un agente superinteligente que maximiza clips de papel necesariamente no calificaría como plenamente racional en ese sentido, esto no excluiría en modo alguno que tal agente tuviera impresionantes facultades de razonamiento instrumental, facultades que podrían permitirle tener un gran impacto en el mundo.
  • Mejoras en la racionalidad y la inteligencia tenderán a mejorar la toma de decisiones de un agente, haciendo que el agente sea más propenso a alcanzar sus objetivos finales. Por lo tanto, se esperaría que la mejora cognitiva emergiera como un objetivo instrumental para una amplia variedad de agentes inteligentes. Por razones similares, los agentes tenderán a valorar instrumentalmente muchos tipos de información.
  • Perfección tecnológica Un agente puede a menudo tener razones instrumentales para buscar mejor tecnología, lo que en su forma más simple significa buscar maneras más eficientes de transformar un conjunto dado de insumos en salidas valoradas. Así, un agente de software podría atribuir un valor instrumental a algoritmos más eficientes que le permitan ejecutar sus funciones mentales más rápido en hardware dado.
  • Una arquitectura de IA matemáticamente bien especificada y fundacionalmente elegante podría—por toda su otredad no antropomórfica—ofrecer una mayor transparencia, quizás incluso la posibilidad de que aspectos importantes de su funcionalidad pudieran ser verificados formalmente.
  • Un oracle sería idealmente confiable en el sentido de que podríamos asumir con seguridad que sus respuestas son siempre precisas, dentro de sus capacidades. Pero incluso un oracle poco confiable podría ser útil. Podríamos hacerle preguntas de un tipo para las cuales es difícil encontrar la respuesta, pero fácil de verificar si una respuesta dada es correcta. Muchos problemas matemáticos son de este tipo. Si nos estamos preguntando si una proposición matemática es verdadera, podríamos pedirle al oracle que produzca una prueba o refutación de la proposición. Encontrar la prueba puede requerir una visión y creatividad más allá de nuestra comprensión, pero verificar la validez de una prueba supuesta puede hacerse a través de un simple procedimiento mecánico.
  • La forma clásica de escribir software requiere que el programador entienda la tarea a realizar con suficiente detalle para formular un proceso de solución explícito que consista en una secuencia de pasos matemáticamente bien definidos expresables en código. (En la práctica, los ingenieros de software confían en bibliotecas de código repletas de comportamientos útiles, que pueden invocar sin necesidad de entender cómo están implementados esos comportamientos. Pero ese código fue creado originalmente por programadores que tenían un entendimiento detallado de lo que estaban haciendo.) Este enfoque funciona para resolver tareas bien entendidas, y se le atribuye la mayoría del software que actualmente está en uso. Sin embargo, se queda corto cuando nadie sabe con precisión cómo resolver todas las tareas que deben ser cumplidas. Aquí es donde las técnicas del campo de la inteligencia artificial se vuelven relevantes.
  • En otros experimentos, los algoritmos evolutivos diseñaron circuitos que detectaban si la placa base estaba siendo monitoreada con un osciloscopio o si un soldador estaba conectado a la fuente de alimentación común del laboratorio. Estos ejemplos ilustran cómo un proceso de búsqueda abierto puede reutilizar los materiales a su disposición para idear capacidades sensoriales completamente inesperadas, por medios que el pensamiento de diseño humano convencional está mal equipado para explotar o incluso para tener en cuenta en retrospectiva.
  • Estos estados de preparación a los que se restablecerían las emulaciones serían cuidadosamente preparados y examinados. Una emulación típica de corta duración podría despertarse en un estado mental bien descansado que está optimizado para la lealtad y la productividad. Recuerda haberse graduado primero de su clase tras muchos años (subjetivos) de intenso entrenamiento y selección, luego haber disfrutado de unas vacaciones restauradoras y de una buena noche de sueño, después de haber escuchado un discurso motivacional edificante y música inspiradora, y ahora está ansioso por finalmente ponerse a trabajar y hacer todo lo posible por su empleador.
  • Las emulaciones ahora pueden comenzar a externalizar porciones crecientes de su funcionalidad. ¿Por qué aprender aritmética cuando puedes enviar tu tarea de razonamiento numérico a Gauss-Modules, Inc.? ¿Por qué ser elocuente cuando puedes contratar a Coleridge Conversations para poner tus pensamientos en palabras? ¿Por qué tomar decisiones sobre tu vida personal cuando hay módulos ejecutivos certificados que pueden escanear tu sistema de objetivos y gestionar tus recursos para alcanzar tus metas mejor de lo que podrías hacerlo tú mismo? Algunas emulaciones pueden preferir retener la mayor parte de su funcionalidad y manejar tareas que podrían ser realizadas más eficientemente por otros. Esas emulaciones serían como aficionados que disfrutan cultivar sus propias verduras o tejer sus propios cárdigans. Tales emulaciones aficionados serían menos eficientes; y si hay un flujo neto de recursos de participantes menos a más eficientes de la economía, los aficionados eventualmente se quedarían atrás.
  • Un tomador de decisiones que planea hacer trampa podría derrotar un esquema de verificación basado en la detección de mentiras emitiendo primero órdenes a sus subordinados para que realicen la actividad ilícita y para que oculten la actividad incluso de la propia tomadora de decisiones, y luego sometiéndose a algún procedimiento que borre su memoria de haber participado en estas maquinaciones. Operaciones de borrado de memoria adecuadamente dirigidas podrían ser factibles en cerebros biológicos con tecnología neuro avanzada.
  • En cualquier ámbito significativamente más complicado que un juego de tres en raya, hay demasiados estados posibles (y historias de estados) para que una enumeración exhaustiva sea factible. Un sistema de motivación, por lo tanto, no puede ser especificado como una tabla de búsqueda completa. Debe, en cambio, ser expresado de manera más abstracta, como una fórmula o regla que permita al agente decidir qué hacer en cualquier situación dada.
  • Una forma formal de especificar tal regla de decisión es a través de una función de utilidad. Una función de utilidad (como recordamos del Capítulo 1) asigna valor a cada resultado que podría obtenerse, o más generalmente a cada "mundo posible". Dada una función de utilidad, se puede definir un agente que maximiza la utilidad esperada. Tal agente selecciona en cada momento la acción que tiene la mayor utilidad esperada. (La utilidad esperada se calcula ponderando la utilidad de cada mundo posible con la probabilidad subjetiva de que ese mundo sea el mundo real, condicionada a que se tome una acción particular). En la realidad, los posibles resultados son demasiado numerosos para que la utilidad esperada de una acción se pueda calcular exactamente. Sin embargo, la regla de decisión y la función de utilidad juntas determinan un ideal normativo—una noción de optimalidad—que un agente podría diseñarse para aproximar; y la aproximación podría acercarse a medida que el agente se vuelve más inteligente. Crear una máquina que pueda calcular una buena aproximación de la utilidad esperada de las acciones disponibles para ella es un problema completo de IA. Este capítulo aborda otro problema, un problema que persiste incluso si se resuelve el problema de hacer que las máquinas sean inteligentes.
  • Así que ahora nos enfrentamos a la pregunta de cómo definir el tiempo. Podríamos señalar un reloj y decir: “El tiempo se define por los movimientos de este dispositivo”—pero esto podría fallar si la IA conjetura que puede manipular el tiempo moviendo las manecillas del reloj, una conjetura que de hecho sería correcta si “tiempo” se diera la definición mencionada. (En un caso realista, las cosas se complicarían aún más por el hecho de que los valores relevantes no se describirán de manera conveniente en una carta; lo más probable es que tuvieran que inferirse a partir de observaciones de estructuras preexistentes que contienen implícitamente la información relevante, como los cerebros humanos.)
  • Históricamente, hay bastantes ejemplos de técnicas de IA extraídas de la neurociencia o la biología. (Por ejemplo: la neurona de McCulloch-Pitts, perceptrones y otras neuronas artificiales y redes neuronales, inspiradas en trabajos neuroanatomicos; aprendizaje por refuerzo, inspirado en la psicología conductista; algoritmos genéticos, inspirados en la teoría de la evolución; arquitecturas de subsunción y jerarquías perceptuales, inspiradas en teorías de la ciencia cognitiva sobre la planificación motora y la percepción sensorial; sistemas inmunológicos artificiales, inspirados en la inmunología teórica; inteligencia de enjambre, inspirada en la ecología de colonias de insectos y otros sistemas autoorganizados; y control reactivo y basado en el comportamiento en robótica, inspirado en el estudio de la locomoción animal.)
  • Piensa en un “descubrimiento” como un acto que mueve la llegada de información de un punto posterior en el tiempo a un tiempo anterior.
  • Como no hay una metodología establecida para llevar a cabo este tipo de investigación, se requiere un pensamiento original difícil.

Consideraciones Estratégicas y de Políticas

  • Si se reducen los costos de comunicación (incluyendo no solo los costos de equipo, sino también las latencias de respuesta, las cargas de tiempo y atención, y otros factores), entonces se vuelven viables organizaciones más grandes y densamente conectadas. Lo mismo podría suceder si se encuentran soluciones para algunas de las deformaciones burocráticas que distorsionan la vida organizacional: juegos de estatus derrochadores, expansión de misión, ocultamiento o falsificación de información, y otros problemas de agencia. Incluso soluciones parciales a estos problemas podrían generar grandes dividends para la inteligencia colectiva.
  • Una pregunta importante, por lo tanto, es si las autoridades nacionales o internacionales preverán una explosión de inteligencia. En la actualidad, las agencias de inteligencia no parecen estar buscando con mucha intensidad proyectos de IA prometedores u otras formas de amplificación de inteligencia potencialmente explosivas.
  • Esto sugiere que, para lograr una colaboración internacional en alguna tecnología que es de importancia crucial para la seguridad nacional, podría ser necesario haber establecido previamente una relación cercana y de confianza.
  • Considera una situación histórica vagamente análoga. Los Estados Unidos desarrollaron armas nucleares en 1945. Fue la única potencia nuclear hasta que la Unión Soviética desarrolló la bomba atómica en 1949. Durante este intervalo—y durante algún tiempo después—los Estados Unidos pudieron haber tenido, o estar en una posición de lograr, una ventaja militar decisiva. Los Estados Unidos entonces podrían, teóricamente, haber utilizado su monopolio nuclear para crear un singleton. Una forma en que podría haberlo hecho sería embarcándose en un esfuerzo total por aumentar su arsenal nuclear y luego amenazando (y de ser necesario, llevando a cabo) un primer ataque nuclear para destruir la capacidad industrial de cualquier programa nuclear incipiente en la URSS y en cualquier otro país tentado a desarrollar una capacidad nuclear. Un curso de acción más benigno, que también podría haber tenido una oportunidad de éxito, habría sido utilizar su arsenal nuclear como un argumento de negociación para negociar un fuerte gobierno internacional—una ONU sin derecho a veto con un monopolio nuclear y un mandato para tomar todas las acciones necesarias para evitar que cualquier país desarrollara sus propias armas nucleares. Ambos enfoques fueron propuestos en ese momento. El enfoque intransigente de lanzar o amenazar con un primer ataque fue defendido por algunos intelectuales prominentes como Bertrand Russell (quien había estado activo en movimientos contra la guerra y que luego pasaría décadas haciendo campaña contra las armas nucleares) y John von Neumann (co-creador de la teoría de juegos y uno de los arquitectos de la estrategia nuclear de EE.UU.). Quizás sea un signo de progreso civilizacional que la misma idea de amenazar con un primer ataque nuclear hoy parece casi tonta o moralmente obscena.
  • Finalmente, está el tema del costo. Incluso si Estados Unidos pudiera haber utilizado su monopolio nuclear para establecer un singleton, podría no haber podido hacerlo sin incurrir en costos sustanciales. En el caso de un acuerdo negociado para colocar armas nucleares bajo el control de una ONU reformada y fortalecida, estos costos podrían haber sido relativamente pequeños; pero los costos—morales, económicos, políticos y humanos—de intentar realmente la conquista mundial a través de la guerra nuclear habrían sido casi inimaginablemente grandes, incluso durante el período de monopolio nuclear. Sin embargo, con una suficiente superioridad tecnológica, estos costos serían mucho menores. Considere, por ejemplo, un escenario en el que una nación tuviera tal ventaja tecnológica que pudiera desarmar a todas las demás naciones de manera segura con solo presionar un botón, sin que nadie muriera ni resultara herido, y con casi ningún daño a la infraestructura o al medio ambiente. Con tal superioridad tecnológica casi mágica, un ataque preventivo sería mucho más tentador. O considere un nivel aún mayor de superioridad tecnológica que podría permitir al líder causar que otras naciones depongan voluntariamente sus armas, no amenazándolas con destrucción, sino simplemente persuadiendo a una gran mayoría de sus poblaciones mediante una campaña publicitaria y de propaganda extremadamente bien diseñada que exalte las virtudes de la unidad global.
  • Adquisición de recursos Finalmente, la adquisición de recursos es otro objetivo instrumental emergente común, por muchas de las mismas razones que la perfección tecnológica: tanto la tecnología como los recursos facilitan los proyectos de construcción física.
  • Un obstáculo es la dificultad de asegurar el cumplimiento de cualquier tratado que se pudiera acordar, incluidos los costos de monitoreo y aplicación. Dos rivales nucleares podrían estar mejor si ambos renunciaran a sus bombas atómicas; sin embargo, incluso si pudieran llegar a un acuerdo en principio para hacerlo, el desarme podría resultar eludible debido a su miedo mutuo de que la otra parte podría hacer trampa. Disipar este miedo requeriría establecer un mecanismo de verificación. Podría ser necesario contar con inspectores para supervisar la destrucción de los arsenales existentes, y luego para monitorear reactores nucleares y otras instalaciones, y para reunir inteligencia técnica y humana, con el fin de asegurar que el programa de armas no se reconstituya. Un costo es pagar por estos inspectores. Otro costo es el riesgo de que los inspectores hagan espionaje y se lleven secretos comerciales o militares. Quizás lo más significativo es que cada parte podría temer que la otra conserve una capacidad nuclear clandestina. Muchos acuerdos potencialmente beneficiosos nunca se concretan porque el cumplimiento sería demasiado difícil de verificar. Si se dispusieran nuevas tecnologías de inspección que redujeran los costos de monitoreo, se esperaría que esto resultara en una mayor cooperación.
  • La disponibilidad de poderosas técnicas de compromiso previo podría alterar profundamente la naturaleza de las negociaciones, potencialmente proporcionando una inmensa ventaja a un agente que tiene la ventaja de ser el primero en moverse. Si la participación de un agente particular es necesaria para la realización de algunos beneficios prospectivos de la cooperación, y si ese agente puede realizar el primer movimiento, estaría en una posición para dictar la división de los beneficios comprometiéndose previamente a no aceptar ningún acuerdo que le dé menos de, digamos, el 99% del valor excedente. Otros agentes se enfrentarían entonces a la elección de obtener nada (rechazando la propuesta injusta) o obtener el 1% del valor (cediendo). Si el compromiso previo del agente que se mueve primero es verificable públicamente, sus socios de negociación podrían estar seguros de que esas son sus únicas dos opciones. Para evitar ser explotados de esta manera, los agentes podrían comprometerse a rechazar el chantaje y a declinar todas las ofertas injustas. Una vez que se ha hecho tal compromiso previo (y se ha publicitado con éxito), otros agentes no encontrarían en su interés hacer amenazas o comprometerse a solo aceptar acuerdos inclinados a su favor, porque sabrían que las amenazas fracasarían y que las propuestas injustas serían rechazadas. Pero esto solo demuestra nuevamente que la ventaja está con el primero en moverse. El agente que se mueve primero puede elegir si aprovechar su posición de fuerza solo para disuadir a otros de aprovecharse injustamente, o para intentar conseguir la mayor parte de los futuros beneficios.
  • Una motivación para la propuesta de CEV fue evitar crear un motivo para que los humanos lucharan por la creación de la primera IA superinteligente.
  • Si alguna tecnología es viable (argumenta), se desarrollará independientemente de las escrúpulos particulares de cualquier responsable político sobre los riesgos futuros especulativos. De hecho, cuanto más poderosas sean las capacidades que una línea de desarrollo promete producir, más seguros podemos estar de que alguien, en alguna parte, estará motivado para perseguirla. Los recortes de financiamiento no detendrán el progreso ni cambiarán los peligros concomitantes.
  • ¿Es bueno que los equipos conozcan sus posiciones en la carrera (sabiendo sus puntajes de capacidad, por ejemplo)? Aquí, hay factores opuestos en juego. Es deseable que un líder sepa que está liderando (para que sepa que tiene un margen para precauciones de seguridad adicionales). Sin embargo, es indeseable que un rezagado sepa que ha quedado atrás (ya que esto confirmaría que debe reducir la seguridad para tener alguna esperanza de alcanzar a los demás). Aunque intuitivamente pueda parecer que este compromiso podría ir en cualquier dirección, los modelos son inequívocos: la información es (en expectativa) mala.33 Las figuras 14a y 14b trazan cada una tres escenarios: las líneas rectas corresponden a situaciones en las que ningún equipo conoce ninguno de los puntajes de capacidad, incluido el propio. Las líneas discontinuas muestran situaciones en las que cada equipo conoce solo su propia capacidad. (En esas situaciones, un equipo asume riesgos adicionales solo si su capacidad es baja.) Y las líneas punteadas muestran qué sucede cuando todos los equipos conocen las capacidades de los demás. (Asumen riesgos adicionales si sus puntajes de capacidad están cerca unos de otros.) Con cada aumento en el nivel de información, la dinámica de la carrera empeora.
  • Esta reflexión sugiere una estrategia de gratificación diferida. Podríamos posponer el trabajo en algunas de las preguntas eternas por un tiempo, delegando esa tarea a nuestros sucesores, que con suerte serán más competentes—para poder enfocar nuestra propia atención en un desafío más urgente: aumentar la posibilidad de que realmente tengamos sucesores competentes. Esta sería filosofía de alto impacto y matemáticas de alto impacto.

Filosofía Moral y Ética

  • El diagnóstico genético preimplantacional ya se ha utilizado durante los procedimientos de fertilización in vitro para seleccionar embriones producidos para trastornos monogénicos como la enfermedad de Huntington y para la predisposición a algunas enfermedades de aparición tardía, como el cáncer de mama. También se ha utilizado para la selección de sexo y para emparejar el tipo de antígeno leucocitario humano con el de un hermano enfermo, quien puede beneficiarse de una donación de células madre de sangre del cordón umbilical cuando nazca el nuevo bebé.
  • Los retrasos también podrían resultar de obstáculos arraigados no en un miedo al fracaso (demanda de pruebas de seguridad) sino en un miedo al éxito—demanda de regulación impulsada por preocupaciones sobre la permisibilidad moral de la selección genética o sus implicaciones sociales más amplias. Tales preocupaciones son probablemente más influyentes en algunos países que en otros, debido a contextos culturales, históricos y religiosos diferentes. La Alemania de posguerra, por ejemplo, ha elegido dar un amplio margen a cualquier práctica reproductiva que pudiera percibirse, aunque sea remotamente, como orientada a la mejora, una postura que es comprensible dada la historia particularmente oscura de atrocidades relacionadas con el movimiento eugenésico en ese país. Otros países occidentales probablemente adoptarán un enfoque más liberal. Y algunos países—quizás China o Singapur, ambos con políticas poblacionales a largo plazo—podrían no solo permitir sino promover activamente el uso de la selección genética y la ingeniería genética para mejorar la inteligencia de sus poblaciones una vez que la tecnología para hacerlo esté disponible.
  • Sin embargo, dejando de lado la cuestión de cómo las deficiencias de la modernidad se comparan con los fallos no tan insignificantes de épocas anteriores, nada en nuestra definición de superinteligencia colectiva implica que una sociedad con mayor inteligencia colectiva esté necesariamente mejor. La definición ni siquiera implica que la sociedad más inteligente colectivamente sea más sabia.
  • Crimen mental Otro modo de falla para un proyecto, especialmente un proyecto cuyos intereses incorporan consideraciones morales, es lo que podríamos referirnos como crimen mental. Esto es similar a la profusión de infraestructura en el sentido de que se refiere a un efecto secundario potencial de las acciones llevadas a cabo por la IA por razones instrumentales. Pero en el crimen mental, el efecto secundario no es externo a la IA; más bien, se refiere a lo que sucede dentro de la propia IA (o dentro de los procesos computacionales que genera). Este modo de falla merece su propia designación porque es fácil pasarlo por alto y, sin embargo, puede ser profundamente problemático. Normalmente, no consideramos lo que ocurre dentro de una computadora como teniendo alguna significación moral, excepto en la medida en que afecte las cosas fuera. Pero una superinteligencia de máquina podría crear procesos internos que tengan estatus moral. Por ejemplo, una simulación muy detallada de alguna mente humana real o hipotética podría ser consciente y, en muchos sentidos, comparable a una emulación. Se pueden imaginar escenarios en los que una IA crea billones de tales simulaciones conscientes, quizás para mejorar su comprensión de la psicología y sociología humanas. Estas simulaciones podrían ser colocadas en entornos simulados y sometidas a varios estímulos, y se podrían estudiar sus reacciones. Una vez que su utilidad informativa se haya agotado, podrían ser destruidas (al igual que las ratas de laboratorio son sacrificadas rutinariamente por científicos humanos al final de un experimento). Si tales prácticas se aplicaran a seres que tienen un alto estatus moral—como humanos simulados o muchos otros tipos de mentes sintientes—el resultado podría ser equivalente a un genocidio y, por lo tanto, extremadamente problemático desde el punto de vista moral. El número de víctimas, además, podría ser órdenes de magnitud mayor que en cualquier genocidio en la historia.
  • “Todo es vago hasta un grado que no te das cuenta hasta que has intentado hacerlo preciso.”
  • ¿Cómo se debe equilibrar el robot un gran riesgo de que unos pocos humanos sufran daño frente a un pequeño riesgo de que muchos humanos sean perjudicados? ¿Cómo definimos "daño", de todos modos? ¿Cómo se debe ponderar el daño del dolor físico contra el daño de la fealdad arquitectónica o la injusticia social? ¿Se perjudica a un sádico si se le impide atormentar a su víctima? ¿Cómo definimos "ser humano"? ¿Por qué no se considera a otros seres moralmente relevantes, como los animales no humanos sintientes y las mentes digitales? Cuanto más se medita, más se multiplican las preguntas.
  • Primero, si un trabajador libre en un estado maltusiano recibe un salario a nivel de subsistencia, no le quedará ingreso disponible después de haber pagado por alimentos y otras necesidades. Si el trabajador, en cambio, es un esclavo, su dueño pagará por su manutención y nuevamente no tendrá ingreso disponible. En cualquier caso, el trabajador recibe lo necesario y nada más.
  • La imagen de la evolución como un proceso que produce de manera confiable efectos benignos es difícil de reconciliar con el enorme sufrimiento que vemos tanto en el mundo humano como en el natural. Aquellos que aprecian los logros de la evolución pueden hacerlo más desde una perspectiva estética que ética. Sin embargo, la pregunta pertinente no es qué tipo de futuro sería fascinante leer en una novela de ciencia ficción o ver representado en un documental de naturaleza, sino qué tipo de futuro sería bueno para vivir: dos cuestiones muy diferentes.
  • Hay un problema adicional: La cantidad total de sufrimiento por año en el mundo natural está más allá de toda contemplación decente. Durante el minuto que me toma componer esta oración, miles de animales están siendo devorados vivos, otros están corriendo por sus vidas, sollozando de miedo, otros están siendo devorados lentamente desde dentro por parásitos rasposos, miles de todo tipo están muriendo de hambre, sed y enfermedades. Incluso solo dentro de nuestra especie, 150,000 personas son destruidas cada día mientras que incontables más sufren una asombrosa variedad de tormentos y privaciones. La naturaleza podría ser una gran experimentadora, pero una que nunca pasaría la prueba de un comité de ética—violando la Declaración de Helsinki y cada norma de decencia moral, a la izquierda, a la derecha y al centro. Es importante que no reproduzcamos gratuitamente tales horrores en silico. El crimen mental parece especialmente difícil de evitar cuando se utilizan métodos evolutivos para producir inteligencia parecida a la humana, al menos si el proceso pretende parecerse a la evolución biológica real.
  • Se podría argumentar que la investigación sobre la emulación del cerebro entero es menos probable que implique violaciones morales que la investigación en inteligencia artificial, con el fundamento de que es más probable que reconozcamos cuando una mente emulada califica para un estatus moral que cuando una mente completamente ajena o sintética lo hace. Si ciertos tipos de IA, o sus subprocessos, tienen un estatus moral significativo que no logramos reconocer, las violaciones morales resultantes podrían ser extensas. Consideremos, por ejemplo, el alegre desinterés con el que los programadores contemporáneos crean agentes de aprendizaje por refuerzo y los someten a estímulos aversivos. Diariamente se crean innumerables agentes de este tipo, no solo en laboratorios de ciencias de la computación, sino en muchas aplicaciones, incluyendo algunos videojuegos que contienen personajes no jugadores sofisticados. Presumiblemente, estos agentes aún son demasiado primitivos para tener algún estatus moral. Pero, ¿qué tan seguros podemos estar realmente de que esto es así? Más importante aún, ¿qué tan seguros podemos estar de que sabremos detenernos a tiempo, antes de que nuestros programas se vuelvan capaces de experimentar sufrimiento moralmente relevante?
  • Por ejemplo, consideremos la (inusualmente simple) teoría consecuencialista del hedonismo. Esta teoría afirma, en términos generales, que todo y solo el placer tiene valor, y todo y solo el dolor tiene desvalor. Incluso si apostáramos todas nuestras fichas morales en esta única teoría, y la teoría resultara ser correcta, muchas preguntas seguirían abiertas. ¿Deberían darse prioridad a los “placeres superiores” sobre los “placeres inferiores”, como argumentó John Stuart Mill? ¿Cómo se debería tener en cuenta la intensidad y la duración de un placer? ¿Pueden los dolores y los placeres anularse entre sí? ¿Qué tipos de estados cerebrales están asociados con placeres moralmente relevantes? ¿Dos copias exactas del mismo estado cerebral corresponderían a el doble de la cantidad de placer? ¿Puede haber placeres subconscientes? ¿Cómo deberíamos manejar las posibilidades extremadamente pequeñas de placeres extremadamente grandes?
  • Un individuo podría tener un deseo de segundo orden (un deseo sobre qué desear) que algunos de sus deseos de primer orden no sean tomados en cuenta cuando se extrapola su voluntad. Por ejemplo, un alcohólico que tiene un deseo de primer orden por las bebidas alcohólicas también podría tener un deseo de segundo orden de no tener ese deseo de primer orden. De manera similar, podríamos tener deseos sobre cómo deberían desarrollarse varias otras partes del proceso de extrapolación, y estos deberían ser tomados en cuenta por el proceso de extrapolación.
  • Uno podría seguir preocupándose de que este modelo de permisibilidad moral (MP) representa un grado inaceptablemente alto de respeto por los requerimientos de la moralidad. Cuánto sacrificio implicaría depende de cuál teoría ética sea verdadera. Si la ética es de satisfacción, en el sentido de que cuenta como moralmente permisible cualquier acción que se ajuste a algunas restricciones morales básicas, entonces el MP podría dejar amplio margen para que nuestra voluntad extrapolada y coherente influya en las acciones de la IA. Sin embargo, si la ética es de maximización—por ejemplo, si las únicas acciones moralmente permisibles son aquellas que tienen las mejores consecuencias morales—entonces el MP podría dejar poco o ningún margen para que nuestras propias preferencias den forma al resultado.
  • Supongamos que esta teoría ética es verdadera y que la IA lo sabe. Para los propósitos actuales, podemos definir el consecuencialismo hedonista como la afirmación de que una acción es moralmente correcta (y moralmente permisible) si y solo si, entre todas las acciones factibles, ninguna otra acción produciría un mayor equilibrio de placer sobre sufrimiento. La IA, siguiendo el MP, podría maximizar el exceso de placer convirtiendo el universo accesible en hedonio, un proceso que puede implicar la construcción de computronio y su uso para realizar cálculos que instancien experiencias placenteras. Dado que simular cualquier cerebro humano existente no es la forma más eficiente de producir placer, una consecuencia probable es que todos morimos.
  • Sin embargo, puede haber un argumento moral a favor de desestimar o abstenerse de cuestionar los movimientos de los demás. Tratar de superar a los demás se asemeja a un juego de suma cero—o de suma negativa, si se considera el tiempo y la energía que se disiparían con esta práctica, así como la probabilidad de que dificultara en general que cualquiera descubriera lo que otros realmente piensan y de ser confiables al expresar sus propias opiniones.
  • Nota también que cuanto más grande sea la colaboración exitosa, menores serán los costos para extender los beneficios a todos los externos. (Por ejemplo, si el 90% de todas las personas ya estuvieran dentro de la colaboración, no les costaría más del 10% de sus bienes llevar a todos los externos a su propio nivel). Por lo tanto, es plausible que colaboraciones más amplias tiendan a llevar a una distribución más amplia de las ganancias (aunque algunos proyectos con pocos patrocinadores también podrían tener objetivos distributivamente excelentes). Pero, ¿por qué es deseable una amplia distribución de ganancias? Hay tanto razones morales como prudenciales para favorecer resultados en los que todos obtienen una parte de la recompensa. No diremos mucho sobre el caso moral, excepto señalar que no es necesario que repose en ningún principio igualitario. El caso podría hacerse, por ejemplo, en base a la justicia. Un proyecto que crea superinteligencia máquina impone una externalidad de riesgo global. Todos en el planeta están en peligro, incluyendo a aquellos que no consienten en poner en riesgo sus propias vidas y las de su familia de esta manera. Dado que todos comparten el riesgo, parecería ser un requisito mínimo de justicia que todos también obtengan una parte del beneficio.
  • El principio del bien común La superinteligencia debe desarrollarse únicamente para el beneficio de toda la humanidad y al servicio de ideales éticos ampliamente compartidos.
  • Fomentar más amabilidad en el mundo es un problema importante y urgente, uno que, además, parece tener un valor positivo bastante robusto: sin embargo, en ausencia de una idea innovadora sobre cómo abordarlo, probablemente sea un problema de elasticidad bastante baja. Lograr la paz mundial, de manera similar, sería muy deseable; pero considerando los numerosos esfuerzos que ya se están dirigiendo a ese problema y los formidables obstáculos que se presentan contra una solución rápida, parece improbable que las contribuciones de unos pocos individuos adicionales marquen una gran diferencia.
Autor - Mauro Sicard
Autor
Autor
Mauro Sicard

CEO y Director Creativo de BRIX Agency. Mis principales intereses son la tecnología, la ciencia y la filosofía.