Simulador de Ecosistemas utilizando Modelos Grandes de Lenguaje (LLM)

Spectacled caiman Foto: Bernard Gagnon

Simulador de Ecosistemas utilizando Modelos Grandes de Lenguaje (LLM)

Resumen

Ilustración conceptual del simulador de ecosistemas con agentes y modelos de lenguaje

Este proyecto regional desarrolla un simulador de ecosistemas donde agentes con distintos roles aprenden a sobrevivir, competir y adaptarse dentro de un entorno compartido. La propuesta combina aprendizaje por refuerzo profundo con Modelos Grandes de Lenguaje (LLM) para estudiar cómo emergen estrategias de búsqueda de alimento, evasión, depredación y toma de decisiones en escenarios ecológicos dinámicos.

La primera fase se concentra en un entorno 2D con múltiples agentes, recursos y reglas de interacción. Sobre esa base se entrena a herbívoros y depredadores para observar si aprenden comportamientos funcionales, medir su desempeño a lo largo de miles de episodios y documentar qué patrones aparecen de manera espontánea a partir de la experiencia.

Además de su valor como plataforma experimental en inteligencia artificial, el simulador busca convertirse en una herramienta útil para explorar dinámicas ecológicas, comunicación entre agentes y futuras integraciones con entornos tridimensionales.

2000 episodios analizados en la fase actual

350 pasos por episodio para evaluar supervivencia

2 roles principales: herbívoros y depredadores

2D entorno inicial con proyección futura a 3D

Arquitectura de trabajo

1. Entorno

Se construye un ecosistema simplificado con agentes, alimento, agua y reglas de interacción para permitir experimentación controlada.

2. Aprendizaje

Los agentes entrenan estrategias de supervivencia mediante aprendizaje por refuerzo profundo, ajustando su comportamiento a partir de recompensas.

3. Interpretación

Los LLM aportan una capa futura de razonamiento, explicación y comunicación natural para describir por qué los agentes actúan como lo hacen.

4. Escalamiento

La hoja de ruta contempla explorar una versión 3D con Minecraft y MineRL para evaluar interacciones más complejas.

Comportamientos emergentes observados

Entorno Godot

Búsqueda de alimento

En una de las escenas compartidas se observa a un chancho de monte en el instante previo a comer, mostrando que el agente ya reconoce el recurso y ejecuta una acción orientada a su supervivencia.

Agentes en Godot, con un chancho a punto de comer y jaguares aprendiendo a cazar

Imagen 1: agentes en Godot, chancho a punto de comer y jaguares aprendiendo a cazar Sugerencia de archivo: 01-godot-comida-caza.jpg

Entorno Godot

Evasión de depredadores

Otra visualización muestra cómo los chanchos empiezan a modificar su movimiento para alejarse de los depredadores, señal de que el entrenamiento está generando respuestas adaptativas más allá del movimiento aleatorio.

Imagen 2: chanchos aprendiendo a alejarse de los depredadores Sugerencia de archivo: 02-godot-evasion-depredadores.jpg

Entorno Godot

Aprendizaje simultáneo

En una tercera escena se combinan ambos procesos: mientras unos agentes mejoran su capacidad para encontrar comida, otros aprenden a evitar amenazas dentro del mismo entorno compartido.

Imagen 3: búsqueda de comida y evasión de depredadores al mismo tiempo Sugerencia de archivo: 03-godot-comportamientos-juntos.jpg

Métricas y hallazgos preliminares

Rendimiento global

Progreso sostenido

El resumen de entrenamiento a lo largo de 2000 episodios evidencia una mejora clara en el rendimiento de los agentes, indicando que el sistema sí está aprendiendo políticas más útiles con el tiempo.

Imagen 4: resumen del progreso durante 2000 episodios Sugerencia de archivo: 04-progreso-2000-episodios.jpg

Retorno

Recompensas diferenciadas por rol

La comparación de retornos muestra trayectorias distintas entre herbívoros y depredadores. Las curvas sugieren que ambos grupos descubren estrategias diferentes para maximizar sus recompensas dentro del ecosistema.

Retorno de cada agente, con líneas punteadas para herbívoros y rectas para depredadores

Imagen 5: retorno de cada agente, líneas punteadas para herbívoros y rectas para depredadores Sugerencia de archivo: 05-retorno-por-agente.jpg

Supervivencia

Límite actual del entorno

La supervivencia por rol se mantiene lejos de los 350 pasos completos en todos los episodios, lo que deja claro que el entorno sigue siendo exigente y que aún hay espacio para mejorar las políticas aprendidas.

Imagen 6: métricas por rol con supervivencia diferenciada Sugerencia de archivo: 06-supervivencia-por-rol.jpg

Duración

Mayor resistencia con el entrenamiento

La longitud de los episodios por agente permite observar cuánto tiempo logra sostenerse cada individuo antes de morir. Esta métrica ayuda a distinguir aprendizaje real de mejoras aparentes solo en recompensa.

Imagen 7: longitud de cada agente a lo largo de los episodios Sugerencia de archivo: 07-longitud-por-agente.jpg

Causas de muerte

Cambio de presión ecológica

Los herbívoros comienzan muriendo principalmente por hambre o sed, pero luego aumenta la mortalidad por depredación. En los depredadores ocurre lo contrario: la falta de agua termina siendo un problema más importante que la falta de alimento.

Imagen 8: causas de muerte por rol Sugerencia de archivo: 08-causas-de-muerte.jpg

Recursos

Ventaja alimentaria de depredadores

El promedio de recursos obtenidos por rol sugiere que los depredadores consiguen alimento con mayor facilidad, aunque casi no consumen agua, lo cual coincide con sus patrones posteriores de mortalidad.

Imagen 9: promedio de recursos obtenidos por rol Sugerencia de archivo: 09-recursos-por-rol.jpg

Ataques

Umbral de activación táctica

A partir de aproximadamente el episodio 1100 aumenta la cantidad de ataques realizados por los depredadores. Este cambio es consistente con la aparición de conductas más activas de caza en las demás métricas.

Imagen 10: cantidad de ataques acertados y fallidos Sugerencia de archivo: 10-ataques-por-episodio.jpg

Lectura general: los resultados preliminares apuntan a que el simulador ya produce comportamientos diferenciados por rol y señales claras de aprendizaje. Más que un simple entorno visual, la plataforma empieza a funcionar como laboratorio para estudiar adaptación, competencia por recursos y comportamientos emergentes en sistemas multiagente.

Siguiente etapa

La proyección del proyecto incluye enriquecer el entorno, refinar las recompensas, incorporar explicaciones generadas por LLM para interpretar decisiones de los agentes y evaluar una expansión a escenarios 3D con Minecraft y MineRL. Esa transición permitiría estudiar interacciones más complejas, navegación espacial avanzada y nuevas formas de cooperación o competencia.