En el artículo anterior de la serie donde exploramos el cruce entre la ciencia y la IA, a través del lente de la ciencia agéntica y el reciente hackathon liderado por Bio Protocol, abarcamos cómo la inteligencia artificial no es solo una herramienta para procesar datos, sino una ayuda potencial en el descubrimiento. De hecho, el hackathon permitió trabajaro sobre el plugin desarrollado por su equipo que asiste en la creación de hipótesis científicas, extrayendo información clave de artículos de investigación para generar nuevas líneas de indagación.
Sin embargo, si bien las máquinas son hábiles para detectar patrones y generar un vasto número de hipótesis, el verdadero valor de la IA no reside en la cantidad abrumadora de ideas que pueden proporcionar, muchas de ellas pueden llegar a ser ilógicas o irrelevantes.
Como señala Barend Mons, un experto en el campo y uno de los fundadores de los principios FAIR para la Ciencia Abierta y el concepto de Administración de Datos (Data Stewardship), el problema no es la falta de ideas, sino la alucinación de la IA, que produce correlaciones sin sentido práctico para los científicos experimentales. Probar millones de hipótesis es ineficiente, costoso y humanamente imposible.
El siguiente paso está en mejorar la calidad de la información que consume la IA y en filtrar inteligentemente la información que produce.
La ciencia moderna se enfrenta a varios obstáculos que la IA, con el enfoque correcto, puede ayudar a superar:
La cantidad de información científica que crece a un ritmo abrumador.
Gran parte de los datos valiosos están atrapados en formatos no legibles por máquinas (datos ocultos).
Problemas con datos sensibles de individuos, especies en peligro o recursos naturales (privacidad).
Comprensión Limitada de la IA, al las máquinas realizar cálculos complejos y generar texto, pero carecer de una verdadera comprensión contextual.
Para abordar esto, se enfatiza la evolución de los principios de datos FAIR que usamos normalmente (Encontrable, Accessible, Interoperable, Reusable), hacia Totalmente Listos para IA (Fully AI Ready). Esto significa que los datos deben ser comprensibles y utilizables de forma autónoma por las máquinas, sin ambigüedades y con su procedencia clara.
Herramientas como las nanopublicaciones (afirmaciones verificables) y los nollets (agrupaciones de nanopublicaciones) son clave para organizar y rastrear el conocimiento.
Datos de Entrada de Alta Calidad
En lugar de textos científicos desestructurados y potencialmente desactualizados, la IA necesita grafos de conocimiento curados. Imagina una base de datos de hechos científicos verificados, bien organizados y con una trazabilidad clara de su origen. Esto proporciona a la IA una comprensión estructurada y fiable del conocimiento existente.
Filtrado Inteligente de Salida
Se requiere un filtro inteligente que restrinja las sugerencias a ideas para que sean novedosas aportando algo nuevo al conocimiento, lógicas y significativas dentro del contexto científico y comprobables experimentalmente, evitando sugerencias físicamente imposibles o irrealizables.
Slava Tykhonov, ingeniero de grafos de conocimiento de la organización neerlandesa DANS, complementa esta visión teórica mostrando cómo se implementa en la práctica. Su organización es un gran contribuyente a Dataverse, una plataforma que funciona como una biblioteca en línea para conjuntos de datos científicos, promoviendo que sean FAIR y Fully AI Ready.
La innovación clave es la integración de Grafos de Conocimiento en Dataverse.
Imagina un mapa interconectado donde cada concepto científico (gen, proteína, enfermedad) es un nodo y las relaciones entre ellos son las conexiones. Dataverse puede generar estos grafos a partir de los metadatos de los conjuntos de datos, permitiendo consultas rápidas sobre millones de conexiones.
¿Cómo interactúa la IA con estos grafos?
En lugar de que los Grandes Modelos de Lenguaje (LLMs) respondan preguntas solo con su información de entrenamiento que puede ser inconsistente, se consultan estos grafos de conocimiento estructurados y verificados. La IA usa entonces sus habilidades lingüísticas para formular respuestas coherentes basadas en hechos fiables.
Crosswalk: El "Lenguaje Común" para Datos de IA. Un nuevo estándar que permite describir conjuntos de datos de Dataverse (y otras plataformas como Kaggle o Hugging Face) de manera que cualquier herramienta o marco de IA pueda entenderlos directamente. Esto facilita el entrenamiento de modelos de IA con miles de conjuntos de datos de diversas fuentes, abriendo la puerta a nuevos análisis y descubrimientos interconectados.
Slava destaca otras herramientas que están emergiendo para potenciar esta simbiosis entre ciencia y IA.
Resolución Semántica: Herramientas que conectan texto libre o descripciones ambiguas a ontologías (diccionarios de términos científicos con definiciones claras), ayudando a la IA a entender el significado exacto de los datos.
Conversión de Texto a Grafo: Capacidad de transformar frases biológicas en fragmentos de grafo de conocimiento legibles por IA.
Agentes de IA: Programas autónomos que pueden interactuar con plataformas como Dataverse para buscar, extraer y procesar información relevante.
Herramientas para Datos Propios: Aplicaciones como Mark It Down de Microsoft (para hacer documentos legibles por IA) o Ghostwriter (IA local que actúa como base de conocimiento personal con un grafo subyacente), permitiendo a los científicos consultar sus propios datos y notas.
En definitiva, el verdadero potencial de la IA en la ciencia no reside en la mera acumulación de datos, sino en la capacidad de transformar esa avalancha de información en conocimiento accionable y descubrimientos validables.
Iniciativas como los hackatones que construyen estas herramientas son fundamentales para crear el "filtro inteligente" que la ciencia del futuro necesita, permitiendo a los investigadores centrarse en lo que realmente importa: la experimentación y la innovación.
*Este artículo está basado en las charlas de Bio Protocol sobre ciencia agéntica
Over 400 subscribers