Ploid AI en BixBench: evaluando nuestro agente frente al campo
Los agentes de IA juegan un papel cada vez mayor en la investigación biológica, y su evaluación necesita estar a la altura. BixBench [1] aborda esto combinando conjuntos de datos bioinformáticos reales con preguntas de investigación que ponen a prueba si un agente puede realmente analizar datos y producir respuestas correctas en una variedad de dominios.
Ejecutamos Ploid AI tanto en el benchmark completo de BixBench como en el subconjunto curado BixBench-Verified-50 [2]. Este artículo presenta nuestros resultados en detalle.
Por qué BixBench
Observamos una tendencia creciente en el campo a evaluar agentes de bioinformática contra BixBench, y creemos que es una buena forma de poner a prueba nuestro agente frente al mercado. Los agentes reciben conjuntos de datos biológicos reales y preguntas de investigación de respuesta corta que abarcan dominios desde genómica hasta proteómica. No solo evalúa conocimiento biológico, sino la capacidad de cargar datos, elegir métodos apropiados, ejecutar pipelines de análisis e interpretar resultados.
Sin embargo, no todos los fallos en BixBench reflejan limitaciones del agente. Algunas preguntas son ambiguas, están subespecificadas o tienen respuestas de referencia incorrectas. Para abordar esto, Phylo curó BixBench-Verified-50 [2], un subconjunto de 50 preguntas revisadas por expertos del dominio en cuanto a corrección y claridad. Evaluamos Ploid AI en ambas versiones.
Resultados generales
| Agente | BixBench | BixBench-Verified-50 |
|---|---|---|
| Ploid AI | 71.2% | 92.0% |
| K-Dense Web** | no reportado | 90.0% |
| BIOS*** | 64.4% | 90.0% |
| Biomni Lab (2026-02-03)* | 52.2% | 88.7% |
| Edison Analysis* | 42.4% | 78.0% |
| Claude Code (Opus 4.6)* | 39.5% | 65.3% |
| OpenAI Agents SDK (GPT-5.2)* | 38.5% | 61.3% |
*Los resultados de Claude Code, OpenAI Agents SDK, Edison Analysis y Biomni Lab provienen de [3].
**Los resultados de K-Dense Web provienen de [4] .
K-Dense Web no reporta una puntuación en el benchmark completo de BixBench; solo están disponibles los resultados de BixBench-Verified-50.
Ploid AI alcanza un 71.2% en el BixBench completo y un 92.0% en el subconjunto verificado, liderando tanto entre agentes generalistas como especializados en ambos benchmarks. K-Dense Web [4] y BIOS [5] también reportan resultados sólidos en el subconjunto verificado (90.0% cada uno). BIOS también reporta un 64.4% en el benchmark completo de BixBench [6], mientras que K-Dense Web no publica una puntuación en el benchmark completo en publicaciones recientes.
Todos los resultados reportados utilizan evaluación basada en preguntas de opción múltiple (MCQ) sin opción de abstención. Esta modalidad elimina la ambigüedad introducida por desajustes de formato, diferencias de redondeo y la incertidumbre inherente a la calificación de respuestas basada en LLM.
BixBench-Verified-50: resultados por área
Precisión total: 92.0% en 50 tareas verificadas.
| Área | Tareas | Precisión | Tiempo Medio de Respuesta (s) | Coste Medio ($) |
|---|---|---|---|---|
| Resistencia Antimicrobiana | 2 | 100.0% | 251.35 | 0.3059 |
| Análisis de Expresión Diferencial | 14 | 92.9% | 403.94 | 0.4040 |
| Epigenómica | 3 | 100.0% | 35.68 | 0.1121 |
| Genómica Funcional | 4 | 50.0% | 70.49 | 0.1894 |
| Análisis de Variantes Genómicas | 4 | 100.0% | 118.45 | 0.3781 |
| Genómica | 20 | 95.0% | 254.36 | 0.4670 |
| Imagen | 4 | 100.0% | 72.68 | 0.1950 |
| Machine Learning e IA | 1 | 100.0% | 37.83 | 0.1029 |
| Otros | 2 | 100.0% | 35.86 | 0.1097 |
| Filogenética | 1 | 100.0% | 417.23 | 0.3094 |
| Filogenética y Análisis Evolutivo | 13 | 92.3% | 284.12 | 0.5312 |
| Proteómica | 2 | 100.0% | 31.57 | 0.1085 |
| RNA-seq | 16 | 93.8% | 353.75 | 0.3723 |
| Análisis de SNPs | 2 | 100.0% | 251.35 | 0.3059 |
| Análisis de Secuencias | 9 | 88.9% | 147.58 | 0.2354 |
| Transcriptómica | 18 | 83.3% | 328.16 | 0.3665 |
| Secuenciación de Genoma Completo (WGS) | 14 | 92.9% | 324.90 | 0.5291 |
Ploid AI alcanza más del 90% de precisión en 14 de las 17 áreas temáticas. Las categorías más desafiantes son Genómica Funcional (50.0%) y Transcriptómica (83.3%), que frecuentemente involucran flujos de trabajo analíticos de múltiples pasos donde el benchmark espera elecciones metodológicas específicas entre varias alternativas válidas.
BixBench completo: resultados por área
Precisión total: 71.2% en 205 tareas.
| Área | Tareas | Precisión | Tiempo Medio de Respuesta (s) | Coste Medio ($) |
|---|---|---|---|---|
| Resistencia Antimicrobiana | 6 | 100.0% | 550.64 | 0.6839 |
| Análisis de Expresión Diferencial | 67 | 61.2% | 501.97 | 0.5689 |
| Epigenómica | 12 | 75.0% | 84.83 | 0.2189 |
| Genómica Funcional | 10 | 50.0% | 460.87 | 0.4948 |
| Análisis de Variantes Genómicas | 16 | 50.0% | 157.68 | 0.4742 |
| Genómica | 74 | 77.0% | 272.18 | 0.6059 |
| Imagen | 21 | 90.5% | 44.74 | 0.1352 |
| Ómica Integrativa | 2 | 100.0% | 72.27 | 0.2456 |
| Machine Learning e IA | 5 | 100.0% | 415.86 | 0.4325 |
| Biología de Redes | 4 | 25.0% | 837.72 | 0.7370 |
| Otros | 25 | 84.0% | 153.51 | 0.4250 |
| Filogenética | 4 | 50.0% | 206.86 | 0.2485 |
| Filogenética y Análisis Evolutivo | 47 | 85.1% | 286.78 | 0.6877 |
| Proteómica | 4 | 100.0% | 31.52 | 0.1094 |
| RNA-seq | 69 | 60.9% | 500.10 | 0.5747 |
| Análisis de SNPs | 6 | 100.0% | 550.64 | 0.6839 |
| Análisis de Secuencias | 30 | 56.7% | 418.52 | 0.4541 |
| Análisis de Célula Única | 2 | 100.0% | 511.43 | 0.1698 |
| Transcriptómica | 69 | 56.5% | 507.49 | 0.5929 |
| Secuenciación de Genoma Completo (WGS) | 48 | 83.3% | 358.65 | 0.7413 |
En el benchmark completo, el rendimiento se mantiene sólido en la mayoría de categorías. Las áreas con puntuaciones más bajas (Análisis de Expresión Diferencial, 61.2%; RNA-seq, 60.9%; Transcriptómica, 56.5%; Análisis de Secuencias, 56.7%), se correlacionan con dominios donde BixBench contiene una mayor proporción de preguntas ambiguas o subespecificadas, como se documentó en el proceso de curación de BixBench-Verified-50 [2]. El salto de la precisión completa a la verificada en estas categorías confirma que una fracción significativa de los "fallos" proviene de problemas de calidad del benchmark en lugar de limitaciones del agente.
Qué nos dice la diferencia entre completo y verificado
La diferencia entre BixBench (71.2%) y BixBench-Verified-50 (92.0%) es informativa. En todos los agentes de la comparación, las puntuaciones aumentan sustancialmente en el subconjunto verificado. Este patrón confirma lo que Phylo identificó [3]: una porción significativa de los fallos en el benchmark original proviene de preguntas ambiguas, contexto subespecificado o verdades de referencia incorrectas, no de brechas genuinas en las capacidades del agente.
Para Ploid AI, la mejora de 20.8 puntos porcentuales en el subconjunto verificado es una de las mayores en la comparación, lo que demuestra que nuestro agente rinde bien incluso en preguntas subespecificadas, con un incremento de rendimiento sustancialmente superior al de otros agentes cuando se evalúa en tareas curadas y verificadas por expertos.
Referencias
[1] BixBench, FutureHouse. Un benchmark para agentes de bioinformática. huggingface.co/datasets/futurehouse/BixBench
[2] BixBench-Verified-50, Phylo. Un subconjunto curado de 50 preguntas de BixBench verificadas por expertos. huggingface.co/datasets/phylobio/BixBench-Verified-50
[3] Phylo. Evaluating AI Agents in Biology. Febrero 2026. phylo.bio/blog/evaluating-ai-agents-in-biology
[4] K-Dense. K-Dense Web Scores 90.0% on BixBench-Verified-50. Marzo 2026. k-dense.ai/blog/bixbench-verified-50
[5] Bio Protocol AI. BixBench Verified 50: Evaluating BIOS Biological Agents. Marzo 2026. ai.bio.xyz/blog/bixbench-verified-50-evaluating-bios-biological-agents
[6] Bio Protocol AI. BIOS Benchmark Results. Abril 2026. bio-xyz.github.io/bio-benchmark