Ploid AI en BixBench: evaluando nuestro agente frente al campo

Los agentes de IA juegan un papel cada vez mayor en la investigación biológica, y su evaluación necesita estar a la altura. BixBench ^[1] aborda esto combinando conjuntos de datos bioinformáticos reales con preguntas de investigación que ponen a prueba si un agente puede realmente analizar datos y producir respuestas correctas en una variedad de dominios.

Ejecutamos Ploid AI tanto en el benchmark completo de BixBench como en el subconjunto curado BixBench-Verified-50 ^[2]. Este artículo presenta nuestros resultados en detalle.

Por qué BixBench

Observamos una tendencia creciente en el campo a evaluar agentes de bioinformática contra BixBench, y creemos que es una buena forma de poner a prueba nuestro agente frente al mercado. Los agentes reciben conjuntos de datos biológicos reales y preguntas de investigación de respuesta corta que abarcan dominios desde genómica hasta proteómica. No solo evalúa conocimiento biológico, sino la capacidad de cargar datos, elegir métodos apropiados, ejecutar pipelines de análisis e interpretar resultados.

Sin embargo, no todos los fallos en BixBench reflejan limitaciones del agente. Algunas preguntas son ambiguas, están subespecificadas o tienen respuestas de referencia incorrectas. Para abordar esto, Phylo curó BixBench-Verified-50 ^[2], un subconjunto de 50 preguntas revisadas por expertos del dominio en cuanto a corrección y claridad. Evaluamos Ploid AI en ambas versiones.

Resultados generales

Agente	BixBench	BixBench-Verified-50
Ploid AI	71.2%	92.0%
K-Dense Web^**	no reportado	90.0%
BIOS^***	64.4%	90.0%
Biomni Lab (2026-02-03)^*	52.2%	88.7%
Edison Analysis^*	42.4%	78.0%
Claude Code (Opus 4.6)^*	39.5%	65.3%
OpenAI Agents SDK (GPT-5.2)^*	38.5%	61.3%

*Los resultados de Claude Code, OpenAI Agents SDK, Edison Analysis y Biomni Lab provienen de [3].

**Los resultados de K-Dense Web provienen de [4] .

***Los resultados de BIOS provienen de [5] (BixBench-Verified-50) y [6] (BixBench completo).

K-Dense Web no reporta una puntuación en el benchmark completo de BixBench; solo están disponibles los resultados de BixBench-Verified-50.

Comparación de precisión de agentes en BixBench y BixBench-Verified-50

Ploid AI alcanza un 71.2% en el BixBench completo y un 92.0% en el subconjunto verificado, liderando tanto entre agentes generalistas como especializados en ambos benchmarks. K-Dense Web ^[4] y BIOS ^[5] también reportan resultados sólidos en el subconjunto verificado (90.0% cada uno). BIOS también reporta un 64.4% en el benchmark completo de BixBench ^[6], mientras que K-Dense Web no publica una puntuación en el benchmark completo en publicaciones recientes.

Nota sobre la modalidad de evaluación

Todos los resultados reportados utilizan evaluación basada en preguntas de opción múltiple (MCQ) sin opción de abstención. Esta modalidad elimina la ambigüedad introducida por desajustes de formato, diferencias de redondeo y la incertidumbre inherente a la calificación de respuestas basada en LLM.

BixBench-Verified-50: resultados por área

Precisión total: 92.0% en 50 tareas verificadas.

Precisión por área temática en BixBench-Verified-50

Área	Tareas	Precisión	Tiempo Medio de Respuesta (s)	Coste Medio ($)
Resistencia Antimicrobiana	2	100.0%	251.35	0.3059
Análisis de Expresión Diferencial	14	92.9%	403.94	0.4040
Epigenómica	3	100.0%	35.68	0.1121
Genómica Funcional	4	50.0%	70.49	0.1894
Análisis de Variantes Genómicas	4	100.0%	118.45	0.3781
Genómica	20	95.0%	254.36	0.4670
Imagen	4	100.0%	72.68	0.1950
Machine Learning e IA	1	100.0%	37.83	0.1029
Otros	2	100.0%	35.86	0.1097
Filogenética	1	100.0%	417.23	0.3094
Filogenética y Análisis Evolutivo	13	92.3%	284.12	0.5312
Proteómica	2	100.0%	31.57	0.1085
RNA-seq	16	93.8%	353.75	0.3723
Análisis de SNPs	2	100.0%	251.35	0.3059
Análisis de Secuencias	9	88.9%	147.58	0.2354
Transcriptómica	18	83.3%	328.16	0.3665
Secuenciación de Genoma Completo (WGS)	14	92.9%	324.90	0.5291

Ploid AI alcanza más del 90% de precisión en 14 de las 17 áreas temáticas. Las categorías más desafiantes son Genómica Funcional (50.0%) y Transcriptómica (83.3%), que frecuentemente involucran flujos de trabajo analíticos de múltiples pasos donde el benchmark espera elecciones metodológicas específicas entre varias alternativas válidas.

BixBench completo: resultados por área

Precisión total: 71.2% en 205 tareas.

Precisión por área temática en BixBench completo

Área	Tareas	Precisión	Tiempo Medio de Respuesta (s)	Coste Medio ($)
Resistencia Antimicrobiana	6	100.0%	550.64	0.6839
Análisis de Expresión Diferencial	67	61.2%	501.97	0.5689
Epigenómica	12	75.0%	84.83	0.2189
Genómica Funcional	10	50.0%	460.87	0.4948
Análisis de Variantes Genómicas	16	50.0%	157.68	0.4742
Genómica	74	77.0%	272.18	0.6059
Imagen	21	90.5%	44.74	0.1352
Ómica Integrativa	2	100.0%	72.27	0.2456
Machine Learning e IA	5	100.0%	415.86	0.4325
Biología de Redes	4	25.0%	837.72	0.7370
Otros	25	84.0%	153.51	0.4250
Filogenética	4	50.0%	206.86	0.2485
Filogenética y Análisis Evolutivo	47	85.1%	286.78	0.6877
Proteómica	4	100.0%	31.52	0.1094
RNA-seq	69	60.9%	500.10	0.5747
Análisis de SNPs	6	100.0%	550.64	0.6839
Análisis de Secuencias	30	56.7%	418.52	0.4541
Análisis de Célula Única	2	100.0%	511.43	0.1698
Transcriptómica	69	56.5%	507.49	0.5929
Secuenciación de Genoma Completo (WGS)	48	83.3%	358.65	0.7413

En el benchmark completo, el rendimiento se mantiene sólido en la mayoría de categorías. Las áreas con puntuaciones más bajas (Análisis de Expresión Diferencial, 61.2%; RNA-seq, 60.9%; Transcriptómica, 56.5%; Análisis de Secuencias, 56.7%), se correlacionan con dominios donde BixBench contiene una mayor proporción de preguntas ambiguas o subespecificadas, como se documentó en el proceso de curación de BixBench-Verified-50 ^[2]. El salto de la precisión completa a la verificada en estas categorías confirma que una fracción significativa de los "fallos" proviene de problemas de calidad del benchmark en lugar de limitaciones del agente.

Qué nos dice la diferencia entre completo y verificado

La diferencia entre BixBench (71.2%) y BixBench-Verified-50 (92.0%) es informativa. En todos los agentes de la comparación, las puntuaciones aumentan sustancialmente en el subconjunto verificado. Este patrón confirma lo que Phylo identificó ^[3]: una porción significativa de los fallos en el benchmark original proviene de preguntas ambiguas, contexto subespecificado o verdades de referencia incorrectas, no de brechas genuinas en las capacidades del agente.

Para Ploid AI, la mejora de 20.8 puntos porcentuales en el subconjunto verificado es una de las mayores en la comparación, lo que demuestra que nuestro agente rinde bien incluso en preguntas subespecificadas, con un incremento de rendimiento sustancialmente superior al de otros agentes cuando se evalúa en tareas curadas y verificadas por expertos.

Referencias

[1] BixBench, FutureHouse. Un benchmark para agentes de bioinformática. huggingface.co/datasets/futurehouse/BixBench

[2] BixBench-Verified-50, Phylo. Un subconjunto curado de 50 preguntas de BixBench verificadas por expertos. huggingface.co/datasets/phylobio/BixBench-Verified-50

[3] Phylo. Evaluating AI Agents in Biology. Febrero 2026. phylo.bio/blog/evaluating-ai-agents-in-biology

[4] K-Dense. K-Dense Web Scores 90.0% on BixBench-Verified-50. Marzo 2026. k-dense.ai/blog/bixbench-verified-50

[5] Bio Protocol AI. BixBench Verified 50: Evaluating BIOS Biological Agents. Marzo 2026. ai.bio.xyz/blog/bixbench-verified-50-evaluating-bios-biological-agents

[6] Bio Protocol AI. BIOS Benchmark Results. Abril 2026. bio-xyz.github.io/bio-benchmark