Ploid AI en BixBench: evaluando nuestro agente frente al campo

7 min de lecturaPloid· Founding Team
Agentes de IABenchmarksBioinformática
Ploid AI en BixBench: evaluando nuestro agente frente al campo

Los agentes de IA juegan un papel cada vez mayor en la investigación biológica, y su evaluación necesita estar a la altura. BixBench [1] aborda esto combinando conjuntos de datos bioinformáticos reales con preguntas de investigación que ponen a prueba si un agente puede realmente analizar datos y producir respuestas correctas en una variedad de dominios.

Ejecutamos Ploid AI tanto en el benchmark completo de BixBench como en el subconjunto curado BixBench-Verified-50 [2]. Este artículo presenta nuestros resultados en detalle.

Por qué BixBench

Observamos una tendencia creciente en el campo a evaluar agentes de bioinformática contra BixBench, y creemos que es una buena forma de poner a prueba nuestro agente frente al mercado. Los agentes reciben conjuntos de datos biológicos reales y preguntas de investigación de respuesta corta que abarcan dominios desde genómica hasta proteómica. No solo evalúa conocimiento biológico, sino la capacidad de cargar datos, elegir métodos apropiados, ejecutar pipelines de análisis e interpretar resultados.

Sin embargo, no todos los fallos en BixBench reflejan limitaciones del agente. Algunas preguntas son ambiguas, están subespecificadas o tienen respuestas de referencia incorrectas. Para abordar esto, Phylo curó BixBench-Verified-50 [2], un subconjunto de 50 preguntas revisadas por expertos del dominio en cuanto a corrección y claridad. Evaluamos Ploid AI en ambas versiones.

Resultados generales

AgenteBixBenchBixBench-Verified-50
Ploid AI71.2%92.0%
K-Dense Web**no reportado90.0%
BIOS***64.4%90.0%
Biomni Lab (2026-02-03)*52.2%88.7%
Edison Analysis*42.4%78.0%
Claude Code (Opus 4.6)*39.5%65.3%
OpenAI Agents SDK (GPT-5.2)*38.5%61.3%

*Los resultados de Claude Code, OpenAI Agents SDK, Edison Analysis y Biomni Lab provienen de [3].

**Los resultados de K-Dense Web provienen de [4] .

***Los resultados de BIOS provienen de [5] (BixBench-Verified-50) y [6] (BixBench completo).

K-Dense Web no reporta una puntuación en el benchmark completo de BixBench; solo están disponibles los resultados de BixBench-Verified-50.

Comparación de precisión de agentes en BixBench y BixBench-Verified-50

Ploid AI alcanza un 71.2% en el BixBench completo y un 92.0% en el subconjunto verificado, liderando tanto entre agentes generalistas como especializados en ambos benchmarks. K-Dense Web [4] y BIOS [5] también reportan resultados sólidos en el subconjunto verificado (90.0% cada uno). BIOS también reporta un 64.4% en el benchmark completo de BixBench [6], mientras que K-Dense Web no publica una puntuación en el benchmark completo en publicaciones recientes.

BixBench-Verified-50: resultados por área

Precisión total: 92.0% en 50 tareas verificadas.

Precisión por área temática en BixBench-Verified-50

ÁreaTareasPrecisiónTiempo Medio de Respuesta (s)Coste Medio ($)
Resistencia Antimicrobiana2100.0%251.350.3059
Análisis de Expresión Diferencial1492.9%403.940.4040
Epigenómica3100.0%35.680.1121
Genómica Funcional450.0%70.490.1894
Análisis de Variantes Genómicas4100.0%118.450.3781
Genómica2095.0%254.360.4670
Imagen4100.0%72.680.1950
Machine Learning e IA1100.0%37.830.1029
Otros2100.0%35.860.1097
Filogenética1100.0%417.230.3094
Filogenética y Análisis Evolutivo1392.3%284.120.5312
Proteómica2100.0%31.570.1085
RNA-seq1693.8%353.750.3723
Análisis de SNPs2100.0%251.350.3059
Análisis de Secuencias988.9%147.580.2354
Transcriptómica1883.3%328.160.3665
Secuenciación de Genoma Completo (WGS)1492.9%324.900.5291

Ploid AI alcanza más del 90% de precisión en 14 de las 17 áreas temáticas. Las categorías más desafiantes son Genómica Funcional (50.0%) y Transcriptómica (83.3%), que frecuentemente involucran flujos de trabajo analíticos de múltiples pasos donde el benchmark espera elecciones metodológicas específicas entre varias alternativas válidas.

BixBench completo: resultados por área

Precisión total: 71.2% en 205 tareas.

Precisión por área temática en BixBench completo

ÁreaTareasPrecisiónTiempo Medio de Respuesta (s)Coste Medio ($)
Resistencia Antimicrobiana6100.0%550.640.6839
Análisis de Expresión Diferencial6761.2%501.970.5689
Epigenómica1275.0%84.830.2189
Genómica Funcional1050.0%460.870.4948
Análisis de Variantes Genómicas1650.0%157.680.4742
Genómica7477.0%272.180.6059
Imagen2190.5%44.740.1352
Ómica Integrativa2100.0%72.270.2456
Machine Learning e IA5100.0%415.860.4325
Biología de Redes425.0%837.720.7370
Otros2584.0%153.510.4250
Filogenética450.0%206.860.2485
Filogenética y Análisis Evolutivo4785.1%286.780.6877
Proteómica4100.0%31.520.1094
RNA-seq6960.9%500.100.5747
Análisis de SNPs6100.0%550.640.6839
Análisis de Secuencias3056.7%418.520.4541
Análisis de Célula Única2100.0%511.430.1698
Transcriptómica6956.5%507.490.5929
Secuenciación de Genoma Completo (WGS)4883.3%358.650.7413

En el benchmark completo, el rendimiento se mantiene sólido en la mayoría de categorías. Las áreas con puntuaciones más bajas (Análisis de Expresión Diferencial, 61.2%; RNA-seq, 60.9%; Transcriptómica, 56.5%; Análisis de Secuencias, 56.7%), se correlacionan con dominios donde BixBench contiene una mayor proporción de preguntas ambiguas o subespecificadas, como se documentó en el proceso de curación de BixBench-Verified-50 [2]. El salto de la precisión completa a la verificada en estas categorías confirma que una fracción significativa de los "fallos" proviene de problemas de calidad del benchmark en lugar de limitaciones del agente.

Qué nos dice la diferencia entre completo y verificado

La diferencia entre BixBench (71.2%) y BixBench-Verified-50 (92.0%) es informativa. En todos los agentes de la comparación, las puntuaciones aumentan sustancialmente en el subconjunto verificado. Este patrón confirma lo que Phylo identificó [3]: una porción significativa de los fallos en el benchmark original proviene de preguntas ambiguas, contexto subespecificado o verdades de referencia incorrectas, no de brechas genuinas en las capacidades del agente.

Para Ploid AI, la mejora de 20.8 puntos porcentuales en el subconjunto verificado es una de las mayores en la comparación, lo que demuestra que nuestro agente rinde bien incluso en preguntas subespecificadas, con un incremento de rendimiento sustancialmente superior al de otros agentes cuando se evalúa en tareas curadas y verificadas por expertos.

Referencias

[1] BixBench, FutureHouse. Un benchmark para agentes de bioinformática. huggingface.co/datasets/futurehouse/BixBench

[2] BixBench-Verified-50, Phylo. Un subconjunto curado de 50 preguntas de BixBench verificadas por expertos. huggingface.co/datasets/phylobio/BixBench-Verified-50

[3] Phylo. Evaluating AI Agents in Biology. Febrero 2026. phylo.bio/blog/evaluating-ai-agents-in-biology

[4] K-Dense. K-Dense Web Scores 90.0% on BixBench-Verified-50. Marzo 2026. k-dense.ai/blog/bixbench-verified-50

[5] Bio Protocol AI. BixBench Verified 50: Evaluating BIOS Biological Agents. Marzo 2026. ai.bio.xyz/blog/bixbench-verified-50-evaluating-bios-biological-agents

[6] Bio Protocol AI. BIOS Benchmark Results. Abril 2026. bio-xyz.github.io/bio-benchmark