¿Está la IA a Punto de Superar a los Humanos? Según un informe, Sí 🤯

Written by Alejandro Canedo Vélez



25/04/2024



Al parecer, las IA está alcanzando y superando habilidades humanas, haciendo que ya no tenga sentido compararlas con nosotros.

La inteligencia artificial (IA) ha llegado a un punto de inflexión según el último AI Index Report 2024 de Stanford University. Este estudio no solo de enfoca en los avances significativos de la IA y el estado del arte, sino también cómo estos progresos están remodelando las comparaciones entre las capacidades humanas e inteligencia artificial. A continuación, exploraremos los puntos destacados de este informe y sus implicaciones para el futuro de la IA.

AI-vs-humans-benchmarking-trends-1024x691

En 2019, la puntuación promedio de los modelos de IA era de poco más del 30%, mientras que la puntuación base humana estaba en 89.8%. Para 2024, el modelo Gemini Ultra se convirtió en el primero en superar esta base con un puntaje de 90.04%,

Benchmaks irrelevantes

El informe de Stanford proporciona una visión comprensiva sobre el estado y las tendencias actuales del desarrollo de la IA. Se señala que los modelos de IA están mejorando a un ritmo tan acelerado que las referencias comparativas (benchmarks) que utilizamos para medir su desempeño se están volviendo cada vez menos relevantes. Muchos de estos benchmarks comparan el desempeño de los modelos de IA con el rendimiento humano en tareas específicas. Por ejemplo, el benchmark de Comprensión del Lenguaje Multitarea Masiva (MMLU) evalúa a los modelos de lenguaje de IA en 57 materias académicas, desde matemáticas hasta ética, usando preguntas de opción múltiple.

Subiendo la marca

Desde su establecimiento en 2019, el MMLU ha sido una referencia clave; sin embargo, los avances recientes en IA han comenzado a desafiar su relevancia. En 2019, la puntuación promedio de los modelos de IA era de poco más del 30%, mientras que la puntuación base humana estaba en 89.8%. Para 2024, el modelo Gemini Ultra se convirtió en el primero en superar esta base con un puntaje de 90.04%, evidenciando que los sistemas de IA superan regularmente el desempeño humano en benchmarks estándar. Este fenómeno indica la necesidad de reemplazar el MMLU y otros benchmarks similares para reflejar mejor las capacidades avanzadas de la IA.

Además de superar los benchmarks establecidos, los investigadores están desarrollando pruebas más desafiantes como el Benchmark de Preguntas y Respuestas a Nivel de Posgrado a Prueba de Google (GPQA). Este nuevo benchmark está diseñado para evaluar modelos de IA contra individuos altamente capacitados en lugar de la inteligencia humana promedio. Consiste en 400 preguntas difíciles de opción múltiple a nivel de posgrado, donde expertos con o en proceso de obtener un doctorado responden correctamente el 65% de las veces. Este nivel de dificultad es significativo, ya que incluso validadores no expertos altamente capacitados alcanzan solo un 34% de precisión en preguntas fuera de su campo de estudio, después de pasar más de 30 minutos con acceso ilimitado a internet para investigar las respuestas.

La necesidad de benchmarks más grandes y desafiantes es evidente, como lo demuestra el rendimiento del modelo Claude 3 de Anthropic, que logró casi un 60% en el GPQA con técnicas de estimulación de cinco disparos. Estos avances resaltan la capacidad de la IA para manejar tareas cada vez más complejas y su potencial para superar incluso a los humanos más capacitados en tareas cognitivas específicas.

Destacados

Avance de la IA: Según el informe, la inteligencia artificial está evolucionando a un ritmo tan acelerado que las comparaciones con las habilidades humanas están volviéndose obsoletas. Los desarrollos recientes sugieren que la IA puede no solo igualar, sino superar las capacidades humanas en varios aspectos cognitivos y técnicos.
Superación de Referencias Humanas: El AI Index revela que modelos de IA han superado los estándares humanos en pruebas de referencia como MMLU (MultiModal Language Understanding), ImageNet (reconocimiento de imágenes), SQuAD (Stanford Question Answering Dataset) y SuperGLUE (General Language Understanding Evaluation).
Desarrollo de Nuevas Pruebas: Frente a estos avances, se hace necesario el desarrollo de pruebas más desafiantes, como el GPQA (General Purpose Question Answering), diseñadas para medir la competencia de los modelos de IA en contextos más complejos y contra individuos altamente calificados.
Evaluaciones Humanas y Seguridad: El informe subraya que, pese a su avance, la IA aún enfrenta dificultades significativas con el manejo de hechos, el razonamiento complejo y la explicación de conclusiones. Propone que las evaluaciones realizadas por humanos podrían ofrecer una medida más efectiva del rendimiento y la seguridad de la IA.

Aprende más sobre la Superación de Capacidades Humanas por la IA

Para aquellos interesados en profundizar más sobre cómo la inteligencia artificial está redefiniendo los límites de lo que puede alcanzar en comparación con las habilidades humanas, pueden explorar los siguientes recursos:

Fuente Original del Informe: El AI Index 2024 de Stanford University, que se puede consultar directamente aquí, ofrece un análisis exhaustivo y detallado sobre los avances recientes de la IA y las implicaciones de estos desarrollos.
Estudios Adicionales y Discusiones Académicas: Artículos y debates disponibles en plataformas académicas como Google Scholar o ResearchGate que discuten las pruebas MMLU, ImageNet, SQuAD y SuperGLUE, así como los desafíos emergentes en la evaluación de IA.

¿Por qué es importante?

Implicaciones Éticas y Sociales: El avance de la IA más allá de las capacidades humanas genera interrogantes éticos sobre su uso y control.
Necesidad de Nuevas Métricas: La superación de benchmarks humanos exige la creación de nuevos estándares que puedan medir adecuadamente las habilidades avanzadas de la IA.
Futuro del Trabajo y la Educación: Con la IA superando habilidades humanas en áreas clave, surge la necesidad de reevaluar el enfoque y contenido de la educación y la formación profesional.

¿Cuánto tiempo pasará antes que las IA nos superen en todos los indicadores? ¿Qué atributos humanos nunca podrá superar la IA?

GRATISConsigue tu curso online.

Últimos prompts

Organizar correos
Análisis de competencia
Control de gastos
Generador de hipótesis
Encriptador de emojis

Últimos Recursos

Firefly (imágenes)
Suno (música)
GeyHen (humanos digitales
HugginFace (modelos IA)

Más noticias IA

El creciente uso de la IA generativa entre los abogados

Jun 12, 2024

La adopción de herramientas de inteligencia artificial generativa (GenAI) está transformando la práctica legal interna, con aplicaciones que van desde la redacción de contratos hasta la revisión de documentos legales.

Elon Musk amenaza con prohibir dispositivos Apple en sus empresas

Jun 10, 2024

Elon Musk ha lanzado una advertencia a Apple tras su anuncio de integrar ChatGPT en sus dispositivos. Musk amenaza con prohibir el uso de iPhones y otros productos Apple en sus empresas, acusando a la empresa de Cupertino de una «violación de seguridad inaceptable».

Ex empleados de OpenAI publican Carta Abierta Exigiendo ‘Derecho a Advertir’

Jun 5, 2024

Un grupo de ex empleados de OpenAI y Google DeepMind han lanzado una advertencia: la industria de la inteligencia artificial está en camino de descontrol y se necesitan medidas urgentes para proteger a la humanidad.