¿Preocupado por las alucinaciones de la GenAI? El uso de modelos de lenguaje es una solución imaginativa y demostrada

El año pasado, las "alucinaciones" producidas por la inteligencia artificial generativa volvieron a ser el centro de atención en las noticias.

Scott Zoldi, Director de Analítica de FICO. Foto: FICO. Portal ERP LATAM.

Más recientemente, Bloomberg News señaló que en sus informes anuales de 2024, compañías de Wall Street están advirtiendo a los inversionistas sobre los nuevos riesgos derivados del creciente uso de la inteligencia artificial, incluidas las alucinaciones del software, los problemas de estado de ánimo entre los empleados, el uso por parte de los ciberdelincuentes y el impacto de los cambios legislativos a nivel mundial”.

Mientras tanto, Michael Barr, quien hace poco dejó su cargo de vicepresidente de supervisión de la Reserva Federal de EE.UU. UU., anticipó estas inquietudes en los comentarios espontáneos que realizaron en febrero en el Consejo de Relaciones Exteriores en Estados Unidos, donde afirmó que la presión competitiva en torno a la incorporación de inteligencia artificial generativa podría aumentar los riesgos en los servicios financieros. La presión competitiva “puede llevar a todas las instituciones, incluidas las reguladas, a adoptar un enfoque más agresivo hacia la adopción de GenAI, lo que incrementaría los riesgos de gobernanza, alineación y financieros en torno a la IA”, destacó Barr.

Por eso, en este artículo proporcionaré más contexto sobre las alucinaciones de la GenAI y hablaré acerca de estos modelos de lenguaje enfocados , para ayudar a garantizar que la “edad dorada de la IA” siga siendo brillante.

Las alucinaciones no son una ilusión

Las alucinaciones de la GenAI son, en efecto, problemáticas. Por ejemplo, investigadores de la Universidad de Stanford descubrieron el año pasado que las herramientas de GenAI para propósitos generales, como ChatGPT, tienen una tasa de error de hasta el 82% cuando se utilizan con multas legales. Las herramientas de GenAI diseñadas específicamente para aplicaciones jurídicas son mejores, ya que producen alucinaciones en el 17% de los casos, según otro estudio de Stanford , y no deben emplearse sin revisarse de manera cuidadosa y exhaustiva.

Independientemente de la tasa de alucinaciones, el problema se agrava aún más en cualquier industria cuando el humano consume los resultados de la GenAI. La persona no puede percatarse de la alucinación ni confirmar el resultado, sino actuar directamente en función de éste.

Te puede interesar: El liderazgo determina el impacto de la IA en las empresas

El combustible que aviva el fuego.

Los factores que pueden conducir a las alucinaciones de GenAI incluyen:

El tipo, calidad, cantidad y amplitud de los datos utilizados para el preentrenamiento.
Baja cobertura de datos de preentrenamiento para los tokens y temas clave solicitados. Esto se relaciona con la asociación de palabras y/o grupos de palabras con estadísticas ligadas a una solicitud o uso en una respuesta. Si la cobertura es insuficiente, el modelo de lenguaje de gran tamaño (LLM, por sus siglas en inglés) puede hacer inferencias con base en el “ruido” en lugar de señales claras respaldadas por una cobertura sólida.
Falta de autocontrol en la inferencia de los LLM al no prohibir el uso de ejemplos con baja cobertura de datos de preentrenamiento en las respuestas. El problema surge porque la mayoría de los LLM no consideran si existe cobertura suficiente para formar sus respuestas; en cambio, asumen que la respuesta es estadísticamente válida.
Falta de conocimiento de que la generación aumentada de recuperación (RAG) puede aumentar la tasa de alucinaciones, ya que desensibiliza o desestabiliza las relaciones aprendidas por el modelo fundacional durante su preentrenamiento original. RAG puede sobreenfatizar y alterar las estadísticas localmente en la solicitud de formas poco naturales.

Las alucinaciones son difíciles de ver

Detectar las alucinaciones es complicado, porque los algoritmos de los LLM por lo general no son interpretables ni ofrecen visibilidad para justificar sus respuestas. Incluso si en la respuesta se hace referencia a un contexto de generación aumentada de recuperación (RAG), una inspección humana podría revelar que en realidad no fue utilizado en la respuesta.

La mejor manera de minimizar las alucinaciones es que cada organización desarrolle su propio modelo fundamental de IA generativa preentrenado. Muchas empresas ya están aplicando, o planean aplicar, este enfoque mediante modelos enfocados en dominios específicos y basados en tareas. De esta forma, se puede tener un control crítico de los datos que se utilizan en el preentrenamiento –donde surgen la mayoría de las alucinaciones– y limitar el uso de la contextualización aumentada para asegurar que dicho uso no incremente las alucinaciones, sino que refuerce las relaciones ya presentes en el preentrenamiento.

Además de desarrollar modelos propios generativos enfocados, es necesario minimizar el daño creado por las alucinaciones. La política [empresarial] debería priorizar el proceso de cómo se utilizarán los resultados de estas herramientas en un contexto de negocio y luego confirmar todo.

Los FLM se enfocan en ofrecer respuestas precisas

La estrategia de FICO para utilizar la IA generativa de manera responsable comienza con el concepto de modelos de lenguaje pequeños (SLM, por sus siglas en inglés), que, como su nombre indica, son más pequeños y menos complejos que los LLM. Los SLM están diseñados para realizar tareas lingüísticas específicas de manera eficiente y se desarrollan con menos parámetros y, a menudo, con datos de entrenamiento más pequeños. Al igual que los LLM, los SLM están disponibles a través de múltiples proveedores y presentan muchos de los mismos desafíos, aunque con un riesgo menor.

Mi estrategia para lograr una GenAI Responsable concentra las aplicaciones de SLM en un “modelo de lenguaje enfocado” (FLM): un concepto nuevo dentro del desarrollo de los SLM que se centra en un almacén de datos más pequeño pero muy deliberado, específico de una tarea o dominio muy estrecho. Un nivel de especificidad tan fino garantiza que se elijan datos de alta calidad y gran relevancia; posteriormente, se puede ajustar meticulosamente el modelo (“optimización de tareas”) para asegurar que esté correctamente enfocado en la tarea en cuestión.

El enfoque FLM es claramente diferente de los LLM y SLM disponibles comercialmente, que no ofrecen control sobre los datos utilizados para desarrollar el modelo, una capacidad fundamental para prevenir alucinaciones y daños. Un modelo de lenguaje enfocado (FLM) permite utilizar la GenAI de forma responsable porque:

Brinda transparencia y control sobre los datos adecuados y de alta calidad con los que se desarrolla un modelo de lenguaje enfocado para un dominio específico.
Además de modelos de lenguaje enfocados en dominios de la industria, los usuarios pueden crear modelos de lenguaje enfocados en tareas, con contextos de vocabulario y entrenamiento específicos para la tarea en cuestión.
Asimismo, debido a la transparencia y control de los datos, el FLM desarrollado puede acompañarse de una puntuación de confianza en cada respuesta, lo que permite la operación basada en riesgos de la IA generativa. Las evaluaciones de confianza miden cómo se alinean las respuestas con los anclajes de conocimiento (verdades) del dominio y/o la tarea del FLM.

¿Preocupado por las alucinaciones de la GenAI? El uso de modelos de lenguaje es una solución imaginativa y demostrada

Te puede interesar: El liderazgo determina el impacto de la IA en las empresas

Redação Portal ERP

Estamos viviendo el mayor ecosistema digital de la historia, que está redefiniendo el futuro de la ciberseguridad

Los pagos instantáneos redefinen la competitividad empresarial en LATAM

La próxima ola en ciberseguridad no será de ataques, será de parches

IA: La ventaja humana para rediseñar el trabajo

La IA ya escribe código. El reto ahora es que ese código genere negocio

Noticias Relacionadas

Estamos viviendo el mayor ecosistema digital de la historia, que está redefiniendo el futuro de la ciberseguridad

Los pagos instantáneos redefinen la competitividad empresarial en LATAM

La próxima ola en ciberseguridad no será de ataques, será de parches