Cómo entrenar a tu chatbot mediante ingeniería rápida

Por Lucas Mearian

Reportero senior, Computerworld |

Una de las razones por las que los chatbots basados en inteligencia artificial han arrasado en el mundo en los últimos meses es porque pueden generar o perfeccionar texto para una variedad de propósitos, ya sea para crear una campaña publicitaria o escribir un currículum.

Estos chatbots funcionan con algoritmos de modelos de lenguaje grande (LLM), que pueden imitar la inteligencia humana y crear contenido textual, así como audio, video, imágenes y código informático. Los LLM son un tipo de inteligencia artificial entrenada en una enorme cantidad de artículos, libros o recursos basados en Internet y otros insumos para producir respuestas similares a las humanas a los insumos del lenguaje natural.

Un número cada vez mayor de empresas de tecnología ha presentado herramientas de inteligencia artificial generativa basadas en LLM para uso empresarial para automatizar tareas de aplicaciones. Por ejemplo, la semana pasada Microsoft lanzó para un número limitado de usuarios un chatbot basado en ChatGPT de OpenAI; está integrado en Microsoft 365 y puede automatizar las funciones de las aplicaciones CRM y ERP.

Un ejemplo de IA generativa que crea código de software a través de un mensaje de usuario. En este caso, el chatbot Einstein de Salesforce se habilita mediante el uso del modelo de lenguaje grande GPT-3.5 de OpenAI.

Por ejemplo, el nuevo Microsoft 365 Copilot se puede usar en Word para crear un primer borrador de un documento, lo que potencialmente ahorra horas de escritura, búsqueda y edición. Salesforce también anunció planes para lanzar un chatbot basado en GPT para usarlo con su plataforma CRM.

La mayoría de los LLM, como el GPT-4 de OpenAI, están preparados previamente como motores de predicción de contenido o de la siguiente palabra; así es como los usan la mayoría de las empresas, “listos para usar”, por así decirlo. Y si bien los chatbots basados en LLM han producido su cuota de errores, los LLM previamente capacitados funcionan relativamente bien a la hora de proporcionar contenido en su mayoría preciso y atractivo que, como mínimo, puede usarse como punto de partida.

Sin embargo, muchas industrias requieren algoritmos LLM más personalizados, aquellos que comprendan su jerga y produzcan contenido específico para sus usuarios. Los LLM para la industria de la salud, por ejemplo, pueden necesitar procesar e interpretar registros médicos electrónicos (EHR), sugerir tratamientos o crear un resumen de atención médica del paciente basado en notas médicas o grabaciones de voz. Un LLM adaptado a la industria de servicios financieros puede resumir llamadas de ganancias, crear transcripciones de reuniones y realizar análisis de fraude para proteger a los consumidores.

En diversas industrias, garantizar un alto grado de precisión de respuesta puede ser primordial.

Se puede acceder a la mayoría de los LLM a través de una interfaz de programación de aplicaciones (API) que permite al usuario crear parámetros o ajustes sobre cómo responde el LLM. Una pregunta o solicitud enviada a un chatbot se denomina mensaje, ya que el usuario solicita una respuesta. Las indicaciones pueden ser preguntas en lenguaje natural, fragmentos de código o comandos, pero para que el LMM haga su trabajo con precisión, las indicaciones deben ser precisas.

Y esa necesidad ha dado lugar a una nueva habilidad: la ingeniería rápida.

La ingeniería de indicaciones es el proceso de elaboración y optimización de indicaciones de texto para modelos de lenguaje grandes para lograr los resultados deseados. "[Ayuda] a los LLM a una iteración rápida en la exploración y creación de prototipos de productos, ya que adapta el LLM para alinearse mejor con la definición de la tarea de forma rápida y sencilla", dijo Marshall Choy, vicepresidente senior de producto de SambaNova Systems, una startup de Silicon Valley que fabrica semiconductores para inteligencia artificial (IA).

Quizás igual de importante para los usuarios es que la ingeniería rápida está a punto de convertirse en una habilidad vital para los profesionales de TI y de negocios, según Eno Reyes, ingeniero de aprendizaje automático de Hugging Face, una plataforma impulsada por la comunidad que crea y aloja LLM.

“ Mucha gente que conozco en software, TI y consultoría utiliza la ingeniería rápida todo el tiempo para su trabajo personal”, dijo Reyes en una respuesta por correo electrónico a Computerworld. "A medida que los LLM se integran cada vez más en diversas industrias, su potencial para mejorar la productividad es inmenso".

Al emplear eficazmente la ingeniería rápida, los usuarios empresariales pueden optimizar los LLM para realizar sus tareas específicas de manera más eficiente y precisa, desde atención al cliente hasta generación de contenido y análisis de datos, dijo Reyes.

El LLM más conocido en este momento, GPT-3 de OpenAI, es la base del popular chatbot ChatGPT. El GPT-3 LLM funciona en un modelo de 175 mil millones de parámetros que puede generar texto y código de computadora con breves indicaciones escritas. Se estima que la última versión de OpenAI, GPT-4, tiene hasta 280 mil millones de parámetros, lo que hace que sea mucho más probable que produzca respuestas precisas.

Junto con GPT LLM de OpenAI, las plataformas populares de IA generativa incluyen modelos abiertos como BLOOM y XLM-RoBERTa de Hugging Face, NeMO LLM, XLNet, Co:here y GLM-130B de Nvidia.

Debido a que la ingeniería rápida es una disciplina incipiente y emergente, las empresas confían en folletos y guías rápidas como una forma de garantizar respuestas óptimas de sus aplicaciones de IA. Incluso están surgiendo mercados de mensajes, como los 100 mejores mensajes para ChatGPT.

"La gente incluso está vendiendo sugerencias rápidas", dijo Arun Chandrasekaran, distinguido vicepresidente analista de Gartner Research, y agregó que la reciente oleada de atención a la IA generativa ha puesto de relieve la necesidad de una mejor ingeniería rápida.

"Es un dominio relativamente nuevo", dijo. "Las aplicaciones de IA generativa a menudo dependen de modelos de IA gigantes autosupervisados y, por lo tanto, obtener respuestas óptimas de ellos requiere más conocimientos, pruebas y esfuerzos adicionales. Estoy seguro de que con una madurez cada vez mayor podremos ver mejores orientaciones y mejores prácticas por parte de los creadores de modelos de IA sobre formas efectivas de sacar el máximo provecho de los modelos y aplicaciones de IA”.

El componente de aprendizaje automático de los LLM aprende automáticamente a partir de la entrada de datos. Además de los datos utilizados originalmente para crear un LLM, como GPT-4, OpenAI creó algo llamado Reinforcement Learning Human Feedback, donde un ser humano entrena el modelo sobre cómo dar respuestas similares a las de un humano.

Por ejemplo, un usuario formulará una pregunta al LLM y luego escribirá la respuesta ideal. Luego, el usuario volverá a hacerle la misma pregunta al modelo y el modelo ofrecerá muchas otras respuestas diferentes. Si se trata de una pregunta basada en hechos, la esperanza es que la respuesta siga siendo la misma; si es una pregunta abierta, el objetivo es producir múltiples respuestas creativas similares a las humanas.

Por ejemplo, si un usuario le pide a ChatGPT que genere un poema sobre una persona sentada en una playa en Hawaii, la expectativa es que genere un poema diferente cada vez. "Entonces, lo que hacen los entrenadores humanos es calificar las respuestas de mejor a peor", dijo Chandrasekaran. “Esa es una entrada al modelo para garantizar que proporcione una respuesta más parecida a la humana o la mejor, mientras se intenta minimizar las peores respuestas. Pero la forma en que formulas las preguntas tiene una gran influencia en el resultado que obtienes de un modelo”.

Las organizaciones pueden entrenar un modelo GPT ingiriendo conjuntos de datos personalizados internos de esa empresa. Por ejemplo, pueden tomar datos empresariales, etiquetarlos y anotarlos para aumentar su calidad y luego incorporarlos al modelo GPT-4. Eso afina el modelo para que pueda responder preguntas específicas de esa organización.

El ajuste fino también puede ser específico de la industria. Ya está surgiendo una industria artesanal de empresas emergentes que toman GPT-4 e ingieren una gran cantidad de información específica de industrias verticales, como los servicios financieros.

“Pueden ingerir información de Lexus-Nexus y Bloomberg, pueden ingerir información de la SEC, como informes de 8K y 10K. Pero el punto es que el modelo está aprendiendo mucho lenguaje o información muy específica de ese dominio”, dijo Chandrasekaran. "Por lo tanto, el ajuste fino puede ocurrir a nivel industrial o organizacional".

Por ejemplo, Harvey es una startup que se asoció con OpenAI para crear lo que llama un "copiloto para abogados" o una versión de ChatGPT para profesionales del derecho. Los abogados pueden utilizar el chatbot personalizado ChatGPT para descubrir cualquier precedente legal para que ciertos jueces se preparen para su próximo caso, dijo Chandrasekaran.

"Veo el valor de vender mensajes no tanto por el lenguaje sino por las imágenes", dijo Chandrasekaran. "Hay todo tipo de modelos en el espacio de la IA generativa, incluidos los modelos de texto a imagen".

Por ejemplo, un usuario puede solicitar un modelo de IA generativa para producir una imagen de un guitarrista tocando la luna. "Creo que el dominio de conversión de texto a imagen tiene más énfasis en los mercados rápidos", dijo Chandrasekaran.

Si bien Hugging Face crea algunos de sus propios LLM, incluido BLOOM, la función principal de la organización es ser un centro para modelos de aprendizaje automático de terceros, como lo hace GitHub con el código; Hugging Face alberga actualmente más de 100.000 modelos de aprendizaje automático, incluida una variedad de LLM de nuevas empresas y grandes empresas tecnológicas.

Como los nuevos modelos son de código abierto, normalmente están disponibles en el centro, lo que crea un destino único para los LLM emergentes de código abierto.

Para ajustar un LLM para una empresa o industria específica utilizando Hugging Face, los usuarios pueden aprovechar las API "Transformers" y las bibliotecas "Conjuntos de datos" de la organización. Por ejemplo, en servicios financieros, un usuario podría importar un LLM previamente capacitado como Flan-UL2, cargar un conjunto de datos de artículos de noticias financieras y usar el entrenador "transformers" para ajustar el modelo y generar resúmenes de esos artículos. Las integraciones con AWS, DeepSpeed y Accelerate agilizan y optimizan aún más la capacitación.

Todo el proceso se puede realizar en menos de 100 líneas de código, según Reyes.

Otra forma de comenzar con la ingeniería rápida implica la API de inferencia de Hugging Face; Es un punto final de solicitud HTTP simple que admite más de 80.000 modelos de transformadores, según Reyes. "Esta API permite a los usuarios enviar mensajes de texto y recibir respuestas de modelos de código abierto en nuestra plataforma, incluidos los LLM", dijo Reyes. "Si desea ser aún más simple, puede enviar texto sin código utilizando el widget de inferencia en los modelos LLM en el centro Hugging Face".

La ingeniería rápida de LLM generalmente toma una de dos formas: aprendizaje o capacitación de pocas oportunidades y de cero oportunidades.

El aprendizaje de disparo cero implica alimentar una instrucción simple como un estímulo que produce una respuesta esperada del LLM. Está diseñado para enseñar a un LLM a realizar nuevas tareas sin utilizar datos etiquetados para esas tareas específicas. Piense en el disparo cero como un aprendizaje por refuerzo.

Por el contrario, el aprendizaje de pocas oportunidades utiliza una pequeña cantidad de información o datos de muestra para entrenar al LLM para las respuestas deseadas. El aprendizaje de pocas oportunidades consta de tres componentes principales:

En realidad, hoy en día hay pocas organizaciones con modelos de capacitación personalizados que se adapten a sus necesidades porque la mayoría de los modelos aún se encuentran en una etapa temprana de desarrollo, según Chandrasekaran de Gartner. Y si bien el aprendizaje de pocas oportunidades y de ninguna oportunidad puede ayudar, aprender ingeniería rápida como habilidad es importante, tanto para los usuarios de TI como para los usuarios empresariales.

"La ingeniería de indicaciones es una habilidad importante que se debe poseer hoy en día, ya que los modelos básicos son buenos para el aprendizaje de pocos intentos y de cero intentos, pero su rendimiento está influenciado en muchos sentidos por la forma en que elaboramos metódicamente las indicaciones", dijo Chandrasekaran. "Dependiendo del caso de uso y el dominio, estas habilidades serán importantes tanto para los usuarios de TI como para los usuarios empresariales".

La mayoría de las API permiten a los usuarios aplicar sus propias técnicas de ingeniería rápida. Cada vez que un usuario envía un texto a un LLM, existe la posibilidad de perfeccionar las indicaciones para lograr resultados específicos, según Reyes.

"Sin embargo, esta flexibilidad también abre la puerta a casos de uso malicioso, como la inyección rápida", dijo Reyes. “Ejemplos como el Sydney de Bing [de Microsoft] demostraron cómo las personas pueden explotar la ingeniería rápida para fines no deseados. Como campo de estudio en crecimiento, abordar la inyección rápida tanto en casos de uso maliciosos como el 'equipo rojo' para las pruebas de penetración será crucial para el futuro, garantizando el uso responsable y seguro de los LLM en diversas aplicaciones".

El reportero senior Lucas Mearian cubre la IA en la empresa, cuestiones del futuro del trabajo, TI para la atención médica y FinTech.

Ingeniería rápida“Un buen insumo equivale a un buen resultadoHugging Face como centro integral de LLMDescripción de la tareaEjemplosInmediato