Cuando los datos de entrenamiento son similares en los principales modelos de lenguajes grandes, es cada vez más importante encontrar formas de hacerlos más creativos y más diferenciados. Esa realidad hace que más clientes empresariales soliciten formas de hacer que la IA sea más creativa al generar contenido y de ayudar con el proceso real de pensar creativamente.
El mes pasado, la startup de IA Writer lanzó un nuevo LLM llamado Palmira Creativa que tiene como objetivo ayudar a las empresas a extraer más creatividad de la IA generativa. El objetivo no es sólo ayudar con los resultados; también es para ayudar a las empresas a utilizar la IA de formas más creativas. Palmyra Creative sigue a otros LLM de dominio específico publicados por Writer, como el centrado en la atención médica. Palmyra Med y Palmyra Fin, centrada en las finanzas. (Los clientes de Writer que utilizan varios modelos incluyen Qualcomm, Vanguard, Salesforce, Kenvue, Uber y Dropbox).
En términos de pensamiento creativo, los modelos de IA en general ya han evolucionado bastante en los últimos años. Algunos expertos han descubierto que los LLM son más creativos que los humanos en áreas como el pensamiento divergente. El año pasado, investigadores de la Universidad de Arkansas publicó un artículo explorando cómo el modelo GPT-4 de OpenAI es capaz de generar múltiples ideas creativas, encontrar diversas soluciones a problemas y explorar varios ángulos. Sin embargo, los LLM actuales todavía están limitados en gran medida a su propio conocimiento a través de datos de capacitación, en lugar de experiencias vividas o lecciones aprendidas que los humanos pueden aprovechar.
El proceso del escritor implica la creación de modelos de IA que se adaptan automáticamente o «autoevolutivo» dijo el CTO de Writer, Waseem Al Shikh, quien cofundó la empresa con la directora ejecutiva de Writer, May Habib, en 2020. En lugar de preocuparse por el tamaño de un modelo, Shikh explicó que el enfoque de la compañía ahora está en desarrollar modelos con un marco construido alrededor de tres grupos separados. : modelar conocimiento, modelar razonamiento y modelar comportamientos.
«No basta con tener un modelo creativo», dijo Al Shikh a Digiday en una entrevista el mes pasado. “Es como un humano, ¿verdad? Si todos tienen las mismas bibliotecas con muchos libros, cada uno tendrá ideas, pero lo curioso es que no estamos creando todas las ideas con un tema claro. Entonces, el plan para el futuro ahora es tener funcionalidades de evolución automática en todos nuestros modelos y que la creatividad esté en la parte superior de la lista”.
Las actualizaciones de los escritores también se benefician de la empresa. asociación con Nvidia mediante el uso de NIM (abreviatura de Nvidia Inference Microservices) que ayudan a simplificar y acelerar la forma en que se implementan y escalan los modelos de IA en diversos usos específicos de la empresa. En cierto modo, los NIM sirven como una especie de controlador de vuelo que ayuda a decidir qué modelo de IA y cuándo usarlo dependiendo de la empresa, su conocimiento y la tarea deseada.
«Con los flujos de trabajo, uno conoce el inicio y los pasos», dijo Shikh. “Este concepto de NIM es muy futurista, podemos llegar allí, pero necesitarás todos estos modelos. Es por eso que estamos creando modelos de dominios específicos. Puedes tener tres, cuatro o cinco modelos específicos y evolucionan automáticamente según el comportamiento de los clientes”.
Desbloquear nuevas formas de pensar de manera más creativa podría brindarles a los especialistas en marketing y a otras personas nuevas formas de encontrar nuevas ideas, salir de las cámaras de eco de la IA y escapar de los patrones uniformes que plagan muchos resultados de la IA. El escritor ve que los minoristas podrían utilizar Palmyra Creative para campañas de marketing personalizadas o programas de fidelización mejorados. Los modelos podrían ayudar a los proveedores de atención médica a simplificar las comunicaciones con los pacientes, equipar a las empresas financieras para crear más herramientas educativas o brindar a las empresas de tecnología B2B ideas para posicionar productos y perfeccionar documentos técnicos.
Esta conversación ha sido editada para mayor brevedad y claridad.
¿Qué diferencia a Palmyra Creative de otros modelos?
Nuestro modelo y modelos más amplios (por ejemplo, el financiero o el médico) se centran más en lo que llamamos conocimiento. Queremos que sean precisos para cada fórmula y cada medicamento que utilizan. Cuando se recurre a un modelo financiero, se trata de centrarse en el razonamiento básico y las ecuaciones matemáticas. El comportamiento también cambiará. Los modelos generales intentan equilibrar esos [knowledge, reasoning and behavior].
¿Qué fue diferente en el proceso de desarrollo del modelo?
Dado que todos los modelos tienen arquitecturas similares y datos de entrenamiento similares, sabes que solo se trata de encontrar similitudes con los pesos y cuánto se ve realmente este peso. Lo que decidimos hacer es tomar los mismos datos de entrenamiento que tenemos hoy, pero fuimos más creativos con los pesos creativos. Entrenamos tres modelos separados y luego comenzamos a fusionar los modelos y a mezclarlos entre las capas. Lo que sucede entonces es que tienes una relación única que no existe en ningún otro modelo. También descubrimos que el modelo tiene comportamientos interesantes: el modelo en realidad puede retroceder y no sigue el camino tradicional de los demás porque el peso es exclusivo del modelo en sí. Lo llamamos fusión dinámica entre las capas.
Fusionar un modelo no es una idea nueva, pero lo que sí es nuevo es la técnica en sí y la utilización de la técnica. Lo diferente aquí es que estamos dividiendo el modelo entre ellos y tenemos una forma específica de asegurarnos de que la relación entre ellos no se rompa para que no termines teniendo un galimatías o una alucinación extraña. Hay una delgada línea entre lo que termina siendo una alucinación y lo que parece la creatividad.
Me recuerda cómo la creatividad a menudo ocurre en la línea borrosa entre la realidad y la ficción..
Cien por cien. Pero tenemos que definirlo, especialmente con los clientes empresariales. Lo que terminamos diciendo es que queremos que el modelo diga lo que quiera, pero necesitamos que el modelo tenga cuidado con una cosa, a la que llamamos afirmaciones. Hay una diferencia entre “déjame darte una idea loca” y una afirmación que parecía no verificada. Trabajamos mucho en torno a lo que llamamos reclamos controlados. No tenemos la fuente de la verdad. [for the model] porque no podemos considerar por ejemplo a Wikipedia como la fuente de la verdad, ¿verdad? Tiene muchas cosas aleatorias. No podemos considerar que todo lo que proviene de cada gobierno del planeta sea la fuente de la verdad. Pero decidimos decir que mantengamos el modelo creativo, pero no reclamemos declaraciones.
Las alucinaciones a menudo vienen acompañadas de más preguntas sobre la explicabilidad cuando tienen que justificarse. ¿Quizás eso sea un problema menor sin necesidad de verificar las afirmaciones?
Exactamente. Decidimos empezar desde la raíz y controlar el reclamo… El [Palmyra] El modelo creativo tiene menos que ver con el conocimiento y más con el comportamiento. Creemos que a las empresas les encantará este modelo creativo para escribir un estudio de caso, encontrar nuevos casos de uso o escribir historias más creativas sobre cómo adoptar sus productos y cómo explicarlos sin lo que suena a IA. Pero controlar el reclamo fue la parte más importante. Como dijiste, si no tienes un reclamo, no tienes que explicarlo.
¿Cómo guías el modelo sobre cuándo debe evolucionar o ser creativo y cuándo debe ser consistente?
Hemos estado trabajando en ello desde principios de verano. ¿Qué pasaría si pudiéramos hacer que estos modelos pensaran más como humanos? ¿Y si los modelos pudieran reflexionar, girar y recordar? Básicamente, ¿podemos hacer que comiencen a trabajar fuera del conjunto de capacitación en tiempo real? Todos los modelos actuales todavía están apegados a los datos de entrenamiento; sin los datos de entrenamiento, es realmente difícil lograr que hagan algo. Esto es lo que llamamos autoevolución. Los modelos que evolucionan a sí mismos significan que no es necesario enseñarles. El modelo actualizará su peso en tiempo real. El modelo realmente reflejará. Y el modelo en sí puede garantizar la información.
Para darle un mal ejemplo: si digo que mi nombre es Waseem y que soy el presidente de los Estados Unidos, el modelo será lo suficientemente inteligente como para saber: «Tal vez tu nombre sea Waseem, pero no eres el presidente de los Estados Unidos». Estados Unidos.’ Esto es realmente importante, lo que significa que si lo usas más, el modelo obtendrá más control y más conocimiento. Es de más alto nivel y lleva mucho tiempo explicarlo, pero es un diseño de transformador estándar con una nueva característica llamada Memoria. Porque cada capa dentro de la red neuronal tiene la capa de memoria al lado. Entonces puedes hablar con él y verlo cambiar.
Porque el modelo básicamente no cometerá el mismo error dos veces porque conocemos la respuesta incorrecta. Recuerda el mal [one] Y lo intentaremos de manera diferente la próxima vez que pensemos en la pregunta. Me encanta decirle a mi equipo que la mayoría de los humanos (no todos) aprendemos de nuestros errores y no cometemos los mismos errores dos veces.
Avisos y productos: noticias y anuncios relacionados con la IA esta semana
- Rembrand, una startup de IA generativa que ayuda a las marcas a colocar productos virtuales en las redes sociales y otros contenidos. recaudó 23 millones de dólares en financiación Serie A.
- Lucid Motors, la empresa de coches eléctricos, es asociarse con SoundHound AI para integrar un nuevo asistente de voz en el vehículo para brindar a los conductores información en tiempo real y más controles dentro del vehículo.
- un nuevo campaña de TurboTax promueve agentes de inteligencia artificial y “expertos humanos impulsados por inteligencia artificial” en la aplicación propiedad de Intuit para ayudar a las personas a presentar sus impuestos.
- La IA estará en toda Las Vegas la próxima semana durante CES 2025 cuando los gigantes tecnológicos, las nuevas empresas y las marcas desciendan al desierto de Nevada para promover sus diversas actualizaciones y asociaciones.
Historias de IA de todo Digiday









