Why this AI startup is betting on voice-enabled bots to scale AI adoption in India

13 de agosto de 2024

Por qué esta startup de IA apuesta por bots con reconocimiento de voz para ampliar la adopción de IA en India

Si su mercado objetivo tiene 22 idiomas oficiales y su gente habla más de 19.000 dialectos, ¿tiene sentido ofrecer un chatbot de IA de solo texto que pueda funcionar mejor en un par de idiomas? Esa es la pregunta de la startup india de inteligencia artificial Sarvam La startup ha estado trabajando para resolver este... Leer más

Cómo convertir un paquete de inicio de Bluesky en una lista

ICON, un constructor de viviendas impresas en 3D valoradas por última vez en unos 2.000 millones de dólares, recorta alrededor del 25% de su personal

Si su mercado objetivo tiene 22 idiomas oficiales y su gente habla más de 19.000 dialectos, ¿tiene sentido ofrecer un chatbot de IA de solo texto que pueda funcionar mejor en un par de idiomas?

Esa es la pregunta de la startup india de inteligencia artificial Sarvam La startup ha estado trabajando para resolver este problema y el martes lanzó una serie de ofertas, incluido un robot de inteligencia artificial que funciona con voz y que admite más de 10 idiomas indios, apostando a que la gente del país preferiría hablar con un modelo de inteligencia artificial en su propio idioma en lugar de chatear con él por texto. La startup también está lanzando un pequeño modelo de lenguaje, una herramienta de inteligencia artificial para abogados, así como un modelo de audio-idioma.

“La gente prefiere hablar en su propio idioma. Hoy en día, escribir en idiomas indios es extremadamente complicado”, dijo Vivek Raghavan, cofundador de Sarvam AI, a TechCrunch.

La startup con sede en Bengaluru, que se dirige principalmente a empresas y comercios, está promocionando sus bots de voz con inteligencia artificial para una serie de industrias, en particular aquellas que dependen de la atención al cliente. Como ejemplo, mencionó a uno de sus clientes: Sri Mandir, una startup que ofrece contenido religioso, ha estado utilizando el agente de inteligencia artificial de Sarvam para aceptar pagos y ha procesado más de 270.000 transacciones hasta ahora.

La compañía dijo que sus agentes de voz de IA se pueden implementar en WhatsApp, dentro de una aplicación e incluso pueden funcionar con llamadas de voz tradicionales.

Con el respaldo de Peak XV y Lightspeed, Sarvam planea fijar el precio de sus agentes de IA a partir de ₹1 (aproximadamente 1 centavo) por minuto de uso.

Créditos de la imagen: Sarvam

La startup está construyendo sus agentes de inteligencia artificial con voz activada sobre un modelo de lenguaje básico pequeño, llamado Sarvam 2B, que está entrenado en un conjunto de datos de 4 billones de tokens. El modelo está completamente entrenado en datos sintéticos, según Raghavan.

Los expertos en IA suelen recomendar cautela al utilizar datos sintéticos (en esencia, datos generados por un modelo de lenguaje grande que pretende replicar datos del mundo real) para entrenar otros modelos de IA, porque los modelos de lenguaje grande tienden a alucinar e inventar información que puede no ser precisa. El entrenamiento de modelos de IA con esos datos puede servir para exacerbar esas imprecisiones.

Raghavan dijo que Sarvam optó por utilizar datos sintéticos debido a la disponibilidad extremadamente limitada de contenido en idioma indio en la web abierta. La empresa emergente ha desarrollado modelos para limpiar y mejorar los datos utilizados inicialmente para generar los conjuntos de datos sintéticos, agregó.

El fundador afirmó que Sarvam 2B costará una décima parte de cualquier producto comparable en la industria. La startup está publicando el código abierto del modelo, con la esperanza de que la comunidad lo siga desarrollando.

“Si bien los modelos básicos de lenguajes grandes son muy interesantes, se puede lograr una experiencia superior, más específica, de menor costo y con menor latencia utilizando modelos de lenguajes pequeños”, dijo Raghavan. “Si desea realizar una consulta o dos en una semana o un mes, debe utilizar los modelos de lenguajes grandes. Pero para los casos de uso que requieren millones de interacciones diarias, creo que los modelos más pequeños son más adecuados”.

La startup también está lanzando un modelo de lenguaje de audio, llamado Shuka, construido sobre su decodificador de audio Saaras v1 y Llama3-8B Instruct de Meta. Este modelo también está siendo de código abierto, por lo que los desarrolladores pueden usar la traducción, TTS y otros módulos de la startup para crear interfaces de voz.

Y hay otro producto llamado “A1”: un banco de trabajo de inteligencia artificial generativa diseñado para abogados que puede buscar regulaciones, redactar documentos, redactarlos y extraer datos.

Sarvam forma parte del pequeño grupo de nuevas empresas indias que abogan por casos de uso que se alinean con los intereses del país y contribuyen a los esfuerzos del gobierno para desarrollar su propia infraestructura de inteligencia artificial a medida.

Los gobiernos de todo el mundo apuestan cada vez más por una “IA soberana”, es decir, una infraestructura de IA desarrollada y controlada a nivel nacional. El supuesto objetivo de estas iniciativas es salvaguardar la privacidad de los datos, estimular el crecimiento económico y adaptar el desarrollo de la IA a sus contextos culturales. Estados Unidos y China son actualmente los países con mayores inversiones en este ámbito, y la India les sigue con su programa “IndiaAI” y modelos específicos para cada idioma.

Una de las iniciativas del programa IndiaAI se llama IndiaAI Compute Capacity y el plan es crear una supercomputadora alimentada por al menos 10.000 GPU. Uno de los modelos que se están desarrollando, denominado Bhashini, tiene como objetivo democratizar el acceso a los servicios digitales en varios idiomas indios.

Raghavan dijo que su startup está lista para contribuir al programa IndiaAI. “Si surge la oportunidad, trabajaremos con el gobierno”, dijo en la entrevista.

Startups