Veriff
LibrarypodcastsEl Vicepresidente Senior de Producto de Veriff, Suvrat Joshi, sobre cómo la intervención humana puede impulsar un mejor IA

El Vicepresidente Senior de Producto de Veriff, Suvrat Joshi, sobre cómo la intervención humana puede impulsar un mejor IA

Habiendo liderado el desarrollo de productos para Amazon, Dropbox, Meta, Microsoft y Yahoo, Suvrat Joshi tiene experiencia de primera mano sobre el impacto del sesgo en la publicidad, los pagos y el comercio en línea. Él explica el papel crucial de la intervención humana en la minimización del sesgo en nuestros modelos impulsados por IA.

Header image
Author
Chris Hooper
Director de Marca en Veriff.com
November 23, 2023
Podcast
Share:
On this page
¿Qué es el aprendizaje por refuerzo a partir de retroalimentación humana?
Casos de uso para RLHF
Usando RLHF para abordar el sesgo
RLHF como un diferenciador
Proporcionando tranquilidad a los clientes sobre el uso de IA
Los beneficios más amplios de los conjuntos de datos enriquecidos

¡Escucha la conversación completa con Suvrat ahora!

Aunque Veriff es en gran medida una empresa tecnológica, un equipo diverso de expertos humanos es central para nuestra misión de hacer de internet un lugar más seguro para todos. Desde la investigación inicial, modelado y desarrollo hasta la mejora y refinamiento del producto en vivo, lo que diferencia nuestro enfoque es el uso de la intervención humana para mejorar constantemente nuestra tecnología.

Durante una conversación reciente para nuestra serie de pódcast Veriff Voices, nuestro Vicepresidente Senior de Producto, Suvrat Joshi, explicó cómo Veriff utiliza un proceso conocido como aprendizaje por refuerzo a partir de retroalimentación humana para mejorar constantemente la precisión de nuestros sistemas basados en inteligencia artificial

El aprendizaje por refuerzo a partir de retroalimentación humana (o RLHF, por su abreviatura) utiliza inteligencia humana para revisar las salidas de un modelo de aprendizaje automático para identificar y abordar problemas.

“Hay un conjunto de datos. Está etiquetado, tiene atributos asociados, y luego realizas el entrenamiento del modelo, y el modelo aprende. Luego, creas un modelo, que se ejecuta en producción,” dice Suvrat. “El lugar donde entran los humanos es en el etiquetado y la atribución.”

Además de preparar el conjunto de datos de entrada para entrenar el modelo, los expertos humanos pueden revisar y anotar el conjunto de datos de salida: “Esencialmente, inyectas humanos en el ciclo para construir un mejor modelo,” dice Suvrat

“Los humanos pueden añadir a ese conjunto de datos etiquetados para enriquecerlo, aumentarlo, o a veces incluso corregirlo. Y eso es realmente útil porque sirve como una nueva entrada para el modelo, así que el modelo se vuelve mucho más inteligente, y la salida es mucho mejor.”

Este proceso de intervención humana para revisar y proporcionar datos mejorados de vuelta al modelo se repite en un ciclo, de ahí el término aprendizaje por refuerzo a partir de retroalimentación humana.

Los humanos pueden añadir a ese conjunto de datos etiquetados para enriquecerlo, aumentarlo o incluso corregirlo a veces. Y eso es realmente útil porque sirve como una nueva entrada para el modelo, así que el modelo se vuelve mucho más inteligente, y la salida es mucho mejor.

Suvrat dice que el enfoque de RLHF es ampliamente aplicable en sectores desde juegos hasta fintech y salud, en casos de uso que incluyen pagos, publicidad y abuso en redes sociales.

“No lo llamaría fraude, es realmente abuso o abuso del producto,” dice Suvrat. “Creo que es uno realmente bueno donde se usa ampliamente. Necesitan muchas personas en el ciclo para proporcionar ese aprendizaje por refuerzo o retroalimentación para comenzar a capturar algunas de estas fortalezas.”

El enfoque central de Veriff en la verificación de identidad es un candidato principal para RLHF, ya que la capacidad de detener el fraude mientras se maximizan las conversiones depende en gran medida de la calidad del conjunto de datos en general.

Necesitan muchas personas en el ciclo para proporcionar ese aprendizaje por refuerzo o retroalimentación para comenzar a capturar algunas de estas fortalezas.

Un uso clave de RLHF es en la reducción del sesgo en los modelos de aprendizaje automático. Esto es importante porque si se deja sin control, el sesgo puede amplificarse progresivamente con el tiempo en los sistemas de IA. Como se ha visto incluso con los modelos de IA generativa más recientes y avanzados, los resultados pueden ser impredecibles y, a menudo, indeseables.

“Definitivamente puedes eliminar el sesgo,” dice Suvrat. “Creo que lograr una salida de modelo perfecta todo el tiempo o durante un período de tiempo es difícil, pero nunca es imposible, y es una gran cosa a la que aspirar.”

Sin embargo, para que eso suceda, Suvrat cree que la intervención humana es esencial.

“La mejora siempre es necesaria. Y es un aprendizaje continuo, que permite que el modelo se mantenga a punto o se mejore con el tiempo.”

Creo que lograr una salida de modelo perfecta todo el tiempo o durante un período de tiempo es difícil, pero nunca es imposible, y es una gran cosa a la que aspirar.

Como señala Suvrat, muchos productos de verificación de identidad en el mercado están casi totalmente automatizados.

“Lo que eso significa es que tienes un modelo, ha sido ajustado con algunos datos y lo vas a lanzar al mundo real.,” dice Suvrat. “Y funciona bien en algunos casos. Pero no funciona bien en otros.”

Este nivel de calidad puede ser aceptable para algunos casos de uso, pero cuando se trata de verificación de identidad, la precisión es crucial. Aquí es donde un modelo aumentado con retroalimentación humana resalta, ofreciendo tasas mejoradas de detección de fraudes y mejor conversión.

“Ofrecer eso en un espacio muy competitivo es realmente impresionante,” dice Suvrat. “Teniendo esta retroalimentación humana en el ciclo, realmente podemos hacer todo eso mucho mejor. Y realmente todos nuestros clientes y todos en este espacio están buscando eso. Ofrecemos lo mejor de ambos mundos y, además, es realmente competitivo en precio.”

“Esa propuesta de valor es lo que busca el cliente. Incluso si comienzan con otras soluciones que satisfacen sus necesidades de una manera básica, rápidamente se dan cuenta de que esas aplicaciones no satisfacen del todo sus necesidades.”

Teniendo esta retroalimentación humana en el ciclo, realmente podemos hacer todo eso mucho mejor. Y realmente todos nuestros clientes y todos en este espacio están buscando eso.

Suvrat reconoce que hay un grado de sospecha natural en torno a la inteligencia artificial, particularmente entre el público en general. RLHF puede ayudar a abordar las preocupaciones sobre el uso de IA tanto para los clientes de Veriff como para sus clientes finales.

“Creo que esa es una parte esencial para construir confianza,” dice Suvrat, “ajustar y mejorar para que proporcionemos a nuestros clientes la seguridad de que no es solo algo que se ejecuta en piloto automático.”

RLHF puede ayudar a abordar las preocupaciones sobre el uso de IA tanto para los clientes de Veriff como para sus clientes finales.

Veriff ofrece productos totalmente automatizados para diferentes casos de uso, pero incluso estos se benefician de los conjuntos de datos de alta calidad derivados de nuestro proceso de RLHF.

“Lo que hace que nuestras soluciones automatizadas sean únicas y ricas es esta retroalimentación humana en el ciclo,” dice Suvrat. “Y, por supuesto, usamos ese tipo de etiquetado y enriquecimiento a nivel global, de manera cumpliendo la normativa, para mejorar esos modelos. Eso nos permite ofrecer un producto superior en el mercado.”

Voces de Veriff

Escucha la conversación completa con Suvrat y explora más episodios del pódcast Veriff Voices.

Más información

Recibe las últimas noticias de Veriff. Suscríbete al boletín.

Veriff solo usará la información para compartirte noticias del blog.

Puedes cancelar la suscripción en cualquier momento. Lee nuestro Declaración de privacidad