July 9, 2023
4 mins read

Google anuncia el primer desafío de “Machine Unlearning”

machine unlearning

Google está organizando el primer desafío de “Machine Unlearning” (Desaprendizaje de máquinas). Es decir, se trata de algoritmos que “olvidan”, un campo de investigación emergente. GPT-4 es un tipo de desaprendizaje automático. OpenAI intentó durante meses eliminar las habilidades que considera poco éticas o dañinas, y a veces fue demasiado lejos. A diferencia de eliminar datos del disco, eliminar conocimiento de modelos de IA (sin paralizar otras habilidades) es mucho más difícil. Pero es útil y a veces necesario debido a que:

▸ Reduce los contenidos tóxicos/sesgados/NSFW
▸ Cumple con las leyes de privacidad, derechos de autor y reglamentarias
▸ Devuelve el control a los creadores de contenido: las personas pueden solicitar eliminar su contribución al conjunto de datos después de entrenar un modelo
▸ Actualizar el conocimiento obsoleto a medida que llegan nuevos descubrimientos científicos

Introducción

El aprendizaje profundo ha impulsado recientemente un tremendo progreso en una amplia variedad de aplicaciones, desde la generación de imágenes realistas y sistemas de recuperación impresionantes hasta modelos de lenguaje que pueden mantener conversaciones humanas. Sin embargo, el uso generalizado de modelos de redes neuronales profundas requiere precaución: como lo guían los Principios de IA de Google, buscamos desarrollar tecnologías de IA responsablemente entendiendo y mitigando posibles riesgos, como la propagación y amplificación de sesgos injustos y la protección de la privacidad del usuario.

Recientemente Google ha publicado en su blog un artículo donde habla sobre cómo borrar completamente la influencia de los datos solicitados para ser eliminados es un desafío ya que, aparte de simplemente eliminarlos de las bases de datos donde se almacenan, también requiere borrar la influencia de esos datos en otros artefactos como los modelos de aprendizaje automático entrenados. Además, investigaciones recientes han demostrado que en algunos casos puede ser posible inferir con alta precisión si se usó un ejemplo para entrenar un modelo de aprendizaje automático utilizando ataques de inferencia de membresía (MIAs). Esto puede plantear preocupaciones sobre la privacidad, ya que implica que incluso si los datos de un individuo se eliminan de una base de datos, aún puede ser posible inferir si los datos de ese individuo se usaron para entrenar un modelo.

El machine unlearning

Dado lo anterior, el “machine unlearning” es un subcampo emergente del aprendizaje automático que tiene como objetivo eliminar la influencia de un subconjunto específico de ejemplos de entrenamiento – el “conjunto olvidado” – de un modelo entrenado. Además, un algoritmo ideal para el “unlearning” eliminaría la influencia de ciertos ejemplos mientras mantiene otras propiedades beneficiosas, como la precisión en el resto del conjunto de entrenamiento y la generalización a ejemplos retenidos. Una forma sencilla de producir este modelo “unlearned” es volver a entrenar el modelo en un conjunto de entrenamiento ajustado que excluya las muestras del conjunto olvidado. Sin embargo, esto no siempre es una opción viable, ya que volver a entrenar modelos profundos puede ser computacionalmente costoso. Un algoritmo ideal para “unlearning” utilizaría en su lugar el modelo ya entrenado como punto de partida y haría ajustes eficientemente para eliminar la influencia del conjunto solicitado.

Aplicaciones del machine unlearning

El desaprendizaje de máquinas tiene aplicaciones más allá de proteger la privacidad del usuario. Por ejemplo, se puede utilizar el desaprendizaje para eliminar información inexacta o desactualizada de los modelos entrenados (por ejemplo, debido a errores en la etiquetación o cambios en el entorno) o para eliminar datos dañinos, manipulados o atípicos.

El campo del desaprendizaje de máquinas está relacionado con otras áreas del aprendizaje automático, como la privacidad diferencial, el aprendizaje continuo y la equidad. La privacidad diferencial tiene como objetivo garantizar que ningún ejemplo de entrenamiento tenga una influencia demasiado grande en el modelo entrenado, lo cual es una meta más exigente en comparación con el desaprendizaje, que solo requiere borrar la influencia del conjunto designado para olvidar. La investigación sobre el aprendizaje continuo busca diseñar modelos que puedan aprender de manera continua mientras mantienen las habilidades adquiridas previamente.

A medida que avanza el trabajo en el desaprendizaje, también puede abrir nuevas formas de promover la equidad en los modelos, corrigiendo sesgos injustos o el tratamiento dispar de miembros pertenecientes a diferentes grupos (por ejemplo, demográficos, grupos de edad, etc.).

Anatomía del desaprendizaje. Un algoritmo de desaprendizaje toma como entrada un modelo previamente entrenado y una o más muestras del conjunto de entrenamiento para desaprender (“conjunto de olvidos”). A partir del modelo, conjunto olvidado y conjunto retenido, el algoritmo de desaprendizaje produce un modelo actualizado.

Anuncio del primer desarío de machine unlearning

Google ha anunciado el primer Desafío de Desaprendizaje de Máquinas, que se llevará a cabo como parte del NeurIPS 2023 Competition Track. El objetivo de la competición es doble. En primer lugar, al unificar y estandarizar las métricas de evaluación para el desaprendizaje, esperamos identificar las fortalezas y debilidades de diferentes algoritmos mediante comparaciones justas. En segundo lugar, al abrir esta competición a todos, esperamos fomentar soluciones novedosas y arrojar luz sobre los desafíos abiertos y las oportunidades existentes.

La competición se llevará a cabo en Kaggle y se desarrollará entre mediados de julio de 2023 y mediados de septiembre de 2023. Como parte de la competición, ya está disponible el kit de inicio. Este kit de inicio proporciona una base para que los participantes construyan y prueben sus modelos de desaprendizaje en un conjunto de datos de juguete.

Referencias

  • https://ai.googleblog.com/2023/06/announcing-first-machine-unlearning.html
  • Announcing the first Machine Unlearning Challenge. https://ai.googleblog.com/2023/06/announcing-first-machine-unlearning.html.
  • Google Announces The First Machine Unlearning Challenge. https://analyticsindiamag.com/google-announces-the-first-machine-unlearning-challenge/.
  • Asserting the primary Machine Unlearning Problem – Google Analysis …. https://www.nsmaat.net/2023/06/30/announcing-the-first-machine-unlearning-challenge-google-research-blog/.
User Avatar

Avelino Dominguez

👨🏻‍🔬 Biologist 👨🏻‍🎓 Teacher 👨🏻‍💻 Technologist 📊 Statistician 🕸 #SEO #SocialNetwork #Web #Data ♟Chess 🐙 Galician

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.

nothing phone 1
Previous Story

Nothing Phone 2: Discover the exciting enhancements of the new model

machine unlearning
Next Story

Google announces the first “Machine Unlearning” challenge

Top

Don't Miss