Cuando libremente eliges pertenecer a una red social tienes que tener en cuenta que vas a compartir mucha información personal de tu yo real. Estos datos personales en redes sociales son una baliza que te señalan. Es muy importante compartir la menor información sobre nosotros posible. Solo la necesaria para poder crear una cuenta.
Existen redes de ciberdelincuentes que utilizan herramientas de scrapping (extracción de datos de una página web) para crear bases de datos de perfiles públicos y luego venderlos al mejor postor. Ya no es que puedan acceder de manera ilícita a base de datos sino que crean programas para extraer esos datos de perfiles públicos.
Cuando se permite de la extracción de datos personales
La extracción de datos (web scraping) es la recopilación automática de información (por ejemplo, mediante software para la recolección de datos) de un sitio web u otras interfaces y funciones desarrolladas para personas. Si quieres realizarlo tienes que partir de la premisa que a lo mejor ciertas páginas web no permiten hacerlo. Por ejemplo, en los términos y condiciones de LinkedIn, en el punto 8.2 dice:
Develop, support or use software, devices, scripts, robots or any other means or processes (including crawlers, browser plugins and add-ons or any other technology) to scrape the Services or otherwise copy profiles and other data from the Services;
Es decir, LinkedIn no permite desarrollar, respaldar o usar software, dispositivos, scripts, robots o cualquier otro medio o proceso (incluidos rastreadores, complementos y complementos del navegador o cualquier otra tecnología) para extraer los servicios o copiar perfiles y otros datos de los Servicios. No lo permite.
Si el servicio no te permite hacerlo puedes realizar una extracción de datos no autorizada. Lo haces de manera oculta para que dicha actividad quede camuflada entre otros usos normales. Esto es lo más habitual.
El caso de LinkedIn
Hace un tiempo compartí una información sobre una filtración de datos de la red social de profesionales LinkedIn (vease https://avertigoland.com/2021/06/nueva-brecha-de-seguridad-en-linkedin/). La compañía desde el primer momento informó que no se había quebrantado su base de datos. Ahora se sabe que la persona que vendía esos datos, TomLiner, consiguió esa información mediante el uso del Api de LinkedIn.
Esta persona por diversión se dedicó a recopilar millones de datos públicos de usuarios de LinkedIn y posteriormente los puso a la venta en un foro de piratería. Nada menos que 700 millones de cuentas de usuarios de LinkedIn.
Obtener datos personales utilizando Apis
Este usuario utilizó un modus operandi muy sencillo. Durante 2 meses se dedicó a extraer cada día información de la api de Linkedin. Api es un acrónimo de Interfax de Programación de Aplicaciones. Son datos que una página web ofrece a sus usuarios o clientes y son accesibles para descargar. Sobre todo tiene un fin comercial y permiten que una aplicación se conecte con otra y compartir información.
Tardó tanto tiempo porque fue extrayendo datos poco a poco debido a que si el sistema observa que un usuario utiliza demasiado la api, puede banear a ese usuario para siempre.
Negar la evidencia
La respuesta de LinkedIn a esta filtración ha sido negar que se haya producido. En su blog han ido informando de la noticia de esta filtración. Niega que se trate de un problema pero el uso de su Api para conseguir datos es más que evidente.
De hecho, TomLiner comentó que consiguió de alguna forma engañar al api de Linkedin y de esta manera obtener más resultados sin activar ningún tipo de alarma.
Usando Python para extraer datos personales
En internet existen muchas páginas web que te permiten hacer web scraping utilizando Python, un lenguaje de programación muy empleado hoy en día.
Ya seas un científico de datos, un ingeniero o cualquiera que analice grandes cantidades de conjuntos de datos, la capacidad de extraer datos de la web es una habilidad muy útil. Supongamos que encuentras datos en la web y no hay una forma directa de descargarlos, el raspado web con Python es una habilidad que puede utilizar para extraer los datos en un formulario útil que se puede importar.
Si necesitas más información sobre esto puedes visitar estas páginas web: https://www.datacamp.com/community/tutorials/web-scraping-using-python, https://www.edureka.co/blog/web-scraping-with-python/ y https://realpython.com/beautiful-soup-web-scraper-python/.
Resumen
Es una buena idea compartir la menor información personal tuya en cualquier red social que utilices. Las técnicas de extracción de datos se emplean hoy en día para recolectar datos públicos de páginas web y crear bases de datos para posterior venta en el mercado negro.
Utilizar lenguajes de progrmación como Python puede permitirte el obtener datos personales de una manera automatizada realizado web scraping. Esta extracción de datos no puede evitarse y muchas veces se realiza sin que una página web se entere.
La seguridad en servicios online tiene que ser cada vez más estricta. El uso de apis puede resultar un problema y debe mejorarse su seguridad en un futuro cercano. Casos como las 700 millones de cuentas de LinkedIn es una clara demostración de esto.
Referencias
- https://www.bbc.com/news/business-57841239
- https://www.youtube.com/watch?v=Bg9r_yLk7VY
- https://www.datacamp.com/community/tutorials/web-scraping-using-python
- https://www.edureka.co/blog/web-scraping-with-python/
- https://realpython.com/beautiful-soup-web-scraper-python/