La DATA, une source de profit et de contrôle

Tout d’abord une statistique importante : En 2015 il y avait 15 milliards d’appareils connectés à Internet et en 2020 il y en aura 50 milliards. Donc le sujet que je présente nécessitera des mises à jour constamment.

La DATA c’est quoi ?

Littéralement, ces termes signifient données, (Big DATA) mégadonnées, grosses données ou encore données massives. Ils désignent un ensemble très volumineux de données qu’aucun outil classique de gestion de base de données ou de gestion de l’information ne peut vraiment travailler. En effet, nous procréons environ 2,5 trillions d’octets de données tous les jours. Ce sont les informations provenant de partout : messages que nous nous envoyons, vidéos que nous publions, informations climatiques, signaux GPS, enregistrements transactionnels d’achats en ligne et bien d’autres encore.

Depuis quand ?

L’explosion quantitative des données numériques, surtout à partir de 2014, a obligé les chercheurs à trouver de nouvelles manières de voir et d’analyser le monde. Il s’agit de découvrir de nouveaux ordres de grandeur concernant la capture, la recherche, le partage, le stockage, l’analyse et la présentation des données. Ainsi est né le « Big Data ». Il s’agit d’un concept permettant de stocker un nombre indicible d’informations sur une base numérique. Selon les archives de la bibliothèque numérique de l’Association for Computing Machinery (ou ACM) dans des articles scientifiques concernant les défis technologiques à relever pour visualiser les « grands ensembles de données », cette appellation est apparue en octobre 1997.

L’utilité commerciale

La règle des 4V

1) Volume : À titre d’exemple sur une minute d’internet il y a 30H de vidéos uploader, 204 millions d’emails échangés (Oui, c’est vrai), et, pour les guignols qui ont twitter, plus de 100 000 tweets échangés. C’est flippant.

2) Variété : Ce sont les bases de données que les entreprises structures via les bases de données dîtes classiques (tableur etc.) mais qui représente que 20 % des données. Les 80 % restants doivent êtres traitées.

3) Vélocité : Pour traduire ceci c’est comme si vous deviez traverser un carrefour avec une photo prise il y a 5 min, tout ceci nous dépasse et très peu de personnes comprennent la dangerosité de toutes ces données.

Chez IBM il y a un 4ème point, la véracité qui est devenue une norme. Toutes les données doivent être assuré de leurs véracités et les données sont analysés dans leurs contextes si elles sont vraies ou fausses comme dans le domaine médical ou celui de la surveillance 🙂

Je vous invite à suivre les articles de Patrice Poiraud directeur du Big Data chez IBM France. Et je prends volontairement un vieil article datant de 2001 pour vous montrer que ce Monsieur avez déjà compris beaucoup de choses.

http://www.journaldunet.com/solutions/itws/011221_it_ibmsw_poiraud.shtml (Acces Denied)

Vous êtes une mine d’informations pour les entreprises que ce soit les calories que vous brûlez pour vous rendre au travail ou durant vos séances de sports (baise inclus:)), vos heures de sommeil, le détail de vos sorties en vélo, taxi, voiture perso etc.… vos types de produits achetés tout votre quotidien et soigneusement sauvegardés, stockés pour le plus grand plaisir des Data Analyst.

Deux exemples : Les voitures connectés et les données médicales.

Les véhicules immatriculés à partir de 2004 sont équipés de capteurs qui mesure votre consommation d’essence, kilomètres parcourus en moyenne, si vous êtes à jours des révisions etc. Donc la marque de votre véhicule exploite vos données mais aussi les assurances qui les exploitent pour faire des bonus-malus « types » et des contrats « types ».

En France, le groupe Axa offre à certains de ces assurés un bracelet qui mesure le rythme cardiaque, nombre de pas, oxygène dans le sang etc. un gros stock de données. Puis les assureurs ont accès aux données et « récompense » ceux qui ont un mode de vie sain par une ristourne de 100 euros, en fonction de leurs critères bien évidemment :).

L’intelligence artificielle est la DATA.

Je vous invite à lire ce bel article 🙂

La convergence entre le Big Data et l’IA semble inévitable à l’heure où l’automatisation des prises de décisions intelligentes se présente comme la prochaine évolution du Big Data.

https://www.lebigdata.fr/intelligence-artificielle-et-big-data

L’intérêt des institutions pour la DATA.

Je vais prendre un exemple frappant mais qui vous montrera à quel point un État aura un contrôle total sur nous grâce à toutes les données que nous échappons : LES ÉLECTIONS AMÉRICAINES DE 2012.

Comment l’équipe d’Obama a-t-elle pu ramasser plus d’un milliard de dollars de don pour la campagne ? La réponse est le BIG DATA 🙂

70 % de cette somme a été versée en ligne. Dans l’État de l’Ohio (un état clé généralement) les données de 28 000 votants ont été injectés dans des supercalculateurs qui ont reproduit des dizaines de milliers de scénario possible pour trouver les arguments nécessaires aux votes démocrates. Finalement Obama a été élu, bien sûr pas que grâce à la Data mais elle a eu un rôle important pour comprendre le comportement des électeurs.

Je vous invite à suivre Rayid GHANI le « spécialiste » du DATA.

Traçabilité

Pour faire simple : Les emmerdes commencent pour nous

La traçabilité pourrait également être définie comme « la trace contemporaine que l’écriture nous a léguée depuis des millénaires sous les formes nouvelles du code-barre, de la carte bancaire ou du message électronique. » Jean- Luc Viruéga, Traçabilité : outils, méthodes et pratiques, Éditions d’Organisations, 2005.

Ce besoin est également présent au sein des sociétés modernes envahies par les TIC pour assurer principalement la sécurité. Fil d’Ariane de la responsabilité, la traçabilité permet d’exercer une surveillance des objets, des personnes et leurs activités.

Je vous invite à suivre la société « Palantir » :), une entreprise de visualisation de données travaillant avec des dizaines de services de police ou de renseignement, dont la DGSI.

La CNIL inquiète face à l’essor de la vidéo-surveillance couplée au big data

Une véritable surveillance des masses est en cours de développement avec des méthodes sournoises sur tout ce que nous « produisons » dans notre quotidien. Cathy O’Neil, une mathématicienne, a publiée un livre (Algorithmes : la bombe à retardement) qui explique en grande partie les enjeux de notre vie privé dans les prochaines années.

– Surveillance.

– Discrimination à l’embauche, crédit, etc.

– Développement de la médecine.

Nous sommes à l’aube d’un nouveau système de type « Orwellien » bien plus poussé que l’original. Si une entreprise peut tant collecter sur nous alors un État peut le faire indéfiniment. Avec toutes les données que nous traînons nous sommes si traçables, maniable, que désormais même la notion de démocratie ne signifiera plus grand-chose à terme.

En IRL nous sommes traçable tandis que sur le Deep Web nous recherchons l’anonymat. Est-ce que l’anonymat que l’on défend et que l’on recherche est-il possible avec l’émergence du « fléau » du Big Data ?

La réponse est difficile mais je vous invite tous à suivre déjà deux topics du forum, en l’occurrence, celui sur la couche hardware et humaine. C’est sûr avec les permis électroniques, cartes grises, données médicales on peut difficilement y échapper mais le but de ce forum est de pouvoir échanger librement des pistes contre l’oppression qui nous attends (je ne suis pas complotiste).

Le RGPD qui est censé nous garantir une protection est assez floues sur certains aspects de nos données. La collecte n’a aucune limite au vu de notre mode de vie ultra-connecté.

L’internet, la numérisation des pratiques dites « traditionnelles », les réseaux sociaux, permettent sans cesse le stockage des données. Nous pouvons ainsi parler d’un « déluge de data ». Tout particulièrement, l’expression « Big Data » est continuellement employée pour qualifier une nouvelle dynamique sociétale qui serait caractérisée « non seulement par la production de quantités massives de données, mais surtout par les énormes bénéfices potentiels que recèlerait l’utilisation de nouveaux outils de statistiques permettant d’analyser ces données. » Maxime, Ouellet, André, Mondoux, Marc, Ménard, Maude, Bonenfant, Fabien, Richert, « Big Data,

Gouvernance et surveillance », Rapport de recherche effectué dans le cadre du projet « la gouvernance des

Systèmes de communication » (FRQSC – Soutien aux équipes de recherche, 2010-2015)

En complément il est maintenant possible de vendre ses informations personnelles via Wibson une application décentralisée.

https://wibson.org/

« Don’t give away your data for free.
Make a profit.
Wibson is a blockchain-based, decentralized data marketplace that provides individuals a way to securely and anonymously sell validated private information in a trusted environment
. »

https://www.forbes.com/sites/joewalleneurope/2018/10/11/european-consumers-can-now-profit-from-selling-their-own-personal-data

Afin d’utiliser Wibson, les consommateurs téléchargent l’application sur leur téléphone avant de choisir les informations personnelles qu’ils souhaitent mettre à leur disposition. Les informations relatives aux appareils mobiles, telles que la géolocalisation, l’opérateur et le fuseau horaire, les données sociales, notamment Facebook ou LinkedIn, peuvent contenir des adresses e-mail, des noms, la localisation et des informations sur la condition physique, telles que Google Fitness ou Strava, qui fournissent des informations sur la pression artérielle, la glycémie et les capteurs corporels. Être mis en vente. Les utilisateurs peuvent également choisir de vendre des données anonymement s’ils se soucient de leur vie privée.

Le consommateur répertorie ensuite ces choix sur l’application et peut prendre en compte les offres des grands groupes de données. Les informations des vendeurs de données restent sur leurs propres appareils jusqu’à ce qu’ils conviennent d’une vente. Ce n’est qu’alors que leurs données cryptées sont directement transférées à l’acheteur via le réseau de blockchain alimenté par Ethereum de Wibson. Les notaires sont également utilisés pour vérifier et valider l’authenticité des données personnelles des individus.

Sujet à la hauteur de la pertinence…

On pourrait éventuellement y inclure la « cybersécurité » où justement un algorithme spécifique serait implanté dans des fichiers
pour se protéger non pas des attaques externes mais internes ! WaToo tatoue les données pour identifier l’auteur des fuites…

Science sans conscience n’est que ruine de l’âme

Je vous propose une expérience de pensée.

Imaginez un monde où la criminalité organisé ne peut plus fonctionner car le système de surveillance est tellement développé qu’il est capable d’analyser continuellement la population, de dégager chaque point de friction et de dépêcher des méthodes de rétorsion sur toute situation à risque.

Dès lors, la surpopulation, les dérives religieuses, identitaires, politiques, sectaires, etc… deviennent des point de friction qu’il apparais nécessaire de détruire.

De la même façon, tout système technique, industriel, scientifique qui génère de la friction peut être coupé à la source également, pour améliorer le rendement en tranquillité & sécurité de la société.

Certes la population perd ainsi une liberté d’expérimentation dans les errements immoraux. Elle ne peut en revanche pas perdre de liberté fondamentale, excepté celles à l’auto-détermination (notamment au niveau démographique, mais pas que).

Mais je vous pose donc la question : est-ce la société y gagne objectivement ?

Si la réponse est oui : pourquoi refuser le développement des « data sciences » ? 🙂

Je me fais l’avocat du diable, mais je trouve cela assez drôle pour être franc.

« Alors, pour ta première question il y a une double réponse oui-non. Je préfère te répondre un oui, mais…

En effet il y a un gain indéniable que ce soit sociétal ou économique avec les data sciences que ce soit :
– Perfection de la médecine.
– Compréhension des bouleversements socio-démographique.
– Développement économique.
– Anticipation des risques etc…

Mais comme tu me l’a déjà dit la limite à la DATA est plutôt dans la souveraineté des données.

Dans quel sens ? Les limites ne sont pas définies, loin de la même, sur l’utilisation de nos données que nous produisons à titre privé, professionnelle, etc.

Ta question ne fais pas de toi « l’avocat du diable » mais je pense que le problème est plutôt que pour l’instant la DATA reste un secteur ou l’immense majorité de la population s’y intéresse peu et que divers groupes ayant des intérêts exploitent les données à diverses fins.

Par contre j’ai une question. Existe-t-il une manière d’échapper à la DATA ? Et si oui, comment ? »

L’armée s’intéresse à la DATA est de manière très minutieuse :
Les services secrets recrutent.

Un site avec beaucoup de podcast et d’infographies: https://www.ibmbigdatahub.com/category/932/infographics
Exemple :
https://www.ibmbigdatahub.com/sites/default/files/styles/xlarge-scaled/public/public_safety_infographic.jpg?itok=ZXbkjFn8

Et les règles à suivre pour faire un bon film « type » bolywood:
https://www.ibmbigdatahub.com/sites/default/files/styles/xlarge-scaled/public/infographic_image/Bollywood-1_2014.jpg?itok=oZ331pih

Un « petit » scrapper en python sur un site de pétition pour le RIC :

#!/usr/bin/env python3 # -*- coding: utf-8 -*- """ Created on Mon 31 12 23:59:57 2018 @author: VTech alias logitech """ import urllib.request from bs4 import BeautifulSoup import re urlpage = 'https://www.article3.fr/actions/petition-pour-l-instauration-du-referendum-d-initiative-citoyenne-en-france?cdpetitions_limitstart=' fin_url = '#cdpetitions-signatures' def find_nb_page(): page = urllib.request.urlopen(urlpage) soup = BeautifulSoup(page, 'html.parser') data = soup.find('div', attrs={'class':'pagination'}) anch = data.find('a',attrs={'title':'Fin'}) search_result = re.search(r'\d+', str(anch)) chaine_chiffre = search_result.group(0) return int(chaine_chiffre) def parser(nb_page): for page in range(0,nb_page,100): requete = urllib.request.urlopen(urlpage + str(page) + fin_url) soup = BeautifulSoup(requete, 'html.parser') tbody = soup.find('tbody') resultats = tbody.find_all('tr') for resultat in resultats: a= 1 for item in resultat.fetchNextSiblings(): if a ==2: pass else: if item.find('a'): res = str(item.find('a')) rez = res.replace('<a data-cdpetitions-tooltip="','').replace('" href="#"> </a>','') if 'href="#"' in rez :#changement de page print (item.text[1:]) print (urlpage[0:]+ str(page) + fin_url) a +=1 else: #commentaire print (item.text[1:] ,rez.replace('\n','')) a +=1 else: #sans commentaire print (item.text[1:]) a +=1 nb_page = find_nb_page() print ('[+]nb de page: ',nb_page) parser(nb_page)

C’est un sujet peu développer pour l’instant alors que la DATA c’est le contrôle de demain 🙁
Nous sommes en retard nous français sur ce sujet. Les Américains et Chinois eux l’ont bien compris.

Pour répondre dans la généralité :

le DATA ANALYTIC c’est bien, mais le tout couplé à l’IA…… Permettez-moi d’avoir un affreux doute sur la neutralité
de cette « puissance de calcul » surtout si les biais cognitifs ne sont pas corrigés dès le départ !

Il y aura forcément une dérive & ce, dans n’importe quel domaine…. Du moment où le seul mot d’ordre est de
séparer les méchants des gentils pour un avenir utopique sur la surpopulation mondiale.