The Internet belongs to everyone. Let’s keep it that way.

Protect Net Neutrality
Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Big data EMSI

No description
by

Issam KarAfi

on 6 August 2017

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Big data EMSI

Les 4 grandes familles de NoSQL :

Clé/valeur

Orienté colonne

Orienté document

Orienté graphe



Hadoop - HDFS
Distributed File System (DFS) ?

Un système de fichiers distribués est un système de fichiers permettant le partage de fichiers à plusieurs clients au travers du réseau informatique







Les avantages d’Hadoop Distributed File System (HDFS) :
Implémentable sur des architectures traditionnelles
Scalabitlité illimité
Réplication des données
Déploiement sur différents OS


INDUSTRIE
MARKETING
ENVIRONNEMENT
LOGISTIQUE
Jean Paul Isson



- Présentation du CeBIT

- Big Data ?

- Cas d'utilisations rencontrés au CeBIT

- Ethique & Big Data

- Exemple d'analyse du contenu des réseaux sociaux

- Présentation des technologies utilisées

Quantité massive de données
Teraoctet en quelque chiffre:
- 10^6 Megaoctet
- 10^3 Gigaoctet
Défis du Big Data:
- Santé
- Télécoms
- Services publics
- Politique
Aujourd'hui nous utilisons les données à grandes échelles pour 3 raisons:

- Le coût
- Les informations
- L'augmentation des moyens
Traitement simultané
Volume moyen de données stockées en 2009 par société aux Etats-Unis ( source : IDC, McKinsey Global Institute Analysis )
Prévision du volume mondial des données créées (source :IDC)
Analyses basées sur les requêtes de connexion Wi-Fi (PING= Adresse MAC et temps de connexion)
Approche E-commerce de l'analyse (Taux de conversion à la "visite"

Analyse en temps réél de plus d' 1 million d'enregistrements par minute
Identification des évenements critiques et majeurs
Mode prédictif, pour modélisation

Pour le client
Bons plans
Proposition de produits
Analyse en temps réel des préférences
Pour le commerçant
Clients conservés
Ventes assurées
+5% en 2020
Prise de décisions rapide
Analyse en temps réél des données météorologiques
Adapatation du système aux habitudes de consommation des utilisateurs
Gestion de la distribution de l'énergie en temps réél

Analyse en temps réél des flux logistiques pour choisir l'itinéraire optimal pour le transport des bagages
Enregistrement continu de la position du bagage
Analyse de l'historique du voyageur (préfences, poids du bagage, fréquences, etc).

"Ensemble des données tellement volumineux et trop évolutif pour être traiter facilement" Livre blanc Isaca
"Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making." Gartner
Les réseaux sociaux
Les usages
Les enjeux
Les perspectives
7
Etudiants du Mastère Spécialisé Systèmes d'Information et Management (SIM)
5
Jours passés à Hanovre
Salon des nouvelles technologies dans le monde
1
Premier jour
Troisième jour
er
"Business intelligence (BI) is an umbrella term that includes the applications, infrastructure and tools, and best practices that enable access to and analysis of information to improve and optimize decisions and performance." Gartner
Quelques conférenciers...
Ce
ntrum für
B
üroautomation,
I
nformationstechnologie
und
T
elekommunikation
Quoi?
Le plus grand salon pour les technologies de l'information au monde
Où?
Parc d'exposition de Hanovre, Allemagne
Shanghai, Sydney, Istanbul, New York
Quand?
Tous les ans depuis 1986 (5 jours)
Qui?
140 conférenciers, 3000 participants, 330 000 de visiteurs
Thèmes de 2014?
Data Revolution, Mobilité, Sécurité, Cloud...

Salons concurrents :
Consumer Electronics Show - Las Vegas, USA
Computex - Taipei, Taiwan
...

70,3 millions d’enregistrements de données téléphoniques de Français entre le 10 décembre 2012 et 8 Janvier 2013.

la NSA a déjà mis en chantier son prochain "data center",  un nouveau complexe de 60000 mètres carrés

en France, la loi “informatique et liberté”
Issue directement la directive européenne de 1995


Directive transposée dans les pays europèen :
Loi fédérale de protection des données – 2001 (Bundesdatenschutzgesetz (BDSG) ).en Allemagne



« The Privacy Act  » aux Etat-Unis
Très affaibli par le « USA PATRIOT Act  » qui a été prolongé jusqu’à 2015

Source : Boston College Law Review, Volume 48, Issue 3 Number 3

Ecole de Management des Systèmes d'Information (EMSI Grenoble)
« USA PATRIOT Act »
Mis en place en 2001 par le Gouvernement George W. Bush, prolongé en 2011 jusqu’en 2016

DEMO
Toutes les données doivent être anonymiser, loi
“informatique et liberté”

Très grandes possiblités de croisement des données

Les technologies du Big Data
Framework Hadoop - Origines

Hadoop est un système de traitement de données évolutif pour le stockage et le traitement par lot de très grande quantité de données. Il est tout à fait adapté aux stockages de grande taille et aux analyses de type "ad hoc" sur de très grandes quantités de données
Framework Hadoop - MapReduce

MapReduce: kit de développement informatique

Protéction de la libérté individuelle
Les bases de données NoSQL
- Quelques problèmes des SGBDR liés au Big Data :
stockage insuffisant
variabilité des données
Augmentation forte du temps de lecture
- S’appuie sur le modèle CAP :
Cohérence
Availability
Partitionnement

Zettaoctets*
de données
* soit 21 zéros après le chiffre
Les technologies
Evolution

L'évolution du monde est en cours...
Hadoop
HDFS
MapReduce
Base NoSQL
SGBDR
Les 4 familles
Solutions
Cloudera
Pig Latin
Hive

annuelle
%
Hadoop - Map Reduce
MapReduce est un kit de développement informatique dans lequel sont effectués des calculs parallèles et distribués de données potentiellement très volumineuse.

Hadoop - Résumé
Les bases de données NoSQL
Les bases de données NoSQL
Quelques problèmes des SGBDR liés au Big Data :
Stockage insuffisant
Variabilité des données
Augmentation forte du temps de lecture

Impératif technologique de se tourner vers des bases de données NoSQL



Les bases de données NoSQL
S’appuie sur le modèle CAP :

Cohérence
Availability
Partitionnement


Solution Big Data – Particulier/étudiant
Cloudera
Distributeur de service autour du Big Data
Fournit une machine virtuelle paramétrable pour installer Hadoop
HIVE
Librairie permettant de programmer de HiveQL (similaire au SQL)
PIG LATIN
Librairie permettant de programmer en langage haut niveau (similaire au SAS)

 Ces langages de haut niveau sont dédiés à l’analyse de gros volumes

Full transcript