Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Hadoop MapReduce

No description
by

Jane Yakovleva

on 10 April 2014

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Hadoop MapReduce

Hadoop MapReduce Евгения Яковлева Java разработчик
i-Sys 2013 Roadmap "Тонем в информации"
MapReduce: начало
Hadoop: от Nutch до Apache
Что такое HDFS?
Что такое MapReduce? "Ежегодно объемы хранимой информации вырастают на 40%" IDC (International Data Corporation): Объем информации в цифровом виде 2006 год - 0,18 ZB*
2010 год - 1,2 ZB
2012 год - 2,43 ZB *ZB = 10 Bytes 21 "Тонем в информации" Big Data серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов MapReduce NoSQL Hadoop A long time ago in a galaxy far,
far away ... MapReduce Google
File System 2005 2008 1 ТБайт обработан за 209 сек.
на кластере из 910 узлов 2006 2009 Написан на: Java
Статус: активная разработка
ОС: кроссплатформенный
Лицензия: Apache License 2.0

Стабильная версия: 1.1.2 2013 Doug
Cutting Как же все это работает? MapReduce = вычисления
HDFS = хранение Hadoop Distributed File System (HDFS) - файловая система


с потоковым доступом к данным,
разработанная для хранения очень больших файлов
и функционирующая на кластере 4000 nodes : 22 PB Один раз пишем, много раз читаем Время чтения всего объема данных критичнее, чем задержка при чтении первой записи HDFS не подходит для обработки данных в реальном времени обработки большого количества маленьких файлов изменяющихся после записи файлов Namenode Datanodes 1 2 3 4 5 6 7 8 9 дерево файловой системы и метаинформация : 1, 4, 6 : 4, 7, 9 :2, 8, 9 MapReduce - модель распределенных вычислений Текстовые файлы: <byte offset, text>

Профиль пользователей: <user id, user profile>

Логи и история: <timestamp, access log entry> Данные
<key, value> Процесс обработки Map Reduce <K1, V1>
<K2, V2>
<K3, V3> <K1', V1'>
<K2', V2'>
<K3', V3'> Преобразование и фильтрация данных Агрегация и свертка данных <K1', V11'>
<K1', V12'>
<K1', V13'> "MapReduce works by breaking the processing into two phases: the map phase and the
reduce phase. Each phase has key-value pairs as input and output, the types of which
may be chosen by the programmer. " <bo1, "MapReduce works by breaking the processing">
<bo2, "into two phases: the map phase and the">
<bo3, "reduce phase. Each phase has key-value pairs as">
<bo4, input and output, the types of which">
<bo5, may be chosen by the programmer. "> K1', [V11', V12', V13'] <K1*, agregate(V11', V12', V13')> Mapper map map map map map <mapreduce, 1>
<works, 1>
<by, 1>
<breaking, 1>
<the, 1>
<processing, 1> <into, 1>
<two, 1>
<phases, 1>
<the, 1>
<map, 1>
<phase, 1>
<and, 1>
<the, 1> Sort Sort Merge <and, [1, 1]>
...
<phase, [1, 1, 1]>
<phases, [1]>
<processing, [1]>
<programmer, [1]>
<reduce, [1]>
<the, [1, 1, 1, 1, 1]>
<two, [1]>
<types, [1]>
<which, [1]>
<works, [1]> Reducer reduce reduce reduce reduce reduce <and, 2>
...
<phase, 3>
<phases, 1>
<processing, 1>
<programmer, 1>
<reduce, 1>
<the, 5>
<two, 1>
<types, 1>
<which, 1>
<works, 1> MapReduce Job "Counter" Tasks Map, Reduce JobTracker TaskTrackers JobTracker DataNodes/TaskTrackers NameNode Какие задачи можно решать используя MapReduce? Задачи, параллельные по данным. Анализ данных (Data Mining)
Машинное обучение (Machine Learning)
Индексирование неструктурированных данных и поиск по ним Проекты Apache, связанные с Hadoop //Ambari - управление и мониторинг кластера Hadoop //Avro - сериализация данных //Cassandra - распределённая система управления БД Кто использует Hadoop? Спасибо за внимание!
Вопросы? //Chukwa - масштабируемый сбор и анализ логов //HBase - нереляционная распределённая база данных //Hive - инфраструктура хранилища данных //Mohaut - масштабируемые алгоритмы машинного обучения //Pig // ZooKeeper e-mail: e.yakovleva@i-sys.ru
Full transcript