Qual é a diferença entre HDFS e MapReduce

Índice:

Anonim

o principal diferença entre HDFS e MapReduce é que HDFS é um sistema de arquivos distribuído que fornece acesso de alto rendimento aos dados do aplicativo, enquanto o MapReduce é uma estrutura de software que processa big data em grandes clusters de maneira confiável.

Big data é uma coleção de um grande conjunto de dados. Possui três propriedades principais: volume, velocidade e variedade. Hadoop é um software que permite armazenar e gerenciar big data. É uma estrutura de software livre escrita em Java. Além disso, ele oferece suporte ao processamento distribuído de grandes conjuntos de dados em clusters de computadores. HDFS e MapReduce são dois módulos na arquitetura Hadoop.

Big Data, HDFS, MapReduce

O que é HDFS

HDFS significa Sistema de arquivos distribuídos Hadoop. É um sistema de arquivos distribuído do Hadoop para execução em grandes clusters de forma confiável e eficiente. Além disso, é baseado no Google File System (GFS). Além disso, também possui uma lista de comandos para interagir com o sistema de arquivos.

Além disso, o HDFS funciona de acordo com a arquitetura mestre e escravo. O nó mestre ou nó de nome gerencia os metadados do sistema de arquivos enquanto os nós escravos ou as notas de dados armazenam dados reais.

Figura 1: Arquitetura HDFS

Além disso, um arquivo em um namespace HDFS é dividido em vários blocos. Os nós de dados armazenam esses blocos. E, o nó de nome mapeia os blocos para os nós de dados, que lidam com as operações de leitura e gravação com o sistema de arquivos. Além disso, eles realizam tarefas como criação de bloco, exclusão etc. conforme instruído pelo nó de nome.

O que é MapReduce

MapReduce é uma estrutura de software que permite escrever aplicativos para processar big data simultaneamente em grandes clusters de hardware comum. Esta estrutura consiste em um único rastreador de trabalho mestre e um rastreador de tarefa escravo por nó do cluster. O mestre realiza o gerenciamento de recursos, agendando trabalhos em escravos, monitorando e reexecutando as tarefas que falharam. Por outro lado, o rastreador de tarefas escravo executa as tarefas instruídas pelo mestre e envia as informações de status das tarefas de volta para o mestre constantemente.

Figura 2: Visão geral do MapReduce

Além disso, existem duas tarefas associadas ao MapReduce. Eles são a tarefa de mapa e a tarefa de redução. A tarefa de mapa pega os dados de entrada e os divide em tuplas de pares de chave e valor, enquanto a tarefa Reduzir pega a saída de uma tarefa de mapa como entrada e conecta essas tuplas de dados em tuplas menores. Além disso, a tarefa de mapa é executada antes da tarefa de redução.

Diferença entre HDFS e MapReduce

Definição

HDFS é um sistema de arquivos distribuído que armazena de forma confiável arquivos grandes em máquinas em um grande cluster. Em contraste, MapReduce é uma estrutura de software para escrever facilmente aplicativos que processam grandes quantidades de dados em paralelo em grandes clusters de hardware comum de maneira confiável e tolerante a falhas. Essas definições explicam a principal diferença entre HDFS e MapReduce.

Funcionalidade Principal

Outra diferença entre o HDFS e o MapReduce é que o HDFS fornece acesso de alto desempenho aos dados em clusters Hadoop altamente escalonáveis, enquanto o MapReduce executa o processamento de big data.

Conclusão

Em resumo, HDFS e MapReduce são dois módulos na arquitetura Hadoop. A principal diferença entre HDFS e MapReduce é que HDFS é um sistema de arquivos distribuído que fornece acesso de alto rendimento aos dados do aplicativo, enquanto MapReduce é uma estrutura de software que processa big data em grandes clusters de maneira confiável.

Referência:

1. “HDFS Architecture Guide”, Apache Hadoop, disponível aqui. 2. “MapReduce Tutorial”, Apache Hadoop, disponível aqui.3. “O que é o Hadoop Distributed File System (HDFS)? - Definição de WhatIs.com. ” SearchDataManagement, disponível aqui.

Cortesia de imagem:

1. “Hdfsarchitecture” de Magnai17 - Trabalho próprio (CC BY-SA 4.0) via Commons Wikimedia2. “Visão geral de Mapreduce” por Poposhka - SVG-Edit (CC BY-SA 3.0) via Commons Wikimedia

Qual é a diferença entre HDFS e MapReduce