Outra (Vez) Tecnologia de Informação: Apache Hadoop

quarta-feira, 17 de outubro de 2012

Apache Hadoop

O Apache Hadoop é projeto open-source para desenvolvimento de sistemas de computação escalável, confiável e distribuída.

O biblioteca de software do Apache Hadoop é uma estrutura que permite o processamento distribuído de grandes conjuntos de dados através de clusters de computadores usando modelos simples de programação. Foi projetada para evoluir de um único servidor para um conjunto milhares de máquinas, cada uma oferecendo processamento e armazenamento local.

Em vez de depender de hardware específico para obtenção de disponibilidade elevada, a própria biblioteca foi concebida para detectar e tratar falhas na camada de aplicação, de modo fornecer um serviço altamente disponível no topo de um grupo de computadores, onde cada um deles pode ser propenso a falhas, isto é, pode ser uma máquina dotada de hardware comum.

O projeto inclui vário módulos, entre eles:

Hadoop Common: utilitários comuns que suportam os outros módulos Hadoop.
Hadoop Distributed File System (HDFS): Um sistema de arquivos distribuídos que oferece alto rendimento no acesso aos dados da aplicação.
Hadoop YARN: um framework de programação e gestão de recursos de cluster.
Hadoop MapReduce: Um sistema baseado no YARN para processamento paralelo de grandes conjuntos de dados.

É uma plataforma muito interessante! Veja mais em: http://hadoop.apache.org/

2 comentários:

Unknown24 de outubro de 2012 às 21:54
Uma iniciativa muito bacana e que as empresas estão cada vez mais dependente quando se necessitam de um ambiente de alta disponibilidade, robusto, confiável, escalável e distribuído.
Esse é um projeto bem maduro e que muitas empresas já estão usando, segundo http://wiki.apache.org/hadoop/PoweredBy, empresas bem conhecidas por nós... As grandes como Facebook, IBM, Mercado Livre, Twitter, entre muitos outros .... vale a pena conhecermos um pouco disso.!!

Publicação do Facebook com sua configuração de hardware:
"We use Hadoop to store copies of internal log and dimension data sources and use it as a source for reporting/analytics and machine learning.
Currently we have 2 major clusters:
A 1100-machine cluster with 8800 cores and about 12 PB raw storage.
A 300-machine cluster with 2400 cores and about 3 PB raw storage.
Each (commodity) node has 8 cores and 12 TB of storage.
We are heavy users of both streaming as well as the Java APIs. We have built a higher level data warehousing framework using these features called Hive (see the http://hadoop.apache.org/hive/). We have also developed a FUSE implementation over HDFS."

Abraço
Helder Narcizo
ResponderExcluir
Respostas

Adicionar comentário

Outra (Vez) Tecnologia de Informação

quarta-feira, 17 de outubro de 2012

Apache Hadoop

2 comentários:

Visualizações

Quem sou eu