quarta-feira, 17 de outubro de 2012

Apache Hadoop

O Apache Hadoop é projeto open-source para desenvolvimento de sistemas de computação escalável, confiável e distribuída.

O biblioteca de software do Apache Hadoop é uma estrutura que permite o processamento distribuído de grandes conjuntos de dados através de clusters de computadores usando modelos simples de programação. Foi projetada para evoluir de um único servidor para um conjunto milhares de máquinas, cada uma oferecendo processamento e armazenamento local.
Em vez de depender de hardware específico para obtenção de disponibilidade elevada, a própria biblioteca foi concebida para detectar e tratar falhas na camada de aplicação, de modo fornecer um serviço altamente disponível no topo de um grupo de computadores, onde cada um deles pode ser propenso a falhas, isto é, pode ser uma máquina dotada de hardware comum.
O projeto inclui vário módulos, entre eles:
  • Hadoop Common: utilitários comuns que suportam os outros módulos Hadoop.
  • Hadoop Distributed File System (HDFS): Um sistema de arquivos distribuídos que oferece alto rendimento no acesso aos dados da aplicação.
  • Hadoop YARN: um framework de programação e gestão de recursos de cluster.
  • Hadoop MapReduce: Um sistema baseado no YARN para processamento paralelo de grandes conjuntos de dados.
É uma plataforma muito interessante! Veja mais em: http://hadoop.apache.org/

2 comentários:

  1. Uma iniciativa muito bacana e que as empresas estão cada vez mais dependente quando se necessitam de um ambiente de alta disponibilidade, robusto, confiável, escalável e distribuído.
    Esse é um projeto bem maduro e que muitas empresas já estão usando, segundo http://wiki.apache.org/hadoop/PoweredBy, empresas bem conhecidas por nós... As grandes como Facebook, IBM, Mercado Livre, Twitter, entre muitos outros .... vale a pena conhecermos um pouco disso.!!

    Publicação do Facebook com sua configuração de hardware:
    "We use Hadoop to store copies of internal log and dimension data sources and use it as a source for reporting/analytics and machine learning.
    Currently we have 2 major clusters:
    A 1100-machine cluster with 8800 cores and about 12 PB raw storage.
    A 300-machine cluster with 2400 cores and about 3 PB raw storage.
    Each (commodity) node has 8 cores and 12 TB of storage.
    We are heavy users of both streaming as well as the Java APIs. We have built a higher level data warehousing framework using these features called Hive (see the http://hadoop.apache.org/hive/). We have also developed a FUSE implementation over HDFS."


    Abraço
    Helder Narcizo

    ResponderExcluir
    Respostas
    1. Pelo que li, o Yahoo foi um dos principais colaboradores do projeto. E além destas grandes empresas, é provável que muitas outras adotem o Hadoop de agora em diante. Pois na era de explosão de dados em que vivemos, o Hadoop se tornou o padrão quando se trata de processamento distribuído em larga escala.

      Excluir