Cluster


Sobre os servidores de cluster

A infra-estrutura de e-business atual requer soluções de tecnologia da informação que possam atender demandas crescentes com alta confiabilidade e facilidade de gerenciamento. Além disso, os clientes desejam soluções que ofereçam a escalabilidade para crescimento com os negócios, a flexibilidade para desenvolver e implementar rapidamente novos serviços e que ofereçam esses benefícios a um custo aceitável. Para muitos clientes, o armazenamento em cluster é a resposta.
O armazenamento em cluster tem sido por muitos anos a força motriz por trás de muitos dos supercomputadores científicos mais poderosos do mundo e agora está sendo utilizado cada vez mais como uma forma de oferecer computação de alto desempenho a um custo reduzido, alta disponibilidade para uma grande variedade de cargas de trabalho comerciais, como business intelligence, projetos de engenharia, análise financeira, mídia digital e exploração de petróleo.
O armazenamento em cluster é a prática de conectar vários processadores ou servidores que cooperarem em cargas de trabalho complexas como um recurso de computação único e unificado. Como ele se comporta como um único recurso grande, um sistema em cluster oferece muitos importantes benefícios para um ambiente moderno de e-business, incluindo:

Um cluster, ou aglomerado de computadores, é formado por um conjunto de computadores, que utiliza-se de um tipo especial de sistema operacional classificado como sistema distribuído. Muitas vezes é construído a partir de computadores convencionais (personal computers), os quais são ligados em rede e comunicam-se através do sistema, trabalhando como se fossem uma única máquina de grande porte. Há diversos tipos de cluster. Um tipo famoso é o cluster da classe Beowulf, constituído por diversos nós escravos gerenciados por um só computador.
Pode ser definido também como o cruzamento de uma trilha com um setor de um disco formatado. Um HD (Hard Disc)possui vários clusters que serão usados para armazenar dados de um determinado arquivo. Com essa divisão em trilhas e setores, é possível criar um endereçamento que visa facilitar o acesso a dados não contíguos, assim como o endereçamento de uma planilha de cálculos ou, como um exemplo mais simples, o tabuleiro do jogo "Batalha Naval"

História

A idéia inicial que conduz ao cluster foi desenvolvida na década de 1960 pela IBM como uma forma de interligar grandes mainframes, visando obter uma solução comercialmente viável de paralelismo. Nesta época o sistema HASP (Houston Automated Spooling Program) da IBM e seu sucessor, JES (Job Entry System) proviam uma maneira de distribuir tarefas nos mainframes interligados. A IBM ainda hoje (2001) suporta o cluster de mainframes através do Parallel Sysplex System, que permite ao hardware, sistema operacional, middleware e software de gerenciamento do sistema prover uma melhora dramática na performance e custo ao permitir que usuários de grandes mainframes continuem utilizando suas aplicações existentes.
Entretanto, o cluster ganhou força até que três tendências convergiram nos anos 1980: microprocessadores de alta performance, redes de alta velocidade, e ferramentas padronizadas para computação distribuída de alto desempenho. Uma quarta tendência possível é a crescente necessidade de poder de processamento para aplicações científicas e comerciais unida ao alto custo e a baixa acessibilidade dos tradicionais supercomputadores.
No final de 1993, Donald Becker e Thomas Sterling iniciaram um esboço de um sistema de processamento distribuído construído a partir de hardware convencional como uma medida de combate aos custos dos supercomputadores. No início de 1994, trabalhando no CESDIS, com o patrocínio do projecto HTPCC/ESS, criaram o primeiro cluster desse tipo, o projecto Beowulf.
O protótipo inicial era um cluster de 16 processadores DX4 ligados por dois canais Ethernet acoplados (Ethernet bonding). A máquina foi um sucesso instantâneo e esta idéia rapidamente se espalhou pelos meios académicos, pela NASA e por outras comunidades de pesquisa.

 
Cluster da nasa,columbia , executando linux com 10,240 processadores.

Introdução

Este artigo tem por finalidade dar ao leitor uma visão mais integrada do que vem a ser a computação em cluster e como esta a cada dia vem crescendo no mercado mundial, espero que seja do seu inteiro agrado e que ajude na percepção da importância desta tecnologia.

O que é um Cluster ?

Na sua forma mais básica um cluster é um sistema que compreende dois ou mais computadores ou sistemas (denominados nodos) na qual trabalham em conjunto para executar aplicações ou realizar outras tarefas, de tal forma para que os usuários que os utilizam tenham a impressão que somente um único sistema responde para eles, criando assim uma ilusão de um recurso único (computador virtual). Este conceito é denominado transparência do sistema. Como características fundamentais para a construção destas plataformas inclui-se elevação da: confiança, distribuição de carga e performance.

Tipos de Clusters

·  Alta Disponibilidade (High Availability (HA) and Failover), estes modelos de clusters são construídos para prover uma disponibilidade de serviços e recursos de forma ininterruptas através do uso da redundância implícitas ao sistema. A idéia geral é que se um nó do cluster vier a falhar (failover), aplicações ou serviços possam estar disponíveis em outro nó. Estes tipos de cluster são utilizados para base de dados de missões críticas, correio, servidores de arquivos e aplicações.

·  Balanceamento de carga (Load Balancing), este modelo distribui o tráfego entrante ou requisições de recursos provenientes dos nodos que executam os mesmos programas entre as máquinas que compõem o cluster. Todos os nodos estão responsáveis em controlar os pedidos. Se um nó falhar, as requisições são redistribuídas entre os nós disponíveis no momento. Este tipo de solução é normalmente utilizado em fazendas de servidores de web (web farms).

·  Combinação HA & Load Balancing, como o próprio nome diz combina as características dos dois tipos de cluster, aumentando assim a disponibilidade e escalabilidade de serviços e recursos. Este tipo de configuração de cluster é bastante utilizado em servidores de web, mail, news ou ftp.

·  Processamento Distribuído ou Processamento Paralelo, este modelo de cluster aumenta a disponibilidade e performance para as aplicações, particularmente as grandes tarefas computacionais. Uma grande tarefa computacional pode ser dividida em pequenas tarefas que são distribuídas ao redor das estações (nodos), como se fosse um supercomputador massivamente paralelo. É comum associar este tipo de cluster ao projeto Beowulf da NASA. Estes clusters são usados para computação cientifica ou análises financeiras, tarefas típicas para exigência de alto poder de processamento.

High-Availability (HA) ou Failover Clusters



Cluster de Alta Disponibilidade

Os computadores possuem uma forte tendência a parar quando menos você espera, principalmente num momento em que você mais necessita dele. É raro não encontrar um administrador que nunca recebeu um telefonema no meio da madrugada com a triste notícia que o sistema de missão critica ficou fora ar, ou seja, não tem jeito você tem que ir e resolver o problema. A Alta Disponibilidade está ligada diretamente a nossa crescente dependência aos computadores, pois agora eles possuem um papel crítico principalmente em empresas cuja maior funcionalidade é exatamente a oferta de algum serviço computacional, como e-business, notícias, sites web, banco de dados, dentre outros. Um cluster de Alta Disponibilidade visa manter a disponibilidade dos serviços prestados por um sistema computacional replicando serviços e servidores, através da redundância de hardware e reconfiguração de software. Vários computadores juntos agindo como um só, cada um monitorando os outros e assumindo seus serviços caso algum deles venham a falhar. A complexidade do sistema deve estar no software que deve se preocupar em monitorar outras máquinas de uma rede, saber que serviços estão sendo executados, quem os está executando, e o que como proceder em caso de uma falha. Perdas na performance ou na capacidade de processamento são normalmente aceitáveis; o objetivo principal é não parar. Existem algumas exceções, como sistemas de tempo real e de missão crítica. A tolerância a falhas é conseguida através de hardware, como sistemas raid, fontes e placas redundantes, sistemas rede totalmente ligados para prover caminhos alternativos na quebra de um link.

Cluster de Balanceamento de Carga

O balanceamento de carga entre servidores faz parte de uma solução abrangente em uma explosiva e crescente utilização da rede e da Internet. Provendo um aumento na capacidade da rede, melhorando a performance. Um consistente balanceamento de carga mostra-se hoje, como parte integrante de todo o projeto de Web Hosting e comércio eletrônico. Mas não se pode ficar com as idéias presas de que isso é só para provedores, devemos aproveitar as suas características e trazermos para dentro das empresas esse modo de usar a tecnologia para atendermos os clientes internos das empresas.
Os sistemas de cluster baseado em balanceamento de carga integram seus nodos para que todas as requisições provenientes dos clientes sejam distribuídas de maneira equilibrada entre os nodos. Os sistemas não trabalham junto em um único processo, mas redirecionando as requisições de forma independente assim que chegam baseados em um escalonador e um algoritmo próprio.
Este tipo de cluster é especialmente utilizado em serviços de comércio eletrônico e provedores de internet que necessitam de resolver diferenças de carga provenientes de múltiplas requisições de entrada em tempo real.
Adicionalmente, para que um cluster seja escalável, tem que assegurar que cada servidor seja utilizado completamente.
Quando não fazemos o balanceamento de carga entre servidores que possuem a mesma capacidade de resposta a um cliente, começamos a ter problemas, pois um ou mais servidores podem responder a requisição feita e a comunicação fica prejudicada. Por isso devemos colocar o elemento que fará o balanceamento entre os servidores e os usuários e configurá-lo para isso, entretanto podemos colocar múltiplos servidores de um lado que, para os clientes, eles parecerão ser somente um endereço. Um exemplo clássico seria o Linux Virtual Server, ou simplesmente preparar um load balancer de DNS. O elemento de balanceamento terá um endereço, por onde os clientes tentarão fazer contato, chamado de Virtual Server (VS), que redirecionará o tráfego para um servidor do pool de servidores. Esse elemento deverá ser um software dedicado a fazer todo esse gerenciamento, ou poderá ser um equipamento de rede que combine performance do hardware e software para fazer a passagem dos pacotes e o balanceamento de carga em um só equipamento.
Devemos salientar alguns pontos principais para que uma implementação em um ambiente de sucesso com balanceamento de carga nos servidores:

·  O algoritmo usado para o balanceamento de carga, levando-se em consideração como é feito o balanceamento entre os servidores e quando um cliente fizer uma requisição para o endereço virtual (VS), todo o processo de escolha do servidor e resposta do servidor deve ocorrer de modo transparente e imperceptível para o usuário como se não existisse o balanceamento.
·  Criar um método usado para checar se os servidores estão vivos e funcionando, vital para que a comunicação não seja redirecionada para um servidor que acabou de ter uma falha (keepalive).
·  Um método usado para se ter certeza que um cliente acessar o mesmo servidor quando quiser.

Balanceamento de carga é mais que um simples redirecionamento do tráfego dos clientes para outros servidores. Para implementação correta, o equipamento que fará o balanceamento precisa ter características como verificação permanente da comunicação, checagem dos servidores e redundância. Todos esses itens são necessários para que suporte a escalabilidade do volume de tráfego das redes sem vir a se tornar um gargalo ou um ponto único de falha.
Os algoritmos para balanceamento são um dos fatores de maior importância neste contexto, vamos então explanar três métodos básicos:

Least Connections
Esta técnica redireciona as requisições para o servidor baseado no menor número de requisições/conexões. Por exemplo, se o servidor 1 está controlando atualmente 50 requisições/conexões, e o servidor 2 controla 25 requisições/conexões, a próxima requisição/conexão será automaticamente direcionado para o servidor 2, desde que atualmente o servidor tenha um número menor de requisições/conexões ativas.

Round Robin
Este método usa a técnica de sempre direcionar as requisições para o próximo servidor disponível de uma forma circular. Por exemplo, as conexões de entrada são dirigidas para o servidor 1, depois servidor 2 e finalmente servidor 3 e depois retorna ao servidor 1.

Weighted Fair
Esta técnica dirige os pedidos para os servidores baseados na carga de requisições de cada um e na capacidade de resposta dos mesmos (performance) Por exemplo, se o servidor 1 é quatro vezes mais rápido no atendimento aos pedidos do que o servidor 2, o administrador coloca um peso maior de trabalho para o servidor 1 do que o servidor 2.

Cluster Combinado Alta Disponibilidade e Balanceamento de Carga

Esta solução combinada visa prover uma solução de alta performance aliada a possibilidade da não existência de paradas críticas. Este cluster combinado é uma solução perfeita para ISP e aplicações de rede nas quais a continuidade de suas operações é muito crítica. Algumas caracteristicas desta plataforma:
·  Redirecionamento dos pedidos aos nós falhas para os nós reservas;
·  Melhoria na qualidade dos níveis de serviço para as aplicações típicas de rede;
·  Transparente integração para as aplicações stand-alone e não-cluster juntos em uma única rede virtual;
·  Disponibilizar uma arquitetura de framework altamente escalável.


Solução HA + LB

Beowulf Cluster

O que é um Beowulf Cluster?
Um dos mais notáveis avanços tecnológicos dos dias atuais, tem sido o crescimento da performance computacional dos PCs (Computadores Pessoais). A verdade é que o mercado de PCs é maior que o mercado de workstations, permitindo que o preço de um PC decresça, enquanto sua performance aumenta substancialmente, sobrepondo, em muitos casos, a performance de estações de trabalho dedicadas.
O cluster Beowulf foi idealizado pelos seus desenvolvedores com o objetivo de suprir a crescente e elevada capacidade de processamento em diversas áreas cientificas com o objetivo de construírem sistemas computacionais poderosos e economicamente viáveis. Claro que a evolução constante do desempenho dos processadores tem colaborado e muito na aproximação entre PCs e Workstations, a diminuição do custos das tecnologias de rede e dos próprios processadores e o sistema operacional aberto e gratuito, como o GNU/Linux em muito influenciam as pesquisas para melhoria desta nova filosofia de processamento de alto desempenho em clusters.
Uma característica chave de um cluster Beowulf, é o software utilizado, que é de elevado desempenho e gratuito na maioria de suas ferramentas, como exemplo podemos citar os sistemas operacionais GNU/Linux e FreeBSD sobre os quais estão instaladas as diversas ferramentas que viabilizam o processamento paralelo, como é o caso das API’s MPI e PVM. Isto se permitiu fazer alterações no sistema operacional Linux para dotá-lo de novas características que facilitaram a implementação para aplicações paralelas.

Como o Beowulf trabalha?
O sistema é dividido em um nodo controlador denominado front-end (particularmente denomino de nó mestre), cuja função é controlar o cluster, monitorando e distribuindo as tarefas, atua como servidor de arquivos e executa o elo entre os usuários e o cluster. Grandes sistemas em cluster podem distribuir diversos servidores de arquivos, nó de gerencia pela rede para não sobrecarregar o sistema. Os demais nós são conhecidos como clientes ou backends (bem eu denomino nós escravos), e são exclusivamente dedicados para processamento das tarefas enviadas pelo nó controlador, e não existe a necessidade de teclados e monitores, e eventualmente até sem a utilização de discos rígidos (boot remoto), e podem ser acessadas via login remoto (telnet ou ssh).


O Beowulf é um projeto bem sucedido. A opção feita por seus criadores de usar hardware popular e software aberto tornou-o fácil de se replicar e modificar, a prova disso é a grande quantidade de sistemas construídos à moda Beowulf em diversas universidades, empresas americanas e européias e até residenciais. Mais do que um experimento foi obtido um sistema de uso prático que continua sendo aperfeiçoado constantemente.

RAID

Redundant Array of Independent Drives (ou Disks), também denominado Redundant Array of Inexpensive Drives ou mais conhecido como simplesmente RAID ou ainda em português: Conjunto Redundante de Discos Independentes ou também Conjunto Redundante de Discos Econômicos, é um meio de se criar um sub-sistema de armazenamento composta por vários discos individuais, com a finalidade de ganhar segurança e desempenho.
A primeira idéia de RAID foi desenvolvida pela IBM em 1978, para melhorar a confiabilidade e segurança de sistemas através de redundância.
Popularmente, RAID seriam dois ou mais discos (por exemplo, HD ou disco rígido) trabalhando simultaneamente para um mesmo fim, por exemplo, citando o exemplo de RAID-1 logo abaixo, serviria como um espelhamento simples, rápido e confiável entre dois discos, para fazer o backup de um disco em outro. Apesar do RAID oferecer segurança e confiabilidade na adição de redundância e evitar falhas dos discos, o RAID não protege contra falhas de energia ou erros de operação. Falhas de energia, código errado de kernel ou erros operacionais podem danificar os dados de forma irrecuperáveis.

Vantagens

1. Ganho de desempenho no acesso.
2. Redundância em caso de falha em um dos discos.
3. Uso múltiplo de várias unidades de discos.
4. Facilidade em recuperação de conteúdo "perdido".
 
· Alta capacidade de processamento - combinando a força de vários servidores, os sistemas em cluster podem suportar cargas de trabalho grandes e complexas. Um cliente poderia reduzir o tempo de importantes tarefas de engenharia de dias para horas, reduzindo, portanto, o prazo de lançamento no mercado do novo produto.
· Consolidação de recursos- Um único cluster pode acomodar várias cargas de trabalho e pode mudar a força de processamento designada a cada carga de trabalho conforme necessário; isto torna os clusters ideais para consolidação de recursos e otimiza a utilização de recursos.
· Utilização apropriada de recursos - Os sistemas individuais geralmente manipulam uma única carga de trabalho e devem ser dimensionados para acomodar demandas de pico esperadas para essa carga de trabalho; isto significa que, geralmente, eles terão um bom desempenho se estiverem abaixo da capacidade mas ainda poderão se "esgotar" se a demanda exceder a capacidade mesmo que outros sistemas estejam inativos. Como os sistemas em cluster compartilham uma grande força de processamento em várias cargas de trabalho, eles podem manipular um pico de demanda mesmo um inesperado aumentando temporariamente o compartilhamento de processamento para essa carga de trabalho, portanto, tirando vantagem da capacidade não utilizada.
· Consolidação geográfica de servidores - Além da consolidação de servidores descrita acima, alguns clientes ainda compartilham a força de processamento global, por exemplo, desviando o processamento de transações dos Estados Unidos durante o dia para sistemas no Japão que estão relativamente inativos durante a noite.
· Disponibilidade 24 x 7 com proteção contra failover - Como o processamento é dividido entre várias máquinas, os sistemas em cluster são altamente tolerantes a falhas: se um sistema falhar, os outros continuarão funcionando.
· Recuperação de desastre - Os clusters podem estender vários sites geográficos, portanto, mesmo que um site inteiro sofra uma queda de energia ou outro desastre, as máquinas remotas continuarão funcionando.
· Escalabilidade horizontal e vertical sem tempo de inatividaded - conforme aumentam as demandas de negócios, pode ser incluída força de processamento adicional no cluster sem interrupção das operações.
· Gerenciamento de sistemas centralizado - A IBM oferece ferramentas que permitem a implementação, manutenção e monitoramento clusters grandes, distribuídos a partir de um único ponto de controle.