Objetivos e Motivações

O objetivo do projeto ARGO é conceber e desenvolver serviços de comunicação em grupo, a partir de uma abordagem inovadora que permita limitar e controlar as disfunções típicas dos sistemas assíncronos. Portanto, viabilizar tolerância à falhas nos sistemas distribuídos assíncronos é nossa principal motivação.

A originalidade de nossa abordagem reside no fato de todos os serviços de comunicação em grupo serem considerados como extensões de um problema de concordância mais elementar: o consenso distribuído. Entre as soluções propostas destaca-se a de Chandra-Toueg [CT96] que propuseram equipar o sistema distribuído com Detectores de Falhas definidos por duas propriedades básicas (completeness e accuracy). No decorrer dos últimos anos, os grupos do ADP/IRISA e LaSiD/UFBa trabalharam conjuntamente na definição de um protocolo de consenso genérico, baseado na classe de detectores <>S de Chadra-Toueg, que pode adaptar-se aos requisitos específicos dos diferentes tipos de concordância e às diferentes condições de ambiente [BHM99a, BHM99b, HMRT99]. Esse trabalho servirá de base para o projeto ARGO, que visa como resultado principal a implementação de um protótipo capaz de garantir os requisitos de confiabilidade num sistema distribuído assíncrono.

Nosso objetivo é o de controlar a terminação dos protocolos executados, através de uma boa estimativa de uma duração maximal de execução. Entretanto, sem hipóteses suplementares, a estratégia adotada para resolver o problema de consenso não permite controlar os atrasos de tempo necessários a uma tomada de decisão em período de forte assincronismo.

Para a implementação dos detectores de falha faz-se uso de um mecanismo de timeout. Como o modelo adotado é puramente assíncrono, nenhuma assertiva pode ser feita sobre a quantidade de tempo necessária para o algoritmo convergir.

Nosso objetivo é o de associar propriedades QoS orientadas para o tempo no nosso serviço de comunicação baseado em grupo. Aspectos temporais e de prognóstico são os requisitos não-funcionais fundamentais a serem alcançados. Pretende-se atacar, no mínimo, a questão geral de garantias probabilísticas dos aspectos temporais.

Acompanhamento do Projeto

As reuniões de acompanhamento do projeto se darão através de dois workshops. Estes terão como objetivo a apresentação e avaliação de parte dos membros de cada instituição da parceria.

I Workshop

Local: UFBa

Data: 20 de Junho de 2001

Participantes: dois participantes do INRIA e participantes do LaSiD

Objetivo: apresentação dos resultados obtidos no primeiro ano do projeto; fórum de discussão sobre tolerância a falhas em sistemas distribuídos assíncronos.

Resumos do Workshop

II Workshop

Local: INRIA

Período (previsão): mês 11, ano 2

Participantes: quatro participantes do LaSiD e participantes do INRIA

Objetivo: apresentação dos resultados obtidos no segundo (e último) ano do projeto.

Logo após o I Workshop será produzido um relatório descrevendo as atividades desenvolvidas no primeiro ano do projeto e os resultados obtidos. Logo após o II Workshop será produzido um relatório descrevendo as atividades e resultados finais do projeto.

As metas para avaliação de cada uma das atividades serão a geração de relatórios no final do período de cada uma das atividades e a demonstração da execução de programas, no caso de tarefas de implementação.

Referências Bibliográficas

[BHM99a] Badache, N., Hurfin, M. and Macêdo, R. "Solving the Consensus Problem in a Mobile Environment". The 1999 IEEE International Performance, Computing, and Communications Conference – IPCCC’99, pp.29-35, Phoenix, USA, Feb/99.

[BHM99b] Badache, N., Hurfin, M. and Macêdo, R.. "A Solution for the Consensus Problem in a Mobile Environment". Anais do XVII Simpósio Brasileiro de Redes de Computadores (SBRC99), pp.273-88, Salvador-Ba, Maio/99.

[CT96] Chandra, T. and Toueg, S. "Unreliable Failure Detectors for Reliable Distributed Systems". Journal of the ACM, 43(1): 225-67, March 1996.

[FC96] Fetzer, C. and Cristian, F. "Fail-awareness in timed asynchronous systems". (???)

[FLP85] Fischer, M.J., Lynch, N. and Peterson, M.S. "Impossibility of Distributed Consensus with One Faulty Process". Journal of the ACM, 32(2): 374-82, April 1985.

[FT99] Fromentin, E. and Tronel, F. "A probabilistic analisys of the consensus problem". Technical Report 1226, IRISA, Jan/1999.

[HMRT99] Hurfin, M., Macêdo, R., Raynal, M. and Tronel, F. "A General Framework to Solve Agreement Problems". Proc. 18^th IEEE Int. Symposium on Reliable Distributed Systems (SRDS’99), pp.56-65, Lausanne, 1999.