O OpsGenie é uma central para que as equipes de TI respondam a incidentes de forma mais eficiente, resolvendo e aprendendo com cada situação. Ele reúne os aspectos mais importantes do gerenciamento moderno de incidentes, incluindo alertas, chat para a equipe, comunicações com o cliente e documentação.

Um incidente de TI que leva a uma interrupção para os clientes pode ter um grande impacto na reputação e na receita de uma empresa. Em meados de julho de 2018, por exemplo, o YouTube TV foi forçado a pedir desculpas por uma interrupção temporária durante a semifinal da Copa do Mundo no jogo entre a Inglaterra e a Croácia, e obrigado a oferecer aos clientes insatisfeitos um crédito equivalente a uma semana de serviço gratuito.

nova_cta_especialista_atlassian

Os níveis de estresse envolvido para as equipes de TI responsáveis por resolver um incidente também não são grandes para os negócios. É por esse motivo que o OpsGenie é tão eficiente, centralizando uma série de soluções e serviços de alerta, comunicação e documentação de incidentes.

O artigo a seguir pretende ajudar você a conhecer mais sobre o OpsGenie, recentemente integrado com o Jira Ops e transformados em uma única ferramenta, e entender como começar a monitorar incidentes com esta solução da Atlassian.

Comentando as funcionalidades do OpsGenie

As equipes de software e de TI podem contar com o OpsGenie para realizar as seguintes tarefas:

Alertas – forneça facilmente aos especialistas a capacidade de levantar um incidente do OpsGenie diretamente do alerta.

Chat de incidentes – crie automaticamente um canal Slack diretamente a partir do incidente do OpsGenie e tome providências enviando mensagens-chave para sua linha do tempo.

Comunicações de status – mantenha seus clientes no loop de um incidente durante o tempo de inatividade diretamente a partir do OpsGenie.

Cronograma do incidente – faça com que as partes interessadas se familiarizem rapidamente com o incidente, sem diminuir a velocidade da equipe. Eventos importantes, como alertas de atualizações, mensagens de chat no Slack e anúncios de status, são automaticamente enviados para a linha do tempo.

Aprendendo com os incidentes – aprenda e melhore após cada incidente, obtendo informações importantes sobre a linha do tempo em um documento de autópsia vinculado ao seu incidente com o OpsGenie.

O que é um incidente? Quais são os objetivos do OpsGenie?

Se falamos sobre incidentes em relação ao OpsGenie, estamos falamos sobre os principais incidentes – não os pequenos que você acompanharia no Jira Service Desk. Vamos dar uma olhada na definição da Atlassian (seu desenvolvedor) no Manual de Incidentes.

“Definimos incidente como um evento que causa interrupção ou redução na qualidade de um serviço e que requer uma resposta emergencial. As equipes que seguem as práticas de ITIL ou ITSM podem usar o termo incidente grande.

Um incidente é resolvido quando o serviço afetado volta a funcionar da maneira usual. Isto inclui somente as tarefas necessárias para restaurar a funcionalidade integral.

A autópsia é realizada após sua conclusão, para determinar a causa-raiz e ações a fim de garantir que ele seja abordado antes que possa causar um incidente repetido”.

Além disso, é importante observar os valores que guiam este software da Atlassian, já que não existe um processo que possa ser uma solução única para todos os incidentes.

Segundo a Atlassian, seus valores são: “Orientar uma tomada de decisões autônoma pelas pessoas e equipes nas situações de incidentes e autópsias. Construir uma cultura consistente entre as equipes sobre como nós identificamos, gerenciamos, e aprendemos com os incidentes. Alinhar as equipes sobre quais atitudes elas devem ter em cada parte da identificação, resolução e reflexo do incidente”.

Neste contexto, a próxima etapa é saber como é feito o monitoramento de incidentes com o OpsGenie. Como já delineamos, existem incidentes de todos os tipos e não é possível aplicar soluções iguais para a variedade de incidentes possíveis.

cta_especialista_atlassian

Como começar a monitorar incidentes

Depois de se inscrever no OpsGenie, na Atlassian Cloud, você pode iniciar seu primeiro projeto. Se você já usa o Jira Software ou o Jira Service Desk, o OpsGenie será um modelo de projeto da próxima geração para quando for criar um novo projeto.

Ele tentará imediatamente conectá-lo a outras ferramentas como Slack, Statuspage e ferramentas de alerta de incidentes (xmatters ou pagerduty). É essencial integra-lo com essas outras ferramentas, caso contrário não há muito o que fazer — a interface de usuário é limpa, com um fluxo de trabalho simples (Novo – Aceito – Corrigindo – Resolvido – Cancelado) e é criada uma linha de tempo quando você começa a trabalhar em um problema, o que faz com que as integrações sejam “obrigatórias”.

Equipes de TI podem usar um serviço de alerta de incidentes, como PagerDuty ou xMatters, para mobilizar uma equipe de resposta por meio de mensagens SMS e notificações push.

As equipes podem, então, criar um comando central virtual para a crise, usando uma combinação de bate-papo e chamadas de vídeo com o Slack. Elas podem querer manter os clientes informados e atualizados, usando um produto como o Atlassian Statuspage, que no ano passado foi usado por usuários da Atlassian para enviar 175 milhões de atualizações para clientes sobre incidentes em andamento.

Além disso, as equipes podem precisar de software de service desk para lidar com os relatórios recebidos dos clientes. E uma vez que um incidente tenha sido resolvido e a poeira baixou, eles podem realizar a autópsia do incidente com o serviço Confluence, também da Atlassian, e rastrear itens de ação no Jira, a fim de aprender com seus erros. Embora cada serviço desempenhe um papel importante, uma maneira melhor seria coordenar todo o incidente, desde o alerta até a ação de acompanhamento de um único lugar.

É o que torna o OpsGenie em uma solução genial. Ele se integra aos serviços mencionados acima, além de outros, para manter todos em uma equipe de resposta a incidentes atualizados sobre o que está acontecendo.

O software coleta informações dessa colcha de retalhos de serviços e a organiza em um único local central, onde os envolvidos podem ver quanto tempo um incidente durou, sua gravidade e quem está no comando.

Em outras palavras, o painel ajuda a rastrear o progresso das tarefas de resposta a incidentes, atribui responsabilidades e se comunica sobre os problemas à medida que eles surgem. Eles podem inserir ainda mensagens relevantes do Slack no OpsGenie para adicionar contexto ao redor do incidente.

Ao contrário de alguns produtos da Atlassian, que estão disponíveis para implementação no local, bem como na nuvem, o OpsGenie fica apenas na nuvem por uma razão muito simples: se seus sistemas de TI estiverem inativos, não faz sentido confiar em uma ferramenta de resolução de incidentes de premissa para gerenciar essa interrupção.

De forma intermediária, você também pode adicionar informações importantes, como decisões, em uma ação personalizada na linha do tempo. O que é possível em tempo real ou após o fato.

Quando você atualiza sua Página de Status, as atualizações serão adicionadas à linha do tempo do incidente. Você nunca perderá a noção de quando e o que você comunicou aos seus clientes.

Os incidentes criados pelo OpsGenie podem ser reconhecidos no Jira e vice-versa. O incidente fará a transição automaticamente no Jira e mais informações serão adicionadas com o passar do tempo.

Esses processos resultarão em uma excelente visão geral do incidente atual e de seus eventos. Se você tiver que adicionar outros profissionais à sua equipe ou precisar fazer uma transferência para outro gerente de incidentes, eles serão imediatamente atualizados.

O OpsGenie e as autópsias de incidentes

Registrar a autópsia de um incidente fornece um registro do incidente, sua causa e sintomas relacionados, sua resolução e seu impacto para referências futuras. Esse entendimento pode ser importante tanto para um entendimento futuro das questões técnicas quanto para a resolução de questões legais ou administrativas decorrentes do incidente.

A autópsia também serve como base para analisar e resolver os problemas técnicos fundamentais que deram origem ao incidente, fornecendo uma estrutura para entender e melhorar o processo de resposta a incidentes.

Para apoiar essas funções básicas, uma autópsia deve incluir um registro do incidente, a resposta e sua resolução. Também deve incluir uma análise da causa raiz do incidente, uma descrição do escopo do incidente e seus efeitos e quaisquer recomendações apropriadas para resolver o problema raiz, melhorando o processo de resposta e mitigando os impactos de futuros incidentes.

A solução de autópsias de incidentes da Atlassian está no Confluence integrado ao OpsGenie. Com a nova experiência do usuário, criar uma autópsia é quase como fazer outra transição de fluxo de trabalho: simples e indolor.

No espaço de autópsia, você pode documentar o pós-incidente e melhorar o gerenciamento de incidentes futuros para a sua equipe e a sua organização. Este cronograma fácil de usar do OpsGenie também está disponível no Confluence. Você pode documentar facilmente na linha do tempo sem alternar entre as ferramentas. Além disso, a ferramenta mantém o controle para que você possa ver facilmente suas autópsias pendentes.

cta_especialista_atlassian

Conclusão 

Se você ficou interessado e deseja conhecer ainda mais sobre este ou outros produtos da Atlassian, entre em contato com a gente e nos deixe te apresentar a esta nova forma de trabalhar com todas estas opções de softwares feitos para facilitar o seu dia a dia, ou me mande um e-mail para lameck@diferencialti.com.br.

[]´.

About Lameck Oliveira

Trabalho todos os dias para salvar o mundo do suporte em TI “ok” e torná-los suportes extraordinários, memoráveis. Empreendedor em TI, adepto do jiu-jitsu e jogador de pôquer nas horas vagas, sou fã das trilogias do Senhor dos Anéis e Hobbit. E contrariando meu nome, utilizo Windows.