Управление инцидентами

В работе службы поддержки компании или предприятия управление инцидентами — один из ключевых процессов. Автоматизация управления инцидентами позволяет компании быстро справляться с обнаруженными ошибками, оперативно устранять сбои в работе сервиса, сохранить высокий уровень качества предоставляемых услуг и минимизировать потери для бизнеса.

В этой статье обсуждаем само понятие управления инцидентами, рассматриваем основные роли и этапы в процессе поиска решений в работе с инцидентами ITIL на предприятии.

Что такое инцидент: история, определение

В ITIL существует четкое определение инцидента (IT Incident) — это незапланированное прерывание ИТ-услуги или снижение качества ее предоставления. Другими словами, инцидентом можно назвать любую ситуацию, которая снижает качество предоставления услуг конечному потребителю и мешает бесперебойной работе бизнеса.

Простые примеры инцидентов — не отвечает сервер, не работает бизнес-приложение, письма по электронной почте не отправляются, в личном кабинете ошибка авторизации. Каждый день служба сервис деск получает десятки похожих обращений от пользователей. Это сбои, которые влияют на бизнес, частично или полностью тормозят выполнение бизнес-процессов. У каждого происшествия есть причины и последствия. Управление инцидентами сосредоточено на борьбе с последствиями и скорейшем восстановлении сервиса.

В ITIL существует несколько классификаций инцидентов. За основу при классификации берут срочность и степень влияния инцидента на бизнес и на каждого пользователя. Грамотная классификация позволяет быстро подключать соответствующих технических специалистов, экономить время и ресурсы компании. Например, по срочности и степени влияния инциденты классифицируют на незначительные и серьезные, которые требуют немедленного реагирования, так как затрагивают работу критически важных служб и могут привести к серьезным сбоям в работе компании.

В крупных корпоративных сетях ИТ-команды получают огромное количество сообщений об инцидентах, происходящих одномоментно. Чтобы не возникало путаницы в работе специалистов, а потенциальный ущерб для компании был по возможности минимизирован, важно разделить заявки по срочности, а также степени значимости. Первостепенно устраняются инциденты, которые могут нанести серьезный урон бизнесу и повлиять на качество предоставляемого сервиса.

Сразу после обнаружения инцидента ИТ-группа должна предпринять необходимые меры, чтобы сохранить эффективность работы сети на нормальном уровне производительности. Все инциденты фиксируются и, если проблема повторяется, составляется план по исправлению системных ошибок, которые могут приводить к возникновению одной и той же проблемы.

Управление инцидентами ITIL — описание проблем и основных шагов

Цикл управления инцидентами состоит из множества действий. Главный элемент в этой цепочке — Service Desk или служба поддержки, которая выступает связующим звеном между ИТ-компанией и пользователями. Без сервис деск работа компании будет неструктурированной, ресурсы будут распределяться неравномерно, а приоритетность решения проблем будет упущена из виду.

Проблемы, которые могут возникнуть, если управление инцидентами организовано неправильно:

  • Статус заявки неясен, для конечного пользователя непонятны сроки решения проблемы.
  • Неправильное протоколирование прошлых инцидентов.
  • Отсутствие документирования решений для повторяющихся/похожих проблем.
  • Высокий риск простоев в случае серьезных инцидентов.
  • Большие сроки решения проблемы.
  • Снижение удовлетворенности клиентов.

Управление инцидентами ускоряет процесс поиска и предоставления решения, помогает быстро и эффективно обрабатывать заявки. При правильной организации процесса служба поддержки сервис деск может выступать как интерфейс для сбора ответов по проблемам от пользователей, агрегации необходимых данных, расстановки приоритетности и делегирования процесса разрешения проблем специалистам ИТ-команды.

В зависимости от вида произошедшего инцидента процессы управления могут быть сложными или простыми, включать решение нескольких задач или рабочих процессов.

Рассмотрим пошагово цикл по управлению IT Incident:

1. Регистрация инцидента.

Происходит через электронную почту, смс, веб-форму на сайте, портал самообслуживания, живой чат, телефон. Здесь важно четко указать, от кого поступила заявка, во сколько и какого числа, описать сам IT Incident — что случилось, какая неисправность, что работает не так или не работает вообще. Инциденту нужно присвоить уникальный идентификационный номер для простоты отслеживания.

2. Классификация инцидента.

Определяется, какую область затрагивает IT Incident, например, оборудование или сеть. Исходя из этого, ему присваивают соответствующую категорию. Если потребуется, можно создать и подкатегории. Главное, чтобы IT Incident был понятно описан и классифицирован — это необходимо для выявлений закономерностей и эффективной организации процесса по управлению проблемами, а также предупреждения похожих инцидентов в будущем.

3. Определение приоритетности.

Ориентируясь на матрицу приоритетов, по степени срочности и влияния на бизнес-процессы инциденту присваивают приоритет. Степень влияния определяют, исходя из того, как IT Incident может повлиять на бизнес и какой ущерб нанести компании или конечному потребителю услуги. Срочность указывает на временной период, за который IT Incident должен быть устранен.

Виды приоритетов: низкий, средний, высокий, критический. Если нет уверенности, какой приоритет назначать, лучше перестраховаться и назначить с округлением в большую сторону.

4. Маршрутизация инцидентов.

Когда инциденту присвоена категория и определена приоритетность, его переадресуют техническому специалисту с соответствующей квалификацией и компетенциями.

5. Создание задач.

В зависимости от сложности инцидента его можно разделить на несколько задач (действий). Создаются задачи в том случае, если для решения необходимо привлекать специалистов из разных отделов.

6. Обработка инцидента и SLA.

Обрабатывая инцидент, специалист ориентируется на требования SLA относительно приемлемого времени или периода, за который нужно предоставить ответ или решение по инциденту. Назначают SLA, ориентируясь на такие параметры, как автор заявки, срочность, вероятность влияния на бизнес в целом, категория инцидента. Если требования SLA нарушаются, инцидент может быть выведен на другой уровень или передан другому специалисту для оперативного устранения.

7. Решение по инциденту.

Устраненным IT Incident считается, когда специалист нашел и предоставил временное или окончательное решение возникшей проблемы.

8. Закрытие.

Когда IT Incident устранен, важно получить от пользователя, который обратился с заявкой, подтверждение, что решение сработало и результат его удовлетворил. После этого IT Incident можно закрывать.

После того, как IT Incident закрыт, важно задокументировать выводы, полученные в ходе работы над устранением проблемы. Эта информация поможет специалистам в будущем быстрее и эффективнее решать похожие проблемы.

Различие между проблемами и инцидентами

Выше мы упомянули инциденты и проблемы — это ИТ-определения, с которыми нередко возникает путаница. И проблемы, и инциденты связаны с процессом устранения возникшего сбоя и регистрируются в системе сервис деск, но по своей сути отличаются друг от друга и имеют разные пути решения.

  • IT Incident — любой сбой в работе ИТ-системы.
  • Проблема — первопричина, по которой произошел один или несколько инцидентов. Устранив проблему, можно предупредить повторные IT Incident.

Управление инцидентами — это реактивный подход, при управлении проблемами используется проактивный подход, когда ИТ-отдел борется с первопричиной возникновения инцидента, фокусируется на корневых причинах сбоя в работе сервиса и предпринимает все необходимые меры, чтобы IT Incident не возникал в принципе.

Процесс по управлению проблемами включает в себя:

  • контроль проблем и ошибок;
  • предотвращение повторения проблем;
  • анализ основных проблем.

При контроле проблемы основная цель — обнаружить причину проблемы и выполнить следующие шаги:

  • идентифицировать и зарегистрировать проблему;
  • классифицировать и определить приоритетность решения проблем;
  • исследовать и диагностировать причины.

Основная цель анализа проблемы — улучшение процессов управления инцидентами за счет отслеживания качества результатов работы по устранению проблем и инцидентов. Кроме этого необходимо вести контроль ошибок для быстрого исправления возникающих проблем, которые могут привести к инциденту. Для этого:

  • идентифицируют и регистрируют известные ошибки;
  • оценивают способы их устранения;
  • расставляют приоритеты;
  • закрывают ошибки, осуществляя необходимые исправления;
  • мониторят известные ошибки, чтобы определить, где необходимо изменить приоритеты.

Инциденты, проблемы и ошибки формируют определенный цикл — инциденты выступают как индикаторы проблем, при обнаружении причины возникшей проблемы удается определить ошибку, а, исправив ошибки, можно предупредить повторение инцидента.

Исходя из вышесказанного, можно выделить три основных процесса, которые напрямую связаны с управлением инцидентами:

  • Процесс управления инцидентами. Фокус на скорейшем восстановлении прерванного сервиса.
  • Процесс контроля проблем. Фокус на определении приоритетности и определении причин или ошибок, которые привели к возникновению конкретной проблемы, поиск способов для их устранения. В этом процессе акцент сделан на определении причины и ее анализ.
  • Процесс контроля ошибок. Сюда входит документирование способов устранения неисправностей, информирование о них персонала службы поддержки.

Управление инцидентами и проблемами позволяет поддерживать высокую эффективность рабочего процесса и обеспечивать наилучшие результаты предоставления услуги для конечного потребителя. Главная цель ИТ-команды — как можно быстрее восстановить работу системы и вернуть ее в нормальный рабочий режим

Подходы к управлению инцидентами

Сегодня в работе многих компаний используются различные программные продукты, поэтому потенциальных точек отказа и возникновения инцидентов больше, чем когда-либо. Последствия крупных инцидентов могут быть масштабными и привести к серьезным убыткам. Самый распространенный подход к управлению инцидентами — структурная система поддержки с многоуровневой моделью и четко распределенными ролями и зоной ответственности:

1. Основная техническая поддержка.

Первый уровень поддержки — специалисты, которые принимают заявки и предпринимают первую попытку решить проблему. Разбираться с инцидентами в соответствии с идеологией сервисного подхода должна служба поддержки или Service Desk, в задачи которой входит:

  • обработка обращений от пользователей;
  • получение детальной информации об инциденте, в том числе, выявление нецелевых обращений;
  • регистрация, классификация, определение приоритетности;
  • контроль восстановления сервиса пользователям и соблюдения заявленных параметров.

Каждой компании выгодно организовать работу сервис деск так, чтобы сократить финансовые и временные затраты, но не потерять в качестве сервиса. В работе специалисты сервис деск используют заранее определенный набор инструкций по восстановлению работы службы.

Специалисты первого уровня поддержки используют базу данных при управлении проблемами, чтобы сопоставить IT Incident с ранее происходившими и сравнить с известными ошибками. Цель первого уровня поддержки — решить до 80% инцидентов. Основная клиентская техническая поддержка — это первая точка контакта для инцидентов, но специалисты первого уровня не управляют всей командой, которая в дальнейшем работает над решением инцидента.

Если в сжатые сроки проблему решить не удается, заявку передают в группу поддержки второго уровня. Специалисты на этом уровне изучают и решают до 75% инцидентов, переданных с первого уровня. Остальные передаются на третий уровень и решаются узкими ИТ-специалистами, отвечающими за архитектурные или технические вопросы. На втором уровне специалисты документируют найденные решения и сообщают о них персоналу первого уровня. Кроме этого на втором уровне анализируют тенденции инцидентов, чтобы понять, о наличии каких проблем они сигнализируют.

Третий уровень поддержки — специалисты сетевой инфраструктуры и разработчики приложений. Зона ответственности — решение инцидентов, переданных со второго уровня, организация работ по управлению проблемами — поиск причин, которые привели к появлению инцидента, устранение ошибок.

2. Менеджер по инцидентам.

Диспетчер инцидентов отвечает за весь процесс, начиная от обнаружения проблемы, заканчивая созданием отчетов и закрытием IT Incident. При переходе проблемы из группы поддержки первого уровня к группе поддержки второго уровня менеджер по управлению инцидентами отвечает за выделение ресурсов и создание рабочей группы для работы над выявленными серьезными инцидентами.

3. ИТ-операторы.

Группа специалистов, выступающих своего рода буферами при решении инцидентов. Обеспечивают плановое обслуживание серверов, контролируют следование расписанию для критических задач, делают резервное копирования данных. Также ИТ-операторы могут привлекаться для решения проблем в случае значительного инцидента.

4. Команда по крупным инцидентам.

Этих специалистов привлекают в тех случаях, когда проблема не решилась на первых уровнях и возникший IT Incident грозит нанести серьезный урон важным бизнес-процессам компании.

Резюмируя все сказанное, Service Desk помогает создать единую точку контакта между пользователем и поставщиком ИТ-услуг. Специалисты службы поддержки принимают заявку об инциденте, представляют необходимую помощь или привлекают сотрудников ИТ-подразделений для быстрого устранений проблемы и закрытия инцидента.

Кроме четкого определения ролей важно позаботиться о равномерном распределении нагрузки и учесть компетенции специалистов. Первая линия должна быть сосредоточена на работе с простыми задачами и нецелевыми обращениями, вторая линия решать вопросы по существу, а третья — заниматься только самыми сложными вопросами, когда для решения инцидента необходимо привлекать узких ИТ-специалистов. Внутри каждой линии важно продумать распределение задач, а эффективность процесса по управлению IT Incident контролировать, опираясь на метрики — собственные KPI, принятые внутри компании.

Инструкция по управлению инцидентами

Выше мы рассмотрели, как может выглядеть цикл решения инцидентов и как правильно распределить роли отдельных исполнителей. Также собрали для вас базовые рекомендации, которые могут оказаться полезными при организации успешного решения IT Incident в вашей компании:

  • Подготовьте несколько вариантов (моделей) создания заявок об инциденте, например, по телефону, на электронную почту, в чат, через портал самообслуживания.
  • Сформируйте базу знаний и пополняйте ее готовыми решениями по управлению аналогичными инцидентами.
  • Для эффективного сбора информации об инцидентах опубликуйте настраиваемые формы.
  • Настройте автоматическую классификацию инцидентов и определение их приоритетности на основании ряда критериев в заявке.
  • Создайте уникальные рабочие процессы по управлению серьезными IT Incident.
  • Свяжите SLA с инцидентами на основе таких параметров, как приоритетность.
  • Техническим специалистам с одинаковыми компетенциями можно автоматически назначать заявки, опираясь на такие алгоритмы, как циклический перебор и балансировка нагрузки.
  • Настройте коммуникацию с пользователем на каждом этапе цикла решения инцидентов.
  • Удостоверьтесь, что специалисты закрывают инциденты только после того, как найдено эффективное решение с получением обратной связи от конечного потребителя услуги.

Ключ к успешному управлению инцидентами — качественно проработанный алгоритм действий и его пошаговое выполнение.

Попробуйте наш Service Desk бесплатно!

Бесплатный доступ ко всем возможностям сервиса на 14 дней

  • Учёт затрат, оборудования и объектов обслуживания
  • Десятки готовых интеграций
  • Автоматическое распределение заявок
  • Десятки готовых экспертных отчетов
  • Мобильное приложение

Преимущества в управлении инцидентами ITIL с помощью Сервис Деск

Структурированный подход к управлению и работе с инцидентами ITIL с помощью Сервис Деск открывает перед компанией много возможностей:

  • хранение всех известных инцидентов центральном репозитории;
  • автоматизация классификации инцидентов на основании на таких параметрах, как срочность, отдел, влияние и приоритет;
  • сопоставление требований SLA с заявками об инцидентах;
  • назначение заявок ИТ-специалистам или группам специалистов;
  • сохранение историй процесса изменений;
  • поиск решений по IT Incident;
  • документирование решений в базе данных по IT Incident и запросам на обслуживание;
  • связь с конфигурационными единицами и взаимосвязи с другими инцидентами, запросами на обслуживание и проблемами;
  • формирование интерактивных информационных панелей и отчетности для дальнейшего анализа и поиска эффективных решений для устранения IT Incident;
  • функционал для уведомления ответственных о событиях при управлении инцидентами;
  • возможность досрочного закрытия IT Incident;
  • аналитика решений IT Incident по срокам, услугам, ответственным, типам;
  • полная автоматизация всего процесса при управлении инцидентами — от подачи заявки до закрытия IT Incident.

Используя Service Desk КСК.ИК, вы можете хранить всю документацию в настраиваемой структуре папкой, при необходимости модифицировать «коробочный» процесс изменений, настроить уникальные процессы для решения нестандартных инцидентов.

КСК.Service Desk — система по управлению инцидентами для любой компании. Вы можете использовать КСК.Service Desk как единую точку контакта с потребителями услуги и эффективно управлять ИТ-инфраструктурой в компании.

Благодаря инструментам автоматизации процесс по управлению IT Incident становится понятным и прозрачным процессом, так как все обращения регистрируются, оперативно распределяются по ответственным специалистам. Такой подход эффективен, так как у сотрудников не возникает путаницы — за счет строгой приоритетности заявки выполняются в определенном порядке.

С помощью сервис деск вы можете автоматизировать процессы решения IT Incident — быстро отслеживать, правильно расставлять приоритеты и эффективно закрывать IT Incident.

Выводы

В управлении инцидентами ключевой критерий качества предоставления услуги — скорость. Хорошо, если удается быстро найти причину сбоя и сразу устранить ее. Но так получается не всегда и тогда необходимо предложить пользователю временное решение. А уже после закрытия инцидента специалисты ищут, анализируют и устраняют основную причину, которая вызвала сбой. Эти работы входят в процесс по управлению проблемами. Важно, чтобы специалисты вели учет всех инцидентов и проблем, вызвавших их, чтобы в случае очередного сбоя можно было обратиться к накопленному опыту и быстрее справиться с аналогичными обращениями. На основании данных, фиксируемых системой, формируются отчеты, по котором можно проверить соблюдение требований SLA. Также можно проследить число решенных инцидентов и возвращенных на доработку, в целом, проанализировать работу сотрудников по ряду показателей.

Инциденты случаются и это неизбежно. Правильно структурированный процесс управления и использование инструментов для автоматизации позволяет ускорить устранение сбоев в предоставлении услуги, сократить убытки и потери прибыли, а также повысить лояльность конечных потребителей услуги.

Читайте также:

Заявка отправлена!

Мы свяжемся с вами в течение 1 рабочего дня.