Сегодня «Таттелекому», как преемнику Казанской городской телефонной сети, исполняется 136 лет. «Когда я пришел в компанию, у нас было очень много скрытых проблем на сети. В итоге, конечно, клиенты раздражались из-за плохого качества интернета», — вспоминает генеральный директор «Таттелекома» Айрат Нурутдинов. Вычислить, что коммутаторы определенной марки нужно заменить, понять, где при земляных работах оборвали кабель, а где просто отключилось электричество, татарстанскому оператору помогает собственный центр управления и мониторинга. Он позволяет оперативно реагировать на серьезные инциденты в сети. О том, как компания перешла с «человеческих машин» на высокоуровневую автоматизацию и в чем самые частые причины сбоев на сети, — в материале.
Основными рабочими инструментами являются компьютер и панель с мониторами. Этого вполне достаточно при современных технологиях
Мониторинг в «Таттелекоме»: от «человеческих машин» до умных систем автоматизации
«Здесь в круглосуточном режиме следят за техническим состоянием нашей сети по всему региону», — рассказывает руководитель Единого центра управления и мониторинга сети «Таттелекома» Михаил Лозовой, проводя нас по своим «владениям» в разгар рабочего дня. Именно сюда первыми попадают данные о всех неполадках. Первое, что бросается в глаза, — несколько больших экранов на стенах с картой Татарстана, телевизионным эфиром и разноцветными графиками, разобраться в которых могут разве что люди, работающие в этом помещении. На самом деле основными рабочими инструментами являются компьютер и панель с мониторами. Этого вполне достаточно при современных технологиях. Большие экраны и карта аварийности используются лишь в качестве дополнения или резерва. Сотрудникам центра не нужно следить, не отрывая глаз, за изменениями на графиках, чтобы заметить проблему, система сама подскажет, если что-то случится.
«4,6 миллиона параметров мы снимаем раз в пять минут. Это не выдуманная цифра. На все эти параметры настроены триггеры. Машина анализирует их в реальном времени и выдает информацию о событиях на сети», — рассказывает генеральный директор компании Айрат Нурутдинов.
Айрат Нурутдинов: «4,6 миллиона параметров мы снимаем раз в пять минут. Это не выдуманная цифра»
Но так было не всегда. Глава «Таттелекома» выделяет несколько уровней управления системами. Первый — «человеческие машины». Например, как в романе «Задача трех тел» китайского писателя-фантаста Лю Цысиня. Там для расчета орбит звезд использовался живой компьютер — трехмиллионная армия людей, каждый из которых выполняет простые операции для сложного расчета (поднимает флажок). Такой «человеческий компьютер» был ранее и в «Таттелекоме». «За 136 лет мы прошли все три этапа, в том числе и этап „человеческих машин“. В каждом районном центре работали люди, основной задачей которых был мониторинг индикаторов оборудования. Они каждый день приходили на работу, сидели сутки или 12 часов, затем их сменяли другие. Если загоралась „красная лампочка“, информацию об этом записывали на бумагу и через какое-то время ее передавали руководителям компании», — вспоминает заместитель генерального директора по техническим вопросам Дмитрий Фролов.
Дмитрий Фролов: «В каждом районном центре работали люди, основной задачей которых был мониторинг индикаторов оборудования. Они каждый день приходили на работу, сидели сутки или 12 часов, затем их сменяли другие»
Второй этап уже предусматривал техническую автоматизацию — как минимум внедрение персональных компьютеров, появление систем мониторинга, которые позволили ускорить сбор данных. Но люди продолжали сидеть на местах, опасаясь, что без их контроля произойдут сбои, рассказывает Фролов. Этот уровень управления создает иллюзию полного управления и контроля, хотя процессы остаются в большей мере хаотичными и зависимыми от людей.
Третий уровень автоматизации характеризуется работой современных систем, которые обрабатывают и фильтруют события, передавая оператору только нужные данные. Это повышает точность и сокращает участие людей, оставляя им задачи контроля и реагирования. «Даже если происходит большое количество событий на сети, часть из них вообще могут не оказывать никакого влияния или влияют незначительно на качество услуг. Есть события, которые оказывают действие сразу на множество систем и на предоставление услуг многим абонентам. Если эти события произошли одновременно, подсвечивается как alarm* только наиболее важное. С внедрением этого этапа в техническую среду компании стало намного проще. Человек сам не изменился, и компьютеры те же самые, но это позволило на одном сотруднике замкнуть управление сложной системой. Раньше для принятия решения требовалось участие нескольких специалистов и обязательное обсуждение с руководителем», — рассказывает он.
Каждый день оператор связи фиксирует до 125 инцидентов
Если у вас дома пропал интернет из-за серьезной аварии на сети, то, скорее всего, в центре управления и мониторинга сети «Таттелекома» уже знают об этом и выслали бригаду для устранения инцидента. Конечно, в большей степени это касается серьезных аварий, когда отключения произошли сразу у нескольких десятков или сотен пользователей в одной локации.
У «Таттелекома» более 200 тыс. единиц оборудования и почти 370 тыс. абонентских устройств подключены к системе мониторинга. Например, большинство Wi-Fi-роутеров компании поддерживают протокол TR-069**, который позволяет отслеживать его состояние и диагностировать неисправности. Но, конечно, если пользовательское оборудование не подает признаков жизни, это еще не значит, что где-то произошла авария. Специалисты компании рассказывают, что многие абоненты на ночь или утром, уходя из дома, выключают все приборы, в том числе роутеры. Так что единичные отключения не повод для тревоги. Чаще всего о глобальных неполадках говорит массовое отсутствие доступа к услугам у абонентов. Если авария подтверждается, то центр мониторинга сразу рассылает информацию об инциденте всем подразделениям.
«Мы снимаем различные параметры: отключение электропитания, уровни оптического сигнала, перезагрузка сервера, высокая нагрузка на каналы связи и так далее. На их основании в сутки мы фиксируем порядка 20 тыс. различных сообщений (триггеров). Не всегда они носят характер аварии, они могут быть предупредительными, так как мы применяем в работе и превентивный подход. Сотрудники центра фиксируют до 125 повреждений в сутки в ходе анализа сработавших триггеров», — рассказывает руководитель центра Лозовой.
Благодаря практически полной прозрачности большинство инцидентов в «Таттелекоме» закрывается в первые сутки. Каждую аварию после устранения подробно анализируют
Что дальше? Инженеры центра локализуют место аварии, выбирают наиболее приоритетные инциденты, например по количеству оставшихся без связи абонентов, и отправляют на место бригаду. То есть команда центра следит за повреждением от момента его возникновения до полного устранения. «Наш центр управления и мониторинга напоминает диспетчерскую вышку аэродрома: мы отслеживаем события с момента их появления и занимаемся их полным сопровождением. Наша команда фиксирует инциденты, запрашивает дополнительные данные, координирует устранение проблем, поддерживая связь с контакт-центром и другими службами», — рассказывает Лозовой.
Благодаря практически полной прозрачности большинство инцидентов в «Таттелекоме» закрывается в первые сутки. Каждую аварию после устранения подробно анализируют.
Строительные раскопки, хулиганы и DDoS-атаки: в чем причина аварий на сети?
Большинство сбоев в работе связи происходит из-за внешних факторов, не зависящих от оператора, рассказывают специалисты «Таттелекома». Две основные причины: отключения электропитания и повреждения на линиях связи. Обрыв кабеля чаще всего вызван погодными явлениями, например ледяными дождями, или ремонтно-строительными работами — как правило, речь идет о земляных работах. Именно поэтому самые спокойные дни — это январские каникулы, когда никакие работы в республике обычно не проводятся. Нетиповая причина — это, к примеру, DDoS-атака (одна из самых масштабных была зафиксирована в мае этого года).
Однако бывают и совсем необычные ситуации, когда технические специалисты выступают уже в роли настоящих следователей. Например, в одном из районов Набережных Челнов в прошлом году резко участились случаи выхода из строя IP-домофонов. Выяснилось, что перезагрузке умных устройств предшествовало внешнее воздействие. Сотрудники центра просмотрели видеозаписи с камер и заметили, что в районе завелся серийный вредитель. А самое главное, что в режиме реального времени им удалось выследить хулигана и сообщить о его местоположении в правоохранительные органы.
Несмотря на то что большинство инцидентов невозможно предсказать, мониторинг позволяет «Таттелекому» предотвращать некоторые аварии, связанные с неисправностью оборудования, и делать качество связи лучше
«Это было похоже на то, как показывают в боевиках разоблачение преступников. Люди рисовали маршрут движения вандала, наносили на карты точки, где он засветился на камерах, вся эта информация передавалась сотрудникам полиции: „Он движется в сторону восьмого дома, переходите в этот комплекс“. И все это происходило в канун Нового года», — вспоминает Фролов.
Несмотря на то что большинство инцидентов невозможно предсказать, мониторинг позволяет «Таттелекому» предотвращать некоторые аварии, связанные с неисправностью оборудования, и делать качество связи лучше. «Когда происходит перезагрузка коммутационного оборудования, которую мы фиксируем, для абонента она может проходить незаметно — секундная потеря связи. Но если это произошло несколько раз за сутки, мы инициируем выезд и меняем коммутатор», — рассказывает Лозовой. Кроме этого, мониторинг позволил отказаться от целого ряда моделей роутеров ненадлежащего качества, тем самым также повысив скорость интернета по Wi-Fi у абонентов.
«Когда я пришел в компанию, у нас очень много было скрытых проблем на сети, — вспоминает Нурутдинов. — Например, ежедневно перезагружались некоторые модели коммутаторов. В итоге клиенты выражали недовольство из-за плохого качества домашнего интернета. С переходом на прозрачную систему мониторинга и управления данными мы определили круг проблем и заменили эти коммутаторы. Потому что оборудование, которое изначально дает сбой, и дальше постоянно будет доставлять проблемы. Центр мониторинга не только определяет верное направление реагирования на инциденты, но и способствует эволюционному развитию компании».
«Так или иначе искусственный интеллект нас затронет. Первый эксперимент в „Таттелекоме“ уже запускается», — рассказывает о ближайших планах центра управления и мониторинга Фролов. Новый проект посвящен видеонаблюдению. «Видеомониторинг колоссальным образом изменил уровень криминогенной обстановки в крупных городах. Чем больше камер, тем меньше преступлений», — продолжает спикер.
«Но проблема в том, что система мониторинга позволяет определить, работает камера или нет, а качество картинки (попала ли на камеру грязь, капли воды, в кадре посторонний предмет и так далее) пока можно оценить только с помощью просмотра видео в ручном режиме. Поэтому планируется внедрение искусственного интеллекта для автоматизации этого процесса», — объясняет суть проекта руководитель центра Лозовой. ИИ на основе видеоаналитики будет распознавать изображение плохого качества с камер, которые установлены по всей республике, и сообщать об этом сотрудникам центра.
* Alarm — сигнал тревоги, сообщение о массовом сбое на сети.
** Протокол TR-069 — техническая спецификация удаленного управления абонентским оборудованием.
Внимание!
Комментирование временно доступно только для зарегистрированных пользователей.
Подробнее
Комментарии 4
Редакция оставляет за собой право отказать в публикации вашего комментария.
Правила модерирования.