Как не утонуть в потоке данных и заставить его приносить прибыль

12270

Существенная часть полезной информации содержится в неструктурированных текстовых данных: жалобах, благодарностях, хвалебных постах в соцсетях, спорах на форумах и т.д.

Иллюстрация: © Depositphotos.com/grafvision

Во многих компаниях накоплены огромные массивы собственных текстовых данных, и их анализ позволил бы получить ранее недоступные знания о клиентах. Но возникает технический вопрос – как обработать эту неструктурированную и неупорядоченную информацию? Добавьте к этому данные из открытых источников и интернета – и масштаб задачи покажется нереальным. Преодолеть ограничения по объему, скорости поступления и разнообразию форматов призваны современные инструменты продвинутой аналитики.

Информатизация по требованию

1 января 2016 в Казахстане вступил в силу новый Закон «Об информатизации». Его основная идея – переход государственных органов к сервисной модели информатизации. Проще говоря, государство отказывается от капитальных затрат на строительство собственной инфраструктуры и информационных продуктов. Вместо этого средства пойдут на использование информационной инфраструктуры и продуктов, принадлежащих частным лицам.

Такое информационное сотрудничество накладывает дополнительные жесткие требования к структурированию информации, к ее качеству, точности ее анализа и так далее. Речь идет в том числе о текстовой информации, работа с которой для многих компаний является непростым вызовом. Сегодня источники текстовых данных во множестве присутствуют как внутри организаций (данные из колл-центров, архив e-mail, онлайн-опросы и анкеты), так и за и пределами (блоги и форумы, новостные порталы, текстовые данные из соцсетей и т.п.).

Однако законодательные изменения вовсе не требуют кардинальной перестройки IT-инфраструктуры в массовом порядке. Вывести процессы обработки данных и принятия решений на основе полезных выводов на новый уровень точности и производительности позволяет текстовая аналитика.

Текстовая аналитика против проблемных кредитов

Интерес к системам анализа текста появился в Казахстане относительно недавно, и сегодня к текстовой аналитике в основном обращаются банки, компании, работающие в сфере телекоммуникаций, а также госструктуры.

Оценки экспертов по поводу ситуации в казахстанских банках не радужны – международное рейтинговое агентство Standard & Poor’s Ratings Services предупредило о высокой вероятности снижения рейтингов ряда банков второго уровня, а еще ранее в негативную сторону рейтинг пересмотрело агентство Fitch Ratings. Роль сыграло множество факторов – например, ситуация с проблемными кредитами. Так, на конец сентября 2016 доля неработающих кредитов составила 8,4%, при этом наблюдается отрицательная динамика – за I квартал показатель ухудшился с 7% до 8%, а к концу третьего квартала – еще на 0,4%. Однако это лишь средние цифры, в ряде отдельных банков дела обстоят гораздо хуже.

Исходя из ситуации, Нацбанк перенес сроки введения обязательного требования к банкам, ограничивающего долю просроченной задолженности десятью процентами, – оно должно вступить в силу 1 января 2018, на два года позднее запланированного срока. Этого времени вполне достаточно, чтобы улучшить процессы риск-менеджмента, и в этом призвана помочь текстовая аналитика.

Лучше понимать абонента

Мобильным операторам также необходима текстовая аналитика – новый Закон «Об информатизации» отменяет так называемое «мобильное рабство». Когда подобная инициатива была введена в России, это дало свободу абонентам, но усложнило жизнь операторам. Чтобы остановить отток абонентов, они должны знать как можно больше об их предпочтениях, жалобах, о предложениях конкурентов и т.д. Обычно операторы используют косвенные признаки: динамику транзакций, количество звонков, социальный сегмент и т.п. Удержание же зачастую сводится к рассылке одинаковых бонусных предложений абонентам разного профиля, вызывая недовольство многих из них.

Между тем в руках сотовых компаний есть и другие источники ценнейшей информации о клиентах – например, данные о поведении обладателей смартфонов в интернете, переведенные в текст записи разговоров абонентов с операторами колл-центров и пр. Анализ этих данных методами углубленной текстовой аналитики позволяет не только выявить «отточников», но и понять причины их недовольства, а также выбрать наиболее эффективное маркетинговое «лекарство» для каждого. При этом у игроков казахстанского рынка мобильной связи есть отличная возможность воспользоваться положительным опытом российских коллег по внедрению автоматизированных аналитических решений.

Услышать глас народа

В госструктурах очень важна обратная связь от населения – без нее сложно понять, насколько эффективны принимаемые законы, как они влияют на общество и т.д. Традиционные опросы общественного мнения дают лишь общее представление, к тому же не всегда объективное.

В соцопросах люди могут бояться давать политически спорные ответы, идти против официальных мнений. В форумах, в блогах, в соцсетях они высказываются свободнее. С помощью инструментов текстовой аналитики государственные органы могли бы услышать подлинный «глас народа», что помогло бы точнее оценить отношение людей к конкретным законам, персонам и организациям, быстрее идентифицировать и направлять на доработку проблемные законы и решения и т.д.

Инструменты и способы анализа текстовой информации

Сегодня компьютерная лингвистика и Text Mining – основные подходы к анализу текстовой информации. Однако недостаточно лишь наличия нужных алгоритмов: важно иметь промышленные инструменты для обработки потоков текстовых данных и проработанную методологию их применения. Поэтому все больше компаний проявляет интерес к специализированным системам текстовой аналитики.

На рынке доступны все необходимые инструменты, разработанные для решения того или иного класса задач. Например, одни предназначены для статистического анализа большой коллекции документов. Позволяя переводить неструктурированный текст в структурированное числовое описание по методологии Text Mining, этот инструментарий служит связующим звеном между компьютерной лингвистикой и инструментами Data Mining.

Решения другого типа позволяют решать задачу построения правил для категоризации документов и извлечения из них нечетко описанных сущностей (объектов и фактов). Иными словами, если идея или мысль в тексте выражена неоднозначно, нечетко, аллегорически, ее трудно идентифицировать исключительно с помощью простых регулярных выражений – и такой тип инструментов вычленить и структурировать такую информацию.

Наконец, инструменты третьего типа предназначены для исследования мнений и оценок. Они нацелены на выделение из текста терминов и оборотов, наиболее сильно подчеркивающих определенное эмоциональное отношение автора к заранее определенным объектам.

В целом именно специализация и функционал инструментов определяют возможности аналитика по обработке текстовых данных. Однако мало лишь обладать ими, важно иметь методологию их применения на различных видах текстовых данных. Она служит своеобразным «клеем» для инструментов, аналитиков и отраслевых экспертов, который превращает слабо связанный набор алгоритмов в промышленную систему анализа текстовой информации.

Степан Ванин, старший консультант по аналитическим решениям SAS Россия/СНГ

   Если вы обнаружили ошибку или опечатку, выделите фрагмент текста с ошибкой и нажмите CTRL+Enter

Орфографическая ошибка в тексте:

Отмена Отправить