Управление знаниями

«Аналитический курьер» – современная система извлечения знаний из хранилищ документов

Автор: Сергей Леонидович Киселев, источник it2b.ru
Современный уровень информационно-аналитической работы, как, впрочем, и весь прогресс цивилизации, показывает тенденцию уменьшения роли естественного интеллекта в результатах интеллектуальной деятельности, переложения ее на автоматы, а также повышения интеллекта у систем, которые должны помогать, а затем и направлять исследование данных в зависимости от их контента. Под этим углом зрения в статье рассматриваются перспективные технологии анализа текста, которые появятся в ближайшем будущем и станут стандартом на рынке. Рассмотрим две функции систем: ввода данных в систему и формирования вторичной информации о документе, например, ключевые темы, аннотации, семантические сети документов, фактографическая информация, и др. с использованием технологии ETL (Extract-Transform-Load — выделения-преобразования-загрузки) и аналитической обработки.
В контексте этой статьи это означает переход от экспертной обработки данных в фазе ETL (Extract-Transform-Load — выделения-преобразования-загрузки) к автоматизированной, а затем и к полностью автоматической при больших потоках данных и достаточной достоверности автоматического процесса структурирования контента. В ближайшем будущем, при достижении приемлемой производительности обеспечивающих операционно-технических платформ, наиболее востребованными будут системы с максимально автоматизированными ETL-процессами. В частности, доминирующий сегодня в ряде известных систем экспертный семантический анализ контента будет уступать автоматическим методам синтаксического и постсинтаксического анализа русскоязычных текстов. Следуя известным законам Мура и Рока о нелинейном увеличении темпов производства наукоемкой продукции, можно ожидать появления таких систем в ближайшие три-пять лет.

Вопрос автопилотирования направления исследования является вторым важным направлением развития систем анализа неструктурированного контента. Этому направлению развития технологий посвящено основное содержание статьи.

В ответ на неотложную задачу автоматизации аналитической работы с неструктурированным контентом в мире ИТ-профессионалов вполне сложился базис моделей для анализа трендов, отклонений, связей, групп и других свойств коллекций объектов.

Компания «Ай-Теко» развивает технологии аналитической обработки неструктурированной текстовой информации. «Ай-Теко» принадлежат патентные свидетельства на систему извлечения знаний «Аналитический курьер» и систему управления досье «XFiles». Эти системы отличаются «мощным интеллектом» и минимальной трудоемкостью для извлечения знаний из текста.

Система «Аналитический курьер» предназначена для аналитической обработки текстовой информации с целью получения из нее новых знаний. Особенностью системы является возможность параллельной обработки разнородной неструктурированной информации (документов) из различных источников: сообщений СМИ, сообщений информационных агентств, аналитических материалов различного профиля, документов сети Интернет, почтовых и управленческих документов и др. Система обеспечивает возможность поиска и аналитической обработки информации, по одному запросу можно получить документы из различных баз данных, файловых систем и др.

Проходящая? тестирование версия системы «Аналитический курьер» 2006 поддерживает обработку поисковых запросов на естественном языке, в том числе — русском. Для выдачи корректного ответа на запрос «Не могли бы вы, ваши сотрудники или информационно-аналитическая система помочь ответить на вопрос, кто является акционерами ЦентрСибБанка?» в системе используется нечёткая векторная модель поиска и семантический анализатор текста. С помощью синтаксического анализатора поисковый запрос преобразуется в вектор термов, и на множестве текстов фонда ищутся наиболее близкие к вектору запроса документы.

В системе автоматически поддерживается целостность словарей, классификаторов и других метаданных, размещенных в разных узлах распределенной системы, автоматически тиражируются профильные документы по различным темам.

Система извлечения знаний «Аналитический курьер» опирается на Единое Информационное Пространство (ЕИП), объединяющее хранилища неструктурированной информации (см. рисунок 1). В ЕИП исходные материалы организуются иерархически:

  • на нижнем уровне условной модели находятся конкретные документы и их карточки;
  • на следующем уровнем расположены фонды документов (материалы, объединённые по общим источникам и времени публикации, например, сообщения российских СМИ за 2006);
  • на верхнем уровне иерархии ЕИП находятся хранилища — объединения фондов.

В системе достигается высокое качество сервисов тематического рубрицирования, определения тональности документов, высокая точность выделения фактов из текста за счёт использования развитых компонентов анализа естественного языка. Углублённый анализ анафорических предложений повышает количество выбираемых информации об объекте и фактов, в среднем, на 50-80%.

Рисунок 1. Иерархическая организация ЕИП

Принятый в системе «Аналитический курьер» подход допускает дальнейшее исследование результатов анализа, полученных на предыдущем, менее общем, уровне иерархии ЕИП. Виды извлекаемой из документа информации — аннотация, отнесение его к определённой тематической рубрике, тональная окраска, ключевые темы и информационные объекты — могут служить исходным материалом, точкой входа, для анализа подборки документов. Выделенные из текстов объекты образуют семантические группы, например, «юридические лица», «физические лица».

Выбрав из нужной группы интересующий объект, аналитик получает все сервисы исследования материалов, посвященных этому объекту, на высшем уровне хранилищ документов. Мощную функциональность предоставляют многомерные частотные распределения текстов по любым критериям.

Построив частотное распределение, например, по тональности публикаций, с помощью механизма drill-down пользователь получает возможность вернуться обратно, до уровня документов.

Задачи системы

Система «Аналитический курьер» предоставляет инструментарий для решения следующих задач:

  • пилотируемый поиск;
  • автоматическое аннотирование статей;
  • тематическое рубрицирование публикаций на различных языках;
  • регламентное построение дайджестов на ключевые, определяемые пользователем, объекты мониторинга;
  • определение тональной окраски документов и отдельных объектов;
  • автоматическое выделение тематических групп внутри коллекции документов (кластерный анализ публикаций);
  • выявление ключевых тем коллекции документов, построение их взаимосвязей в виде типизированной или нетипизированной семантической сети;
  • частотный анализ рубрик и публикаций, многомерная аналитическая обработка данных;
  • мониторинг информации о выбранных объектах и исследование изменения динамики их состояния в интерактивном и автоматическом режиме;
  • параллельная обработка разнородной неструктурированной информации из различных источников.

Система позволяет быстро изучать новые предметные области, которым посвящены тексты фонда, структурировать проблематику, готовить отчёты и информационно-аналитические материалы.
Кратко рассмотрим эти решения.

Пилотируемый поиск информации

В системе реализованы все основные модели поиска информации: булева, нечеткая булева и векторная. Существует возможность сохранять и повторно использовать в дальнейшем сохраненные пользователями запросы.

В окне настроек системы (пункт Настройки основного меню) можно настраиваться на работу с соответствующими информационными фондами для конкретного пользователя, задавать параметры для поиска и просмотра его результатов (рисунок 2).



Рисунок 2. Настройка параметров поиска

На стадии формировании поискового запроса система позволяет использовать тезаурусные расширения термов запроса. За счёт использования тезауруса и морфологического анализатора запрос поиска «ДТП» имеет фактор расширения 1:150 (из одной лексемы фактически генерируется 150 лексем для сервера поиска).

 Рисунок 3. Расширение запроса с использованием современного тезауруса.

Кроме контекстного поиска и поиска с использованием тезауруса, «Аналитический курьер» предоставляет функцию «Найти похожие»: получение списка документов, наиболее соответствующих содержанию первичного документа.

Система допускает разные способы и направления сортировки всех отобранных по запросу документов. После получения подборки документов можно построить частотное распределение по атрибутам документа, например, по источникам публикации с представлением ряда в виде таблицы или диаграммы. Отобранные в списке документы (или все документы из списка) можно сохранить в одном из форматов экспорта документов.

Отличительной особенностью системы является наличие навигатора поиска, используемого для выбора направления дальнейшего поиска по результатам выполненного запроса. На рисунке представлен список ключевых тем выполненного ранее запроса, которыми можно уточнять его, перемещая нужные темы в поле контекстного запроса для повторного выполнения.

 Рисунок 4. Навигационное поле обработанного запроса для выбора направления поиска

Для поиска необходимых документов можно использовать альтернативный вход в систему через объекты и их взаимосвязи, выделенные системой автоматически из текста проиндексированных документов. Этот способ позволяет исследовать связи объектов и документы, их отображающие, без указания контекстного критерия на фильтрацию документов объекта. Ниже приведен пример интерфейса, для формирования запроса на исследования связей объекта «Чейни».


Рисунок 5. Интерфейс для входа в информационные объекты.

По этому запросу будет получен результат следующего вида.

Рисунок 6. Вход в систему через сеть взаимосвязей объекта.

Этот способ позволяет исследовать связи объектов во всех фондах системы без предварительного получения подборок документов.

Виды аналитической обработки текста документа

Система «Аналитический курьер» реализует унифицированную технологию создания и ведения распределенных информационных фондов документов.

На рисунке 7 представлена модель документа, используемая для выполнения базовых функций аналитической обработки.


Рисунок 7. Модель представления исходного документа в системе

Остановимся на них подробнее.

Автоматическое аннотирование документов

Суть аннотирования (реферирования) текста заключается в формировании краткого описания основных тем, затрагиваемых в документе. Обращение, вместо первоисточника, к аннотации, упрощает смысловой поиск, уменьшает объём просматриваемой информации, экономит время читателя.

В «Аналитическом курьере» аннотация автоматически формируется из фрагментов документа, и объём аннотации не является фиксированным, а зависит от исходного документа, составляет от 5 до 30% исходного текста.

Аннотация позволяет зрительно оценить содержание текста и принять решение, какие документы важны для стоящей перед аналитиком проблемы. При работе с информационно-аналитической системой эксперт обращается к аннотации во время первого просмотра списка документов, полученного с помощью поиска или с помощью средств визуальной навигации по семантическим картам или кластерам.

Автоматическое рубрицирование документов

Продолжением идеи аннотирования документов является сервис рубрицирования. Рубрицированием (классификацией) называется процедура отнесения документа к одной из априорно сформулированных экспертом категорий.

Система предоставляет возможность автоматического определения наличия определенных тем в документе — тематическое рубрицирование проблем, а также определение тональности публикации по отношению к определенным объектам (лицам, организациям и др.), встречающимся в них, — рубрицирование тональности. Для этого систему нужно предварительно обучить на документах с типичной для рубрик лексикой.

«Аналитический курьер» содержит несколько различных «движков» (построенных на разных математических моделях), позволяющих осуществлять тематическое рубрицирование. При анализе текста учитывается не только состав слов, но и их совместная встречаемость. Если тема (или набор тем) выявлены, документ заносится в соответствующие проблемно-тематические рубрики. Это реализовано через механизм метаданных, «карточку документа» — обязательный атрибут каждого содержащегося в ЕИП элемента, независимо от контента. Такое решение позволяет строить запросы по тематическим рубрикам, например, выбрать все документы по теме «Социальные проблемы».

Во втором случае, при тональном рубрицировании, с высокой точностью производится автоматическое определение эмоциональной окраски сообщения по отношению к объекту, о котором в тексте идёт речь. Для проведения тонального рубрицирования необходимо предварительно обучить систему на документах с типичной для рубрик лексикой. Данная возможность высоко оценивается аналитиками, работающими с новостными лентами: она позволяет анализировать общественное мнение, автоматически строить статистические отчёты о настроении прессы к объекту в каждом регионе, исследовать закономерности между высказываниями в прессе и рейтингом политиков и т.д.

Проведение рубрицирования, в особенности тонального, тесно связано с построением дайджестов на объекты мониторинга, т.е. выбор предложений, в которых упоминается интересующий объект. «Аналитический курьер» выполняет нормализацию дайджестов с использованием углубленного анализа анафорических ссылок в разных предложениях, за счёт этого репрезентативность дайджеста, точность рубрицирования, увеличивается на 50-80%.

Виды оперативной аналитической обработки фондов

Процесс исследования предметной области опирается на результаты аналитической обработки коллекций документов, которая должна выполняться в оперативном режиме (в течение 3-7 секунд).

На уровне оперативного анализа подборок документов «Аналитический курьер» предоставляет сервисы построения кластерной карты, семантической карты взаимосвязей тем, частотного распределения документов.

Рассмотрим эти функции более подробно.

Динамический анализ тематической структуры публикаций (кластерный анализ)

Кластеризация позволяет в режиме реального времени получить абрис тематической структуры подборки документов. Этот метод используется для выявления значимых тематических групп, характерных для подборки. Результат кластеризации: список или карта кластеров. Кластеры пронумерованы и имеют названия, в качестве которых выступают ключевые слова, выявленные для данной группы документов. Щелчок клавишей мыши по названию кластера открывает список документов, входящих в кластер. Поскольку разные тематические группы могут иметь общую лексику, то кластеры могут пересекаться, что указывает на взаимосвязь основных тем. Примеры результатов кластеризации представлены на рисунках ниже.

 Рисунок 8. Пример кластерной карты подборки документов


Рисунок 9. Пример кластерной карты с коррелирующими кластерами

Семантические карты связей объектов

«Аналитический курьер» автоматически выделяет из текста всех документов содержащиеся в них темы, объекты и их связи — семантическую сеть документа. Можно настроить систему на автоматическое выделение определенных типов объектов, например, юридических или физических лиц, географических названий и других.

После обработки запроса система может построить семантическую карту полученной подборки документов (возможно из различных фондов) для исследования «тонких взаимосвязей» между темами и объектами подборки. На карте можно переименовывать, удалять и объединять вершины. Система умеет определять причинно-следственные связи между темами подборки, отображая их направленными стрелками. Реализован сервис объединения нескольких карт в одну, а также поиск на карте ситуаций или семантических шаблонов, сохраненных в библиотеке.

На рисунках представлены примеры семантических карт по различным проблемам.


 Рисунок 10. Пример семантической карты по аспектам деятельности губернаторов

Карта может быть представлена с типизированными связями (показывается дескриптор (ключевое наименование) связи), либо с нетипизированными, обозначающими факт наличия связи.


 Рисунок 11. Пример семантической карты по региональной проблематике

Частотный анализ публикаций

«Аналитический курьер» динамически строит одно- и двумерные частотные распределения по любым атрибутам документов: дата загрузки, объём документов, дата публикации, заголовок, автор, источник, фонд и регион происхождения источника (имеет важное значение для сравнения публикаций центральной и местной прессы), а также по экспертным и автоматически полученным рубрикам, по тональности публикаций, а также по самому тексту.

Частотный анализ полезен при исследовании динамики процессов, например, для обнаружения зависимости между рейтингом и освещением в прессе деятельности объекта в течение длительного периода на основе анализа тональности публикаций.

Web-интерфейс «Аналитического курьера» отображает зависимость количества публикаций от нескольких параметров одновременно, например, от региона, времени, тональности публикаций о выбранном объекте. Частотные распределения могут представляться как в виде матрицы, так и в виде трехмерной гистограммы, оба представления допускают операцию drill-down: колонки и строки данных представляются в виде гипертекстовых указателей. Щелкнув мышью на выбранном объекте, пользователь получает более детальную информацию, доступ к конкретным документам подборки.

Если данных о количестве и тональности публикаций больше, чем о рейтинге изучаемого объекта, то рейтинг может быть спрогнозирован статистическими методами. Для решения вычислительно весомых задач в «Аналитическом курьере» предусмотрена возможность взаимодействия с системами класса Data Mining, позволяющими глубоко анализировать многомерные частотные распределения выборок.


Рисунок 12. Технология анализа частотных распределений рубрик

Технологии выделения фактографической информации и ведения досье на объекты мониторинга реализует система управления досье «XFiles», которая может использовать в качестве источника информации систему «Аналитический курьер».

Заключение

Эффективность работы с текстовыми активами заслуживает самого пристального внимания руководства и ИТ-специалистов государственных структур и коммерческих компаний. 80-85% корпоративной информации получаются в результате сравнения, анализа и синтеза разрозненных и разбросанных по разным источникам фактов («источники» — это новостные ленты, служебные записки, пожелания клиентов, платежные документы и т.д.). Аналитик, который по этим фактам должен составить определенную картину, нуждается в мощных инструментах, облегчающих извлечение знаний из текстов, написанных на естественных языках.

Компании «Ай-Теко» принадлежит патентное свидетельство на систему извлечения знаний из текстов «Аналитический курьер», призванную помочь аналитикам в работе с большими объёмами неструктурированной информации.

Предоставляемые аналитику сервисы выделения тем и объектов текста, удобная визуализация их связей, высокая точность выделения фактов с помощью развитых средств морфологического, синтаксического анализа, разрешения анафорических ссылок, возможность параллельной обработки нескольких фондов, сервисы поиска, тематического и тонального рубрицирования, кластеризации подборки документов, выделения ключевых тем, построения частотных распределений документов с использованием механизма drill-down — являют собой важный ресурс конкурентоспособной компании.

Advertisements
Standard

3 thoughts on “«Аналитический курьер» – современная система извлечения знаний из хранилищ документов

  1. Александр says:

    Несколько вопросов уточнить хотелось бы.
    1. совершенно непонятно в чём особенность системы по сравнению с целой армией подобных. Можно сравнительные характеристики привести?
    2. Изложенная информация известна уже лет 10 (!) как и 7 из них – как морально устарела, опять-таки без общего обзора систем этот факт замечательно вуалируется.
    3. “Эффективность работы с текстовыми активами заслуживает самого пристального внимания руководства и ИТ-специалистов государственных структур и коммерческих компаний. 80-85% корпоративной информации получаются в результате сравнения, анализа и синтеза разрозненных и разбросанных по разным источникам фактов («источники» — это новостные ленты, служебные записки, пожелания клиентов, платежные документы и т.д.). Аналитик, который по этим фактам должен составить определенную картину, нуждается в мощных инструментах, облегчающих извлечение знаний из текстов, написанных на естественных языках.”
    – это ремейк цитаты из книги Вашингтона Плэтта “Информационная работа стратегической разведки” (1968 (!!!) года выпуска!!!), с тех пор (а именно за последние 7-10 лет) информационное поле сильно изменилось, под влиянием электронной коммерции, теперь почти нереально получить из открытых источников даже 5% объективной информации по важным вопросам. Любая тема в нужном ключе будет запрограммирована в информационное поле в течении нескольких дней, а автоматика совершенно не принимает во внимание заказной характер информации.
    4. Сколько стоит “аналитический курьер”? и есть ли смысл в его цене, если учесть, что современные поисковые машины семимильными шагами, совершенно бесплатно ведут пользователей к тем же результатам. Эра информационного “супероружия” в виде семантики перешла в “автоматизацию рутины” и не более. Пока вопрос автоматизации моделирования и прогнозирования социальных процессов остаётся “алгоритмически неразрешённым” (С.П.Расторгуев) – все подобные системы будут топтаться на месте, а менеджеры по их продажам “проедать з/п и впаривать”.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s