Управление знаниями

Факты – основа современной информационной системы бизнес-разведки XFiles.

Автор: Сергей Леонидович Киселев, источник: http://it2b.ru
Система корпоративной безопасности компании является важнейшим инструментом управления предпринимательскими рисками. Задачи этой системы заключаются не столько в сборе, обработке, оценке и накоплении данных, сколько в их информационном анализе и синтезе управляющих воздействий. Эти функции возлагаются на подсистему бизнес-разведки (business intelligence) компании. Термин бизнес-разведка определяется как« широкая категория технологий, связанных со сбором, хранением, анализом и обеспечением доступа к информации с целью принятия оптимальных деловых решений».

Методы ведения бизнес-разведки весьма близки к используемым в традиционной разведывательной деятельности. Сначала определяются требования к параметрам возможных объектов — источников угроз для планирования и организации разведки. Затем рассматриваются возможные источники информации для проведения бизнес-разведки (как правило, используются несколько альтернативных источников или доверенные источники информации). Разрабатывается модель системы угроз и система управляющих воздействий при их обнаружении. На этой основе разрабатывается методика проведения бизнес-разведки, а также её технология. В настоящее время бизнес-разведка невозможна без использования специализированных информационных технологий. Компании, занимающиеся бизнес-разведкой, в своей работе используют информацию, получаемую из масс-медиа, внутрифирменных, банковских, правительственных отчетов, а также прогнозных исследований.

Для того чтобы оценить эффект от внедрения систем бизнес-разведки, необходимо ясно представлять возможности подобных решений. Практическое использование этих систем, в частности, позволяет:

  • постоянно отслеживать и анализировать новую информацию, имеющую отношение к бизнесу конкурентов;
  • организовать постоянный поток автоматически выделяемой информации о действиях конкурента (таких как: ценовая политика, слияния и поглощения, рекламные объявления и анонсы, отзывы об их изделиях);
  • раскрывать планы конкурента;
  • проводить изучение потенциального спроса на продукцию и услуги;
  • изучать реакцию рынка на отдельные свойства товаров и услуг, например, с помощью анализа тональности публикаций об этих объектах;
  • исследовать аспекты политической деятельности объектов.

Системы бизнес-разведки находят применение в различных сферах: профессиональная разведка, деятельность правоохранительных органов, медицина, финансы, страхование и др. Приведём несколько типичных примеров использования информационных систем бизнес-разведки.

При изучении клиентов банками, страховыми компаниями, из различных источников (регистрационных учетов, финансовых отчетов, налоговых деклараций, баз данных зарегистрированной собственности и транспортных средств, СМИ, оперативных источников и из аналитических систем) собираются факты в досье с целью минимизации рисков финансовых операций.

В процессе изучения фигуранта, описание его поступков может быть получено из отчётов участковых милиционеров, протоколов, оперативных донесений, из агентурных сообщений и др. Зачастую эти документы хранятся в различных фондах. У объекта может быть большое количество контактов, как прямых, так и предполагаемых по косвенным признакам. Учетная информация об объекте тоже может храниться в различных базах данных. Получение всей этой информации очень трудоемко, методы экспертной обработки сообщений практически неприменимы. Ценность извлеченных фактов весьма невысока, поскольку эксперт не может совместно проанализировать большое число фактов. Для профессиональной деятельности нужно использовать технологии другого класса — активной доставки новых фактов с помощью специализированных программ-агентов — автоматического выделения фактов (А-факты), связей и ведения дел.

В статье обсуждаются концептуальная и базовая информационные модели информационных систем бизнес-разведки, которые иллюстрируются на примерах возможностей системы управления досье XFiles версии 2006 года.

Концепция информационно-аналитических систем бизнес-разведки предполагает реализацию трех принципов:

  1. единое информационное пространство взаимосвязанных фактов или гипотез независимо от типа их контента (содержимого источников информации);
  2. связь фактов или гипотез с релевантными источниками информации (аргументированность фактов и гипотез);
  3. исторически-пространственная информационная модель базы данных фактов и гипотез. Это означает наличие атрибутов времени и места для каждого факта, а также невозможность их безвозвратного удаления из системы.

Для управления пространством фактов в информационных системах бизнес-разведки используется подсистема обработки фактографической информации. На её входе из различных источников выделяется не только поток информации об изучаемых объектах в форме количественных показателей, видеоклипов, документов (информационных сообщений). Автоматически выделяемые из текста данные преобразуются в структурированный вид, основной формой представления служат факты и гипотезы (т.е. аналитически обработанная, классифицированная и очищенная информация). Естественно, факты проходят процедуры очистки, интеграции и другие стандартные процедуры управления единым информационным пространством фактов (ЕИПФ). Системы этого типа находятся на вершине иерархии информационной инфраструктуры компании. С помощью своих программ извлечения знаний они извлекают факты или порождают гипотезы (или сигнальную информацию) из СУБД, хранилищ многомерных данных, Интернет, подсистем аналитической обработки и моделирования, прикладных систем.

Природа множественности фактов об одном событии субъективно обусловлена возможностью его различной интерпретации, а также противоречивостью, неточностью или нечеткостью поступающей из внешних источников информации. Поэтому инфологическими особенностями информационной модели ЕИПФ являются: поддержка множественных фактов об одном событии; наличие у факта атрибутов трекинга (идентификации автора, времени, источника факта, …) для его возможного повторного извлечения из источника; поддержка множественных версий интерпретации фактов.

Перейдем к рассмотрению реализации концепции систем бизнес-разведки в системе управления фактографической информацией XFiles, созданной с использованием программных компонентов ряда компаний, среди которых: Oracle, Microsoft, Hummingbird, Inxight, ABBYY Software House и Altova.

Информационная модель системы бизнес-раведки

Кратко остановимся на основных понятиях информационной модели системы.

Факт — событие (как правило, зафиксированное и произошедшее), сопровождаемое временной и географической метками. Факт сопровождается также аргументирующей информацией, ссылками на источники и др. Факт может быть извлечен из текста документов, либо определен экспертом. Факт может определять как свойства объекта, так и его связь с другими объектами.

Гипотеза — аналитическое высказывание (полученное не из внешнего источника данных, например, из статьи СМИ, а в результате аналитической обработки данных, например, прогнозирования) относительно состояния атрибута досье, сопровождаемое также аргументирующей информацией, ссылками на источники и др. Гипотеза может порождаться различными подсистемами извлечения знаний или экспертами.

Объект — это сущность, факты относительно которой накапливаются в системе. Объект имеет семантический фильтр для самоидентификации в тексте.

Тип досье — описание проблемной области, представленное в виде иерархии атрибутов. Для каждого объекта должен быть определен, по крайней мере, один тип досье.

Досье — реализация типа досье для конкретного объекта.

Атрибут — это структурный элемент типа досье, предназначенный для накопления фактов одного типа. Например, биографических данных, сведений о поездках и др. Атрибут имеет семантический фильтр для выделения« своих» фактов из потока документов. Один атрибут может входить в несколько типов досье.

Связь — это направленное или ассоциативное отношение определенного типа между объектами системы. Связи классифицируются как:

  • Прямые. В этом случае есть факт о связи двух объектов.
  • Нечеткие (не представленные фактом):
    • по общему месту и времени у пары различных фактов различных объектов;
    • косвенные (транзитивные) — через общий третий объект-связь у пары фактов различных объектов.
  • Рефлективные — между парой атрибутов, связанных по фактам. Если в одном из них появляется факт с определенным объектом-связью, то в симметричном атрибуте для объекта-связи также появляется этот факт. Например, атрибут« продажа акций» имеет симметричный атрибут« покупка акций». Симметричные атрибуты « срабатывают» по прямым связям. Свойство симметричности задаётся при создании атрибутов независимо от того, в какие досье они входят. При включении атрибута в другое досье свойство симметричности сохраняется.

Поскольку предметная область зачастую довольно обширна, целесообразно использование нескольких досье для одного объекта. Например, одно досье может отражать бизнес-деятельность объекта, второе — его личную собственность, третье — медицинские данные, и другие. Такой подход дает возможность различным группам аналитиков« чувствовать» только профильную для них группу атрибутов. Однако, лицо, принимающее решение, может анализировать все досье объекта и все его связи.

В представленном на рисунке 1 примере Объект X объединяет два типа досье: Тип досье А и Тип досье В, и содержит все семь атрибутов. Объект Y имеет один тип досье Тип досье В и содержит 4 атрибута. Атрибут 4 одновременно входит в состав обоих типов досье.


Рисунок 1. Пример фрагмента информационной модели системы

Актуализация базы данных досье производится путем ввода в неё новых фактов, каждый из которых определяется высказыванием вида:

Факт = {<идентификатор факта>, <значение (контент) факта>, <временной диапазон действия факта>, <место, <источник факта>, <оператор>, <статус факта>}.

Теперь кратко рассмотрим технологию автоматического выделения и накопления фактов из различных источников информации. Это свойство концептуально отличает современные системы обработки фактографической информации.

Технологии обработки фактов

В связи с большой плотностью потока текстовой информации, в современных фактографических системах интенсивно развивается технология автоматического выделения фактов. Она позволяет в режиме квазиреального времени «поднять» ретроспективные фонды документов за десяток лет и получить актуальное «сырое» досье на новые объекты, что практически нереально при использовании экспертной технологии выделения фактов. В системе XFiles реализована функция сбора А-фактов из практически всех доступных типов открытых источников (Интернет, информационные агентства, корпоративные базы данных, информационные ресурсы офисных приложений и др.).

Кроме автоматического выделения фактов, XFiles предоставляет интерфейс для их ведения авторизованными пользователями (Э-факты), а также для последующей оценки достоверности фактов, их обобщения и формирования аналитических материалов. На рисунке 2 представлен пример фрагмента досье, заполненного А-фактом о названии головной структуры холдинга и уточняющим его Э-фактом.



Рисунок 2. Фрагмент досье объекта

Для установления связи между объектами системы необходима пара профильных атрибутов в связываемых объектах, например Атрибут 4 (см. рисунок 1). При наличии факта об определенном типе связи двух объектов в каждый профильный атрибут обоих объектов проставляется ссылка на viz-a-viz объект. Этот процесс может выполняться автоматически и экспертно. Если объекта-второго участника связи нет в базе данных, то, в зависимости от параметров системы, он может быть либо создан автоматически, либо гипертекстовая ссылка не создается.

Как отмечалось выше, в системе могут быть симметричные и асимметричные связи. Симметричная связь между двумя объектами X и Y создается автоматически путем установления в одном и том же атрибуте досье у каждого из объектов гиперссылки на второй объект. Например, для атрибута Дружественные отношения в досье Персоны для объекта Орлов может быть факт дружбы с объектом Петров. В этом случае, у объекта Петров появится симметричный факт и ссылка на объект Орлов в этом же атрибуте.
В случае асимметричной связи автоматическая репликация факта связи производится между различными атрибутами объектов. Например, при появлении факта кредитования одним объектом другого, для атрибута Сумма выданного кредита одного объекта активируемым будет атрибут Сумма взятого кредита другого. На рисунке 3 связи отображаются в виде дерева, а детальные данные выделенной строки-связи — в виде конкретных фактов.


Рисунок 3. Пример отображения связей в виде дерева

Технология формирования А-фактов

Автоматическое выделение фактографической информации — это процесс выделения фактов для тех пар (объект, атрибут досье), которые находятся в состоянии автоматического мониторинга. В зависимости от типа атрибута и источника информации процесс может быть выполнен различными методами: с применением инструментов контекстного поиска, синтаксического анализа, методов распознавания образов, методами статистического анализа и др.

Для реализации процесса автоматического выделения фактов в системе используются следующие программные компоненты:

  • Фактографический модуль — предназначен для автоматического выделения фактов из документов. Компонент может обрабатывать структурированный (числовые и символьные данные, пространственные данные из геоинформационных систем) и неструктурированный (видео, звук, текст) типы контента. Например, для текстового атрибута Покупка акций значением факта является фраза контрольный пакет акций, объектом связи — ОАО «ХХХ», свойством факта является обстоятельство времени: в январе 2006 года. Эти данные сохраняются в БД и используются для аналитической обработки, например, для автоматического выявления прямых, косвенных и транзитивных связей между объектами, а также для построения семантических сетей объектов;
  • Источник данных — это программный объект, доставляющий контент для их автоматической обработки фактографическим модулем;
  • Задача — программный компонент, управляющий регламентом и настройками процесса автоматического выделения фактов из текстов;
  • Агент запуска задач — это сервис, который управляет регламентом выполнения задач, производит их запуск и остановку. Агент определяет задачу, готовую к выполнению, фактографический модуль и источники документов, которые необходимо для этого использовать.

Для минимизации времени обработки потока документов используются контекстные фильтры, предварительно отделяющие потенциально «полезные» для выделения фактов документы. Они могут быть связаны с объектом мониторинга или атрибутами досье. Каждый атрибут досье может иметь также фактографические правила — правила, определяющие синтактико-морфологический шаблон, по которому выделяется факт и его атрибуты в тексте. Шаблоны строятся специальным модулем на основе обучающих примеров-предложений. На его вход подается предложение, содержащее факт для определенного атрибута, на выходе формируется шаблон факта для всех похожих предложений. На рисунке 4 представлен фрагмент накопленных А-фактов для атрибута Сведения о производственной деятельности.



Рисунок 4. Пример накопленных А-фактов для одного атрибута досье

Технология выделения А-фактов из текста основана на использовании специальных семантико-лингвистических методов, которые дают возможность получить точность и полноту А-фактов, сравнимую с экспертными. Вкратце суть метода обработки каждого документа заключается в следующем.

Сначала из документа строится дайджест объекта, который содержит все предложения документа, содержащие ссылки на объект. Дайджест должен учитывать кореферентные ссылки на объект в различных предложениях. Затем строится информационный портрет документа на основе синтаксического анализа и синтеза. Далее портрет преобразуется в семантическую сеть, обеспечивающую инвариантность описания смысла относительно лингвистического представления текста. Например, семантическая сеть позволяет абстрагироваться от малоинформативных элементов формально-синтаксической структуры текста (порядка слов, залога и т.п.) и представляет его пропозициональную структуру в терминах описываемых ситуаций (предикатов) и их участников (аргументов) в определенных семантических ролях. Будучи дополнен правилами для генерации канонической формы синтагм, синтаксический анализ-синтез позволяет описать каждый смысловой атрибут текста в виде строки, инвариантной к его грамматическому выражению в различных фразах.

В последней технологической фазе извлечения А-фактов движок фактографических правил на основе семантической сети дайджеста производит поиск шаблонов фактов и сохраняет структурированное описание выделенных фактов в базе данных системы. Хотелось бы ещё раз отметить, что выделенный факт — это не только контекст, а выделенные из него свойства.

В системе алгоритм выделения фактов из текстов наиболее глубоко проработан для русского языка, для большинства других языков могут использоваться источники документов (например, Oracle Intertext, Microsoft Content Management System, Hummingbird SearchServer, …), поддерживающие многоязычный поиск.

Технологии формирования досье

В условиях коллективной работы зачастую вводятся несколько фактов в один атрибут для одного объекта, после чего возникает необходимость экспертного оценивания достоверности введенных, возможно противоречивых, фактов. Для этого в БД досье хранится дополнительная информация, подтверждающая факты в форме:

  • цитат из документов;
  • прикрепленных к факту документов, почтовых сообщений, заключений экспертов и др.;
  • видеофрагментов и графических файлов.

Каждый факт в системе имеет статус достоверный или недостоверный. Эксперт, на основе дополнительной подтверждающей информации в базе данных, может принять решение об изменении статуса факта, либо его удалить (при этом факт остается некоторое время в корзине БД, из которой он может быть восстановлен).

В системе реализован трекинг фактов, т.е. след от источника, даты или автора факта. Для любого факта пользователи имеют возможность вводить и просматривать комментарии и фрагменты контента, а также сами информационные объекты.

Технология пакетного формирования досье весьма актуальна в компаниях, которые имеют распределенную систему офисов, каждый из которых может порождать информацию, например, о действиях конкурентов в их регионе. При этом рыночная политика формируется в центральном офисе на основании, в том числе, досье на конкурентов. Для разметки удаленно сформированных сообщений, содержащих новые факты об объектах мониторинга, используется XML-формат. Он удобен по нескольким причинам. Во-первых, состав атрибутов для каждого типа досье постоянно изменяется. Во-вторых, необходимо обеспечить возможность ввода новых типов досье. Наличие встроенных в шаблон средств контроля целостности документа позволяет передавать только правильные факты.

Аналитическая обработка фактов

В системах бизнес-разведки обычно реализованы следующие базовые виды аналитической обработки фактов:

  • построение исторической цепочки фактов для каждого атрибута досье объекта;
  • автоматическое порождение досье на появившиеся в связях новые объекты. В случае появления в факте нового объекта — участника связи по определенному атрибуту досье (например, конкуренты), по нему автоматически создается досье, и новый объект ставится на мониторинг;
  • автоматическое выявление прямых и нечетких связей объекта с другими объектами системы (связи через третий объект или по общим диапазону дат и обстоятельству места) (см. рисунок 6). При выявлении нечетких связей используются методы статистической фильтрации для устранения незначимых связей;
  • построение частотных распределений фактов в виде графика и таблицы. Визуальный интерфейс поддерживает механизм drill-down, просмотр фактов, формирующих ячейку частотного распределения (см. рисунок 5);
  • построение карты связей объектов для различных типов связей, визуализация и фильтрация связей по атрибутам и другим параметрам (см. рисунок 7, 8);
  • поиск оптимальных (в частности, кратчайших) связей между заданными объектами;
  • определение областей влияния объекта;
  • формирование групп объектов, связанных между собой общностью фактов (например, место, время, содержание факта);
  • поиск релевантных объектов и связей по контенту фактов; поиск объектов в базе данных по шаблону названия объекта и атрибутам содержащихся в них фактов;
  • поиск фактов по их атрибутам: значение, место, время, объекты связи;
  • сортировка фактов в досье по различным критериям (например, по месту, по объекту, по времени — свойствам факта).


Рисунок 5. Частотное распределение фактов


Рисунок 6. Типы связей объектов


Рисунок 7. Фрагмент типизированной сети связей объекта


 Рисунок 8. Карта прямых связей объекта

Все виды аналитической обработки могут дополняться ограничениями на результаты: списки объектов и фактов, частотные распределения, карты связей и др., действующие на время всего сеанса пользователя (их можно также отключать). В зависимости от профиля предметной области аналитика, он может ограничить объем исследуемой информации при помощи фильтра. Фильтр накладывается на статус факта, на ссылочные объекты, на типы досье, на атрибуты, на место действия факта, на диапазоны времени действия и времени модификации факта, на рабочие группы, на пользователей, на приложения и на задачи (программы-агенты). Эта функция может использоваться и как инструмент разграничения доступа, и, самим пользователем, как возможность исследовать только релевантную информацию.



Рисунок 9. Визуальный интерфейс создания фильтра для пользователя

Система управления досье XFiles ориентирована на выявление смысловых объектовых групп (СОГ) или кластеров, т.е. групп, содержащих внутри себя наиболее тесно прямо или нечетко связанные объекты или факты. Связи могут относиться к различным атрибутам досье.

Примерами смысловой объектовой группы могут служить «политическая группировка» (люди, которых объединяют политические связи); «партнёры по бизнесу» (в один тип объединены атрибуты «покупка акций», «деятельность в бизнес-ассоциации», «должность в СЭД», «деятельность в СЭД»); «семья» (люди, объединённые родственными, интимными, личными связями), группа компаний, производящих медицинский препарат, и т.д.

Система управления досье «XFiles» позволяет решать следующие задачи:

  • поиск СОГ;
  • выделение типовых ситуаций (шаблонов) взаимосвязей.

Поиск СОГ производится автоматически. Система предоставляет пользователю интерфейс для выбора атрибутов, факты которых будут участвовать в формировании связей, а также интерфейс для указания критерия группировки объектов в СОГ. После этого автоматически строятся и отображаются списки объектов, входящих в СОГ, связи между ними (пользователю предоставляется механизм указания весов связей).

Выявление типовых ситуаций происходит следующим образом. Система предоставляет пользователю интерфейс описания модели ситуации в виде графа на карте типизированных связей фактов или объектов. Модель ситуации характеризуется:

  • ограничениями на типы объектов, являющихся вершинами графа;
  • ограничениями на значения фактов, которыми характеризуется объект (например «Должность в СЭД» — финансовый директор);
  • ограничениями на типы атрибутов связей;
  • ограничениями на статистические характеристики фактов, лежащих в основе связи (например, частоту либо суммарное количество встреч).

Например, аналитик задаёт описание типовой ситуации: недавно (не позднее месяца от вводимой пользователем даты) имело место поглощение бизнеса одной компании другой, например, с иностранным капиталом. Выбор необходимых атрибутов происходит аналогично механизму фильтрации. Пользователю предоставляется интерфейс, где он выбирает нужные элементы модели. Если в прошлом происходила аналогичная ситуация, и было выявлено, что «тайным менеджером» ситуации являлась связанная с поглотителем рейдерская компания, то система позволит такой же вывод сделать и на этот раз.

Профили пользователей системы

Различные пользователи могут иметь доступ к различным объектам, досье и выполнять в системе различные функции. Пользователи объединяются в рабочие группы, которые имеют доступ к заданному множеству объектов и заданному множеству типов досье. Один пользователь может входить в различные рабочие группы с разными полномочиями.

В каждой рабочей группе для пользователей допустимы различные уровни полномочий:

  • Администраторы — имеют возможность редактировать справочники типов досье, объектов и атрибутов, заполнять и просматривать досье;
  • Редакторы — имеют возможность редактировать и просматривать досье;
  • Пользователи — имеют возможность только просматривать досье и выполнять разрешённые виды аналитической обработки фактов.

Ведение профилей производится с использованием сервисов безопасности операционной системы сервера XFiles.

Заключение

В настоящее время без использования специальных систем аналитической разведки, извлечение конкретных фактов и их аналитическая обработка требуют от компании неприемлемо большого количества ресурсов. Заполняющая эту нишу система XFiles относится к системам извлечения знаний и используется для решения задач наблюдения, подготовки и принятия решений. Растущая популярность этого класса информационных систем объясняется возможностью интеграции знаний, накапливаемых экспертами и программами-автоматами. Этим достигается важное сочетание возможностей автоматического сбора большого числа относительно «сырых» фактов из различных источников, их экспертной оценки и информационной поддержки принятия адекватных решений. Компании, использующие системы бизнес- и аналитической разведки, получают качественно новые преимущества в конкурентном бизнесе, обеспечивают его безопасность и развитие.

Advertisements
Standard

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s