Управление знаниями

Бизнес-разведка: факты, объекты, связи.

Автор: Сергей Леонидович Киселев, к.т.н. | Источник: предоставлено автором для it2b, it2b.ru

Система корпоративной безопасности компании является важнейшим инструментом управления предпринимательскими рисками. Задачи этой системы заключаются не столько в сборе, обработке, оценке и накоплении данных, сколько в их информационном анализе и синтезе управляющих воздействий. Её основой является подсистема бизнес-разведки (business intelligence). Термин бизнес-разведка определяется как «широкая категория технологий, связанных со сбором, хранением, анализом и обеспечением доступа к информации с целью принятия оптимальных деловых решений».

Методы ведения бизнес-разведки весьма близки к используемым в традиционной разведывательной деятельности. Сначала определяются требования к параметрам возможных объектов — источников угроз для планирования и организации поисковой работы. Затем рассматриваются возможные источники информации для проведения бизнес-разведки (как правило, используются несколько альтернативных источников или доверенные источники информации). Разрабатывается модель системы угроз и система управляющих воздействий при их обнаружении. На этой основе разрабатывается методика проведения бизнес-разведки, а также её технология. В настоящее время бизнес-разведка невозможна без использования специализированных информационных технологий. Фирмы, занимающиеся бизнес-разведкой, в своей работе используют информацию, получаемую из масс-медиа, внутрифирменных, банковских, правительственных отчетов, а также прогнозных исследований.

Для того чтобы оценить эффект от внедрения систем бизнес-разведки, необходимо ясно представлять возможности подобных решений. Практическое использование этих систем, в частности, позволяет:

  • постоянно отслеживать и анализировать новую информацию, имеющую отношение к бизнесу конкурентов;
  • организовать постоянный поток автоматически выделяемой информации о действиях конкурента (таких как: ценовая политика, слияния и поглощения, рекламные объявления и анонсы, отзывы об их изделиях);
  • раскрывать планы конкурента;
  • проводить изучение потенциального спроса на продукцию и услуги;
  • изучать реакцию рынка на отдельные свойства товаров и услуг, например, с помощью анализа тональности публикаций об этих объектах.
Естественно, эти системы используются также в других областях деятельности: в профессиональной разведке, в деятельности правоохранительных органов, медицине, банковской сфере, страховании и др.

Приведем несколько типичных примеров использования информационных систем бизнес-разведки.

В процессе изучения фигуранта при формировании дела, описание его поступков может быть получено из различных источников: из отчетов участковых, из протоколов, из оперативных донесений, из агентурных сообщений и др. Зачастую эти документы хранятся в различных фондах. У объекта может быть большое количество контактов, как прямых, так и предполагаемых по косвенным признакам. Учетная информация об объекте может храниться в различных базах данных. Получение всей этой информации очень трудоемко. Для этого используется специализированная система автоматического выделения фактов, связей и ведения дел.

При проведении выборных кампаний зачастую кандидаты из открытых источников собирают факты о конкурентах и их окружении. Обычно для этого используются поисковые системы. Ареал выделяемых персон включает обычно более 50 человек. Объем выделяемой информации составляет сотни страниц. Ценность извлеченных фактов весьма невысока, поскольку экспертная технология не позволяет совместно проанализировать большое число фактов. В этих случаях технология выделения а-фактов используется для накопления первоначальных досье объектов, используя ретро фонды открытой информации и Интернет.

Для мониторинга мнения потребителей о качестве производимой объектами или конкурентами продукции в настоящее время используются методы периодических опросов, либо экспертная обработка сообщений из Интернет. Поскольку в Интернет индексируется незначительная часть объема страниц, экспертный поиск нужных фактов представляет собой очень трудоемкую задачу. Существенно дешевле и точнее для этих задач использовать технологии активной доставки новых фактов с помощью специализированных программ-агентов.

При изучении клиентов банками, страховыми компаниями, из различных источников: регистрационных учетов, финансовых отчетов, налоговых деклараций, баз данных зарегистрированной собственности и транспортных средств, СМИ, оперативных источников и из аналитических систем собираются факты в досье с целью минимизации рисков.

В статье обсуждаются концептуальная и базовая информационные модели информационных систем бизнес-разведки, которые иллюстрируются на примерах возможностей системы XFiles 2004, разработанной интеграционно-инжиниринговой компанией «Белый ветер» и используемой рядом организаций.

Концепция информационных систем бизнес-разведки предполагает реализацию трех принципов:
1. единое информационное пространство взаимосвязанных фактов или гипотез независимо от типа их контента (содержимого источников информации);
2. связь фактов или гипотез с релевантными источниками информации (аргументированность фактов и гипотез);
3. исторически-пространственная информационная модель базы данных фактов и гипотез. Это означает наличие атрибутов времени и места для каждого факта или гипотезы, а также невозможность их безвозвратного удаления.

Реализация этой концепции связана с решением ряда проблем преобразования различных форм представления знаний. Проиллюстрирую одну из них. В чем основная причина относительно малого объема рынка систем извлечения знаний и систем поддержки принятия решений? В том, что на сегодня, практически ни одна система аналитической обработки различного типа контента не производит формально-семантическую интерпретацию результатов своей работы (хотя бы за счёт семантического шкалирования результата), что не позволяет без дополнительных программных компонентов преодолеть понятийный разрыв между результатами работы систем типа Knowledge Discovery и Data Mining и входом систем поддержки принятия решений. Этот разрыв «сшивается» за счет интерпретации результатов работы программ экспертом-аналитиком для лица, принимающего решение.

Такая технология приводит к тому, что добытые знания «упрятываются» в документы, теряется их аргументация, они не могут быть повторно получены. В большинстве корпораций каждый новый аналитик проходит весь путь накопления профильных знаний заново, прежде чем он сможет стать экспертом. Собранные факты «находятся в умах» экспертов, хранятся в различных документах или базах данных. Это не позволяет совместно анализировать разрозненные факты и объединять их в единое информационное пространство фактографической информации, что ведет к потере ценности разведанной информации и вложенных в её разведку средств.

Чтобы избежать этого, для управления пространством фактов в информационных системах бизнес-разведки используется подсистема обработки фактографической информации. На её входе из различных источников выделяется не только поток информации об изучаемых объектах в форме количественных показателей, видеоклипов, документов (информационных сообщений), но и выделенный из них поток знаний (т.е. аналитически обработанная, классифицированная и очищенная информация), основной формой представления которых являются факты и гипотезы. Естественно, факты проходят процедуры очистки, интеграции и другие стандартные процедуры управления единым информационным пространством фактов (ЕИПФ). Эта система находится на вершине иерархии информационной инфраструктуры компании, поскольку для генерации фактов использует сервисы различных систем анализа и доставки контента. С помощью своих программ извлечения знаний они извлекают факты или порождают гипотезы (или сигнальную информацию) из СУБД, хранилищ многомерных данных, Интернет, подсистем аналитической обработки и моделирования, прикладных систем.

Природа множественности значений факта субъективно обусловлена возможностью различной интерпретации одного явления, а также противоречивостью, неточностью или нечеткостью поступающей из внешних источников информации. Поэтому инфологическими особенностями информационной модели ЕИПФ являются: поддержка множественных фактов об одном событии; наличие у факта атрибутов для его трекинга (идентификации автора, времени, источника факта) для его возможного повторного извлечения; поддержка множественных версий интерпретации фактов.

Перейдем к рассмотрению реализации концепции систем бизнес-разведки в системе управления фактографической информацией XFiles 2004, созданной с использованием программных компонентов нескольких фирм, среди которых: Hummingbird, Oracle, Гарант-Парк-Интернет, Inxight, ABBYY Software House и Altova.

Информационная модель системы
Кратко остановимся на основных понятиях информационной модели системы.

Факт — событие (как правило, зафиксированное и произошедшее), сопровождаемое временной и географической метками. Факт сопровождается также аргументирующей информацией, ссылками на источники и др. Факт может быть извлечен из текста документов, либо определен экспертом. Факт может определять как свойства объекта, так и его связь с другими объектами.

Гипотеза — аналитическое высказывание (полученное не из внешнего источника данных, например, из статьи СМИ, а в результате аналитической обработки данных, например, прогнозирования) относительно состояния атрибута досье, сопровождаемое также аргументирующей информацией, ссылками на источники и др. Гипотеза может порождаться различными подсистемами извлечения знаний или экспертами;

Объект — это сущность, факты относительно которой накапливаются в системе. Объект имеет семантический фильтр для самоидентификации в тексте.

Тип досье — описание проблемной области, представленное в виде иерархии атрибутов. Для каждого объекта должен быть определен, по крайней мере, один тип досье.

Досье — реализация типа досье для конкретного объекта.

Атрибут — это структурный элемент типа досье, предназначенный для накопления фактов одного типа. Например, биографических данных, сведений о поездках и др. Атрибут имеет семантический фильтр для выделения «своих» фактов из потока документов. Один атрибут может входить в несколько типов досье.

Связь — это направленное или ассоциативное отношение определенного типа между объектами системы. Связь представляется специальным типом атрибута в каждом досье связываемых объектов.

Поскольку предметная область зачастую довольно обширна, целесообразно использование нескольких досье для одного объекта. Например, одно досье может отражать бизнес-деятельность объекта, второе — его личную собственность, третье — медицинские данные, и другие. Такой подход дает возможность различным группам аналитиков «чувствовать» только профильную для них группу атрибутов. Однако, лицо, принимающее решение, может анализировать все досье объекта и все его связи.

В представленном на рисунке 1 примере Объект X объединяет два типа досье: Тип досье А и Тип досье В, и содержит все семь атрибутов. Объект Y имеет один тип досье Тип досье В и содержит 4 атрибута. Атрибут 4 одновременно входит в состав обоих типов досье.

Рисунок 1 — Пример фрагмента информационной модели системы

Концептуальной моделью единого информационного пространства фактов системы XFiles 2004 является расширенная ER модель (модель «сущность-связи» (Entity-Relationship model)) для поддержания исторической и пространственной модели предметной области (объектов, их атрибутов и связей). Она позволяет получить состояние базы данных фактов на любой момент времени. Актуализация базы данных досье производится путем ввода в неё новых фактов, каждый из которых определяется высказыванием вида:

Факт ::= {Идентификатор факта, значение факта, временной диапазон действия факта, место [, источник факта][, оператор][, статус факта]}
Идентификатор факта ::= {Идентификатор объекта. Идентификатор элемента досье}
Идентификатор элемента досье ::= {[Идентификатор атрибута] [, Идентификатор связи]}

Теперь кратко рассмотрим технологию автоматического выделения и накопления фактов из различных источников информации. Это свойство концептуально отличает современные системы обработки фактографической информации.

Технологии обработки фактов
Одним из наиболее важных, но и наименее достоверных источников информации для выделения фактов является масс-медиа. В связи с большой плотностью потока текстовой информации, в современных фактографических системах интенсивно развивается технология автоматического выделения фактов (а-факты), относящихся к объектам мониторинга. Она позволяет в режиме квазиреального времени «поднять» ретроспективные фонды документов за десяток лет и получить актуальное «сырое» досье на новые объекты, что практически нереально при использовании экспертной технологии выделения фактов. В системе XFiles 2004 реализована функция сбора а-фактов из практически всех доступных типов открытых источников (Интернет, информационные агентства, корпоративные базы данных, информационные ресурсы офисных приложений и др.).

Для последующей оценки достоверности фактов, их обобщения и для формирования аналитических материалов используется экспертная обработка. Экспертные факты (э-факты) вводятся авторизованным пользователем в интерактивном или пакетном режимах. На рисунке 2 представлен пример фрагмента сформированного досье.

Рисунок 2 — Фрагмент досье объекта

Для установления связи между объектами системы необходима пара профильных атрибутов в связываемых объектах, например Атрибут 4 (см. рисунок 1). При наличии факта об определенном типе связи двух объектов в каждый профильный атрибут обоих объектов проставляется ссылка на viz a viz объект. Этот процесс может выполняться автоматически и экспертно. Если объекта — второго участника связи нет в базе данных, то, в зависимости от параметров системы, он может быть либо создан автоматически, либо гипертекстовая ссылка не создается.

В системе рассматриваются два типа связей: симметричные и асимметричные. Симметричная связь между двумя объектами X и Y создается автоматически путем установления в одном и том же атрибуте досье у каждого из объектов гиперссылки на второй объект. При автоматическом выделении этого факта из текста первичным объектом связи считается объект — подлежащее, вторичным — дополнение. Например, для атрибута Дружественные отношения в досье Персоны для объекта Орлов может быть факт дружбы с объектом Петров. В этом случае, у объекта Петров появится симметричный факт и ссылка на объект Орлов в этом же атрибуте.

В случае асимметричной связи автоматическая репликация факта связи производится между различными атрибутами объектов. Например, при появлении факта кредитования одним объектом другого, для атрибута Сумма выданного кредита одного объекта активируемым будет атрибут Сумма взятого кредита другого. Примеры интерфейса отображения связей в системе представлены на рисунках 3 и 8. На рисунке 4 связи отображаются в виде дерева, а детальные данные выделенной строки-связи — в виде конкретных фактов.

Рисунок 3 — Пример визуального интерфейса отображения связей в системе

Технология формирования а-фактов

На рисунке 4 представлен пример структуры источников информации, используемых для ведения досье.

Рисунок 4 — Пример структуры источников фактов системы бизнес-разведки

Автоматическое выделение фактографической информации — это процесс выделения фактов для тех пар (объект, атрибут досье), которые находятся в состоянии автоматического мониторинга (см. рисунок 5). В зависимости от типа атрибута и источника информации, процесс может быть выполнен различными методами: с применением инструментов контекстного поиска, синтаксического анализа, методов распознавания образов, методами статистического анализа и др.

Рисунок 5 — Пример преобразования аномалий процессов, полученных в системе экономического мониторинга, в а-факты

Для реализации этого процесса в системе XFiles 2004 используются следующие программные компоненты:

  • Фактографический модуль — предназначен для автоматического выделения фактов из информационных объектов, доставляемых источником данных. Компонент может обрабатывать структурированный (числовые и символьные данные, пространственные данные из геоинформационных систем) и неструктурированный (видео, звук, текст) типы контента. Например, для текстового атрибута Покупка акций фактом является фраза контрольный пакет акций, объектом связи — ОАО «ХХХ», свойством факта является обстоятельство времени: в мае 2004 года. С помощью семантико-лингвистических методов выделяется количественная информация, связанные с фактом объекты, обстоятельства места и времени. Выделенная информация очищается, нормализуется (например, приводится к единому формату даты в системе) и классифицируется. Эти данные сохраняются в БД и используются для аналитической обработки, например, для автоматического выявления прямых, косвенных и транзитивных связей между объектами, а также для построения семантических сетей объектов.
  • Источник данных — это COM объект, доставляющий контент для их автоматической обработки фактографическим модулем. Все источники документов системы поддерживают набор программных интерфейсов, с помощью которых фактографический модуль выполняет запросы, получает контент и его атрибуты. В системе реализовано несколько фактографических модулей и источников документов.
  • Задача — программный компонент, управляющий регламентом и настройками процесса автоматического выделения фактов из текстов.
  • Агент запуска задач — это сервис, который управляет регламентом выполнения задач, производит их запуск и остановку. Агент определяет задачу, готовую к выполнению. По её параметрам он определяет, какой фактографический модуль необходимо запустить и какие источники документов для этого использовать.
Для минимизации времени обработки потока документов используются контекстные фильтры, предварительно отделяющие потенциально «полезные» для выделения фактов документы. Они могут быть связаны с объектом мониторинга или атрибутами досье. Каждый атрибут досье может иметь также фактографическое правило — правило, определяющее синтактико-морфологический шаблон, по которому выделяется факт и его атрибуты в тексте. Шаблоны строятся специальным модулем на основе обучающих примеров-предложений. На его вход подается предложение, содержащее факт для определенного атрибута, на выходе формируется шаблон факта для всех похожих предложений. На рисунке 6 представлен фрагмент накопленных а-фактов для атрибута Сведения о производственной деятельности.

Рисунок 6 — Пример накопленных а-фактов для одного атрибута досье

Технология выделения а-фактов из текста основана на использовании специальных семантико-лингвистических методов, которые дают возможность получить точность и полноту а-фактов, сравнимую с экспертными. Вкратце суть метода обработки каждого документа заключается в следующем.

Сначала строится дайджест объекта, который содержит все предложения документа, содержащие ссылки на объект. Дайджест учитывает анафорические ссылки между предложениями (кореферентные связи). Затем строится информационный портрет документа на основе смысла элементов текста, извлекаемых средствами синтаксического анализа и синтеза. Далее он преобразуется в семантическую сеть, обеспечивающую инвариантность представления смыслов относительно ряда особенностей поверхностно-синтаксической организации текста. Например, семантическая сеть позволяет абстрагироваться от малоинформативных элементов формально-синтаксической структуры текста (порядка слов, залога и т.п.) и представляет его пропозициональную структуру в терминах описываемых ситуаций (предикатов) и их участников (аргументов) в определенных семантических ролях. Для решения задачи выделения а-фактов полное представление смысла текста в форме семантической сети является избыточным и непродуктивным, оно имеет большой объем (превышающий объем документа), а его утилизация требует высокопроизводительного оборудования и развитых нетривиальных средств для поиска и сравнения структур на графах.

Будучи дополнен правилами для генерации канонической формы синтагм, синтаксический анализ-синтез позволяет описать каждый смысловой атрибут текста в виде строки, инвариантной к его грамматическому выражению в различных фразах. Например, фразам «Транспорт был арендован террористом у автобазы», «Террорист арендует у автобазы транспорт» и «Аренда транспорта террористом у автобазы» будут соответствовать одинаковые элементы смысла: «террорист арендует», «аренда транспорта», «аренда у автобазы».

Выделяемые связи между элементами смысла можно разделить на следующие основные классы:

  • связи между ситуациями и их участниками — предикатно-аргументные связи, например: (сделать, покупка), (продажа, акции).
  • связи внутри именных групп (генитивные цепочки), обычно называющих участников ситуации, — атрибутивные связи, например, акт (террористический, боевиков), предприятие (прибыльное, город).
  • связи между ситуациями — предикатно-предикатные, например, покупать (учиться), бороться (искореняя).
  • связи ситуаций с обстоятельствами или дополнительными атрибутами.
В последней технологической фазе извлечения а-фактов движок фактографических правил на основе семантической сети дайджеста производит поиск шаблонов фактов и сохраняет структурированное описание выделенных фактов в базе данных системы. Хотелось бы ещё раз отметить, что выделенный факт — это не контекст, а выделенные из него свойства.

Алгоритм выделения фактов из текстов наиболее глубоко проработан для русского языка, для большинства других языков могут использоваться источники документов (например, Hummingbird SS 2004), поддерживающие многоязычный поиск.

Технологии формирования досье

В условиях коллективной работы зачастую вводятся несколько фактов в один атрибут для одного объекта, после чего возникает необходимость экспертного оценивания достоверности введенных, возможно противоречивых, фактов. Для этого в БД досье хранится дополнительная информация, подтверждающая факты в форме:

  • цитат из документов;
  • прикрепленных к факту документов, почтовых сообщений, заключений экспертов и др.;
  • видеофрагментов и графических файлов.

Каждый факт в системе имеет статус достоверный или недостоверный. Эксперт, на основе дополнительной подтверждающей информации в базе данных, может принять решение об изменении статуса факта, либо его удалить (при этом факт остается некоторое время в корзине БД, из которой он может быть восстановлен).

В системе реализован трекинг фактов. Для любого факта пользователи имеют возможность вводить и просматривать комментарии и фрагменты контента, а также сами информационные объекты.

Технология пакетного формирования досье весьма актуальна в компаниях, которые имеют систему распределенных офисов, каждый из которых может порождать информацию, например, о действиях конкурентов в их регионе. При этом рыночная политика формируется в центральном офисе на основании, в том числе, досье на конкурентов. Для разметки удаленно сформированных сообщений, содержащих новые факты об объектах мониторинга, используется XML формат. Он удобен по нескольким причинам. Во-первых, состав атрибутов для каждого типа досье постоянно изменяется. Во-вторых, необходимо обеспечить возможность ввода новых типов досье. Наличие встроенных в шаблон средств контроля целостности документа позволяет передавать только правильные факты.

Автоматический ввод поступающих фактов в БД системы производится с помощью специальной программы Агент ввода фактов.

Программа выполняет следующие функции:

  • мониторинг поступления новых сообщений;
  • анализ корректности и структурный разбор XML сообщения;
  • формирование списка фактов, содержащихся в сообщении;
  • проведение автоматической аутентификации удаленного пользователя, приславшего сообщение, и получение локальных полномочий этого пользователя в системе для правильного трекинга факта;
  • ввод фактов в БД.
Аналитическая обработка фактов

В системах бизнес-разведки обычно реализованы следующие базовые виды аналитической обработки фактов:

    • построение исторической цепочки фактов для каждого атрибута досье объекта;
    • автоматическое порождение досье на появившиеся в связях новые объекты. В случае появления в факте нового объекта — участника связи по определенному атрибуту досье (например, конкуренты), по нему автоматически создается досье и новый объект ставится на мониторинг;
    • автоматическое выявление косвенных связей объекта с другими объектами системы (связи через третий объект или по общим диапазону дат и обстоятельству места) (см. рисунок 7);

Рисунок 7 — Типы связей объектов

  • поиск наиболее коротких цепочек связей между заданными объектами;
  • построение сети связей объекта (см. рисунок 8);
  • определение областей влияния объекта;
  • выявление кластеров (плотных скоплений) связанных объектов (группировок);
  • поиск релевантных объектов и связей по контенту фактов.

Рисунок 8 — Фрагмент сети связей объектов в системе XFiles 2004

Все виды аналитической обработки в системе XFiles 2004 могут дополняться ограничениями на:

  • атрибуты-связи (например, отображать связи только по атрибутам: Покупка и продажа акций и банки-посредники операций);
  • на типы допустимых в цепочке связей (прямые, косвенные или любые);
  • на контент фактов, т.е. возможность выделять только те объекты, факты, относящиеся к которым, содержат определенный шаблон контента. Например, выделить объекты, в атрибуте Акционеры которых содержится лингвистический шаблон «Резник%»;
  • на длину цепочки связи объектов;
  • на временной диапазон существования связей. Например, считать действительным только связи после 2000 года;
  • на обстоятельство места совершения факта. Например, считать действительным только факты, относящиеся к государству Кипр.
Профили пользователей системы

Различные пользователи могут иметь доступ к различным объектам, досье и выполнять в системе различные функции. Один пользователь может входить в различные рабочие группы с разными полномочиями. Каждая рабочая группа имеет доступ к заданному множеству объектов и заданному множеству типов досье.

В каждой рабочей группе для пользователей прописаны различные уровни полномочий:

  • Администраторы — имеют возможность редактировать справочники типов досье, объектов и атрибутов, заполнять и просматривать досье.
  • Редакторы — имеют возможность редактировать и просматривать досье.
  • Пользователи — имеют возможность только просматривать досье и выполнять различные виды аналитической обработки фактов.
Заключение

На этом завершим краткий анализ современных информационных технологий бизнес-разведки. Они относятся к технологиям извлечения знаний, в качестве источников включающие все системы, используемые в процессе подготовки и принятия решений. Обычно эти системы интегрированы в корпоративный аналитический портал компании. Растущая популярность этого класса информационных систем объясняется возможностью интеграции знаний, накапливаемых экспертами и программами-автоматами. Этим достигается важное сочетание возможностей автоматического сбора большого числа относительно «сырых» фактов из различных источников, их экспертной оценки и информационной поддержки принятия адекватных решений. Основанные на этом подходе системы бизнес-разведки компаний получают качественно новые преимущества в конкурентном бизнесе.

Advertisements
Standard

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s