Управление знаниями

Извлечение данных

Решил получить базовую экспертизу в области data mining, со мной поделились замечательной работой на эту тему А.К. Скуратова, а я , в свою очередь, поделюсь с вами краткой выжимкой (учитывая, что самой работой я обещал вообще ни с кем не делиться). Итак,если посмотреть технологии, то к задачам обработки неструктурированной информации относятся:

  • Глубинный анализ текста (Text mining). К основным процедурам ТМ относятся: суммаризация (summarization), выделение феноменов, понятий (feature extraction), кластеризация (clustering), классификация (classification), ответ на запросы (question answering), тематическое индексирование (thematic indexing) и поиск по ключевым словам (keyword searching). Также в некоторых случаях набор дополняют средства поддержки и создания таксономии (oftaxonomies) и тезаурусов (thesauri). То есть, если мы имеем некий набор документов, то мы можем выделить общие сущности, получить навигационный механизм для исследования документов и т.п.
  • Управление содержанием и знаниями (Content and Knowledge Management): классификация информации и документов, автоматизация процессов обработки, организация и классификация документов по папкам, организация единой точки доступа к документам, поиск документов по атрибутике и содержанию.
  • Управление документами (Document Management). Хранение документов на основании модели.
  • Поиск и категоризация документов (Document Search and Categorization). Здесь вообще всё должно быть понятно. Примером системы, использующей данную технологию (+ управление документами) отчасти может быть электронная библиотека, особенно если она распределена между несколькими вузами, например ehd.mgimo.ru

Очевидные проблемы – высокая ресурсоемкость операций, распределенность данных, а также потребность в имитационном моделировании. Для решения этих проблем используется параллельное вычисление (например – многоядерные процессоры), так как я не являюсь архитектором, то и углубляться в данную тематику здесь не буду. Про СУБД я также не буду распространяться, но про DB2 следует узнать несколько больше… Инструменты извлечения данных весьма стандартны, а вот о средствах доведения информации до потребителей я немного расскажу, ведь программы создаются для получения пользователем определенного результата. Результат может быть получен при помощи следующих систем:

  • ERP-системы (Enterprise Resource Planning), осуществляющие тотальную интегрированную поддержку управления производственным или эксплуатационным предприятием.
  • CALS-системы (Continuous Acquisition and Life Cycle Support) — поддержка жизненного цикла программных комплексов.
  • CIM-системы (Computer Integrated Manufacturing) — компьютерное управление производством.
  • PDM-системы (Project Data Management) — управление проектами;
  • системы управления документами и электронными архивами (СУД).
  • системы управления деловыми (бизнес-) процессами (workflow).
  • и т.д.

Выделим же ещё экпертный и интеллектуальные системы, в чем же их особенности?

  • Экспертные системы строятся на  основе статической базы знаний, сформированной стандартными методами инженерии знаний, например, путем работы с экспертами. В настоящее время существует достаточно обширный инструментарий автоматизации создания экспертных систем, из которого наиболее известен, пожалуй, пакет GENSYM (http://www.gensym.com/). Традиционными потребителями экспертных систем являются области знания, слабо обеспеченные формальным математическим аппаратом, например, разделы медицины, в которых постановка диагноза сильно связана с субъективными ощущениями больного.
  • Интеллектуальные системы отличаются от экспертных тем, что, помимо статической базы, они обладают еще и динамической базой знаний, модифицирующейся по мере поступления в систему новой информации. Фактически, в интеллектуальной системе предусмотрена возможность самообучения.

Почему я о них упомянул? Именно потому, что в них обрабатываются огромные массивы данных, из которых выделяются необходимые для анализа сущности. Кроме того, требования к времени обработки/получению данных могут быть жестко задано, например, если речь идёт об управлению полетами и т.п. И чем “умнее и быстрее” будет данная система, тем меньше будет участие “человеческого фактора”. Не забудем ещё и про систему логического вывода, выводящей прогнозы и рекомендации на основании базы знаний и текущих данных, производя идентификацию ситуации. Итого, описанные системы решают следующие задачи:

  • Получение справочной (описательной) информации для поддержки принятия решения.
  • Анализ степени достоверности предоставляемой информации.
  • Исследование возможного развития событий (анализ «если-то»).
  • Обратная «прокрутка» логического вывода с целью отсечения альтернатив.
  • Уточнение (адаптация) базы знаний системы с использованием текущей информации.

Само собой, к этому можно вполне и графику прикрутить, из самого простого, что пришло на ум – highcharts.com. Само собой – это самые простенькие графики, гораздо интереснее системы CAD/CAM/CAE, а если говорить о подходах, то они будут следующими:

  • Ландшафт данных (Map) представляет собой графический интерфейс, отображающий данные в виде трехмерного ландшафта произвольно определенных и позиционированных форм — столбчатых диаграмм, каждая с индивидуальными высотой и цветом. Это позволяет наглядно отображать интенсивность и взаимосвязи между данными и быстро идентифицировать в них тенденции и выбросы.
  • Диаграммы рассеяния (Scatter plots). Для данных с размерностью больше 3 к обычной 3D-системе координат, в которой задаются исходные переменные, добавляется два дополнительных измерения. Они отображают размер и цвет элементов данных. Дополнительно вводятся динамические измерения, которые позволяют прокручивать многомерные данные, показывая изменчивость одних переменных при фиксации остальных.
  • Древовидные структуры (Tree plot). Информация организуется иерархически (по связям в виде дерева) и изображается в виде трехмерного ландшафта с возможностью динамического движения в этом пространстве, что позволяет вести обзор всего множества данных или его части. Количественные характеристики данных отражены также в форме и цвете узлов. Такой способ визуализации весьма эффективен для представления деревьев решений.
  • Диаграммы правил (Rule plot) рассматриваются как специфическое средство графического представления результатов процедуры анализа ассоциаций. Анализируя визуально эти результаты — правила с сущностями в их левой и правой частях, пользователь может глубже проникнуть в природу специфического набора данных, отмечая наиболее значимые связи.
  • Диаграммы свидетельств (Evidence plots) предназначаются для оценки качества классификации. Они позволяют визуально оценить меру сходства-различия элементов классов и осознать, какие именно характеристики влияют на ее структуру.
  • Лица Чернова (Chernov faces) являются классическим средством когнитивного представления многомерных данных. Многомерному вектору данных сопоставляется стилизованное изображение лица человека, интенсивность черт которого пропорциональна компонентам вектора, а их расположение — связям между ними. Лица Чернова служат не только для распознавания, но и для шкалирования многомерных данных, ранжируя их в соответствии с «настроением» лица.
  • Лучевые диаграммы (Star diagram) сворачивают многомерный вектор данных на циклическую траекторию; интенсивность удаления от центра соответствует величине компонента вектора. Лучевые диаграммы наиболее важны для описания взаимосвязей между элементами, которые пропорциональны телесным углам между лучами из центра.

Если что, то программные продукты я могу предоставить по запросу. Тем более, что они не столь любопытны, как системы “Виртуальной реальности” (эти сисемы интерактивные, понятнее будет ниже), они могут быть реализованы по одной из следующих технологий:

  • Кабинные симуляторы (cab simulators), порожденные автомобильными, морскими и авиационными тренажерами, в которых пользователь садится в кабину и видит перед собой в окне дисплей компьютера, на котором изображены некие ландшафты.
  • Системы искусственной реальности (artificial, projected reality), в которых пользователи видят реальные видеозаписи друг друга, встроенные в виртуальное пространство трехмерных образов. Эти системы не требуют головных дисплеев и могут успешно использоваться для неквалифицированных пользователей. Идея совмещения видео и компьютерной графики в реальном времени породила, в частности, технологию виртуальных студий, при которой изображение на экране телевизора в реальном времени складывается из видеозаписей участников передачи (реально находящихся в пустой студии) и трехмерных миров, которые компьютер генерирует и соединяет с этой видеозаписью.
  • Системы «расширенной» реальности (augmented reality), в которых изображение на экране головного дисплея прозрачно, так что пользователь видит одновременно и свое реальное окружение, и виртуальные объекты, генерируемые компьютером на экране.
  • Системы телеприсутствия (telepresence) используют видеокамеры и микрофоны для погружения в виртуальное окружение пользователя. К ним в основном относятся системы управления удаленными динамическими объектами или консалтинговые системы, применяемые, например, при дистанционном проведении хирургических операций [Телемедицина, 1998].
  • Настольные ВР-системы (desktop VR) обеспечивают эффект погружения за счет проецирования изображения на большую площадь с помощью специальных проекторов. В основном они применяются для бизнес-презентаций и создания ситуационных комнат.
  • Визуально согласованный дисплей (visually coupled display) размещается прямо перед глазами пользователя и изменяет картинку согласно движениям его головы. Он снабжен стереофоническими наушниками и системой отслеживания направления взгляда и фокусирует изображение, на которое направлено внимание пользователя.

Собственно, вот и хватит, разве что скажу, что в РФ с данными технологиями работают как минимум IBS, I-teco (http://www.osp.ru/os/2011/05/13009439/ и т.д.).

Standard
Управление знаниями

Алгоритмический анализ фактов

Издательство «Открытые системы»

Алгоритмический анализ фактов

Факты – структурированное описание события – основа для принятия решений при проведении разведки или мониторинга настроений в обществе. Полностью структурированное представление событий дает возможность использовать преимущества современных систем обработки структурированной информации, однако еще совсем недавно направление фактографии в России отсутствовало, сегодня ситуация меняется — появляются соответствующие системы управления фактографической информацией.


Читать целиком

Алгоритмический анализ фактов

На всякий случай прикладываю pdf: “Алгоритмический анализ фактов“.

Standard
Управление знаниями

«Аналитический курьер» – современная система извлечения знаний из хранилищ документов

Автор: Сергей Леонидович Киселев, источник it2b.ru
Современный уровень информационно-аналитической работы, как, впрочем, и весь прогресс цивилизации, показывает тенденцию уменьшения роли естественного интеллекта в результатах интеллектуальной деятельности, переложения ее на автоматы, а также повышения интеллекта у систем, которые должны помогать, а затем и направлять исследование данных в зависимости от их контента. Под этим углом зрения в статье рассматриваются перспективные технологии анализа текста, которые появятся в ближайшем будущем и станут стандартом на рынке. Рассмотрим две функции систем: ввода данных в систему и формирования вторичной информации о документе, например, ключевые темы, аннотации, семантические сети документов, фактографическая информация, и др. с использованием технологии ETL (Extract-Transform-Load — выделения-преобразования-загрузки) и аналитической обработки.
В контексте этой статьи это означает переход от экспертной обработки данных в фазе ETL (Extract-Transform-Load — выделения-преобразования-загрузки) к автоматизированной, а затем и к полностью автоматической при больших потоках данных и достаточной достоверности автоматического процесса структурирования контента. В ближайшем будущем, при достижении приемлемой производительности обеспечивающих операционно-технических платформ, наиболее востребованными будут системы с максимально автоматизированными ETL-процессами. В частности, доминирующий сегодня в ряде известных систем экспертный семантический анализ контента будет уступать автоматическим методам синтаксического и постсинтаксического анализа русскоязычных текстов. Следуя известным законам Мура и Рока о нелинейном увеличении темпов производства наукоемкой продукции, можно ожидать появления таких систем в ближайшие три-пять лет.

Вопрос автопилотирования направления исследования является вторым важным направлением развития систем анализа неструктурированного контента. Этому направлению развития технологий посвящено основное содержание статьи.

В ответ на неотложную задачу автоматизации аналитической работы с неструктурированным контентом в мире ИТ-профессионалов вполне сложился базис моделей для анализа трендов, отклонений, связей, групп и других свойств коллекций объектов.

Компания «Ай-Теко» развивает технологии аналитической обработки неструктурированной текстовой информации. «Ай-Теко» принадлежат патентные свидетельства на систему извлечения знаний «Аналитический курьер» и систему управления досье «XFiles». Эти системы отличаются «мощным интеллектом» и минимальной трудоемкостью для извлечения знаний из текста.

Система «Аналитический курьер» предназначена для аналитической обработки текстовой информации с целью получения из нее новых знаний. Особенностью системы является возможность параллельной обработки разнородной неструктурированной информации (документов) из различных источников: сообщений СМИ, сообщений информационных агентств, аналитических материалов различного профиля, документов сети Интернет, почтовых и управленческих документов и др. Система обеспечивает возможность поиска и аналитической обработки информации, по одному запросу можно получить документы из различных баз данных, файловых систем и др.

Проходящая? тестирование версия системы «Аналитический курьер» 2006 поддерживает обработку поисковых запросов на естественном языке, в том числе — русском. Для выдачи корректного ответа на запрос «Не могли бы вы, ваши сотрудники или информационно-аналитическая система помочь ответить на вопрос, кто является акционерами ЦентрСибБанка?» в системе используется нечёткая векторная модель поиска и семантический анализатор текста. С помощью синтаксического анализатора поисковый запрос преобразуется в вектор термов, и на множестве текстов фонда ищутся наиболее близкие к вектору запроса документы.

В системе автоматически поддерживается целостность словарей, классификаторов и других метаданных, размещенных в разных узлах распределенной системы, автоматически тиражируются профильные документы по различным темам.

Система извлечения знаний «Аналитический курьер» опирается на Единое Информационное Пространство (ЕИП), объединяющее хранилища неструктурированной информации (см. рисунок 1). В ЕИП исходные материалы организуются иерархически:

  • на нижнем уровне условной модели находятся конкретные документы и их карточки;
  • на следующем уровнем расположены фонды документов (материалы, объединённые по общим источникам и времени публикации, например, сообщения российских СМИ за 2006);
  • на верхнем уровне иерархии ЕИП находятся хранилища — объединения фондов.

В системе достигается высокое качество сервисов тематического рубрицирования, определения тональности документов, высокая точность выделения фактов из текста за счёт использования развитых компонентов анализа естественного языка. Углублённый анализ анафорических предложений повышает количество выбираемых информации об объекте и фактов, в среднем, на 50-80%.

Рисунок 1. Иерархическая организация ЕИП

Принятый в системе «Аналитический курьер» подход допускает дальнейшее исследование результатов анализа, полученных на предыдущем, менее общем, уровне иерархии ЕИП. Виды извлекаемой из документа информации — аннотация, отнесение его к определённой тематической рубрике, тональная окраска, ключевые темы и информационные объекты — могут служить исходным материалом, точкой входа, для анализа подборки документов. Выделенные из текстов объекты образуют семантические группы, например, «юридические лица», «физические лица».

Выбрав из нужной группы интересующий объект, аналитик получает все сервисы исследования материалов, посвященных этому объекту, на высшем уровне хранилищ документов. Мощную функциональность предоставляют многомерные частотные распределения текстов по любым критериям.

Построив частотное распределение, например, по тональности публикаций, с помощью механизма drill-down пользователь получает возможность вернуться обратно, до уровня документов.

Задачи системы

Система «Аналитический курьер» предоставляет инструментарий для решения следующих задач:

  • пилотируемый поиск;
  • автоматическое аннотирование статей;
  • тематическое рубрицирование публикаций на различных языках;
  • регламентное построение дайджестов на ключевые, определяемые пользователем, объекты мониторинга;
  • определение тональной окраски документов и отдельных объектов;
  • автоматическое выделение тематических групп внутри коллекции документов (кластерный анализ публикаций);
  • выявление ключевых тем коллекции документов, построение их взаимосвязей в виде типизированной или нетипизированной семантической сети;
  • частотный анализ рубрик и публикаций, многомерная аналитическая обработка данных;
  • мониторинг информации о выбранных объектах и исследование изменения динамики их состояния в интерактивном и автоматическом режиме;
  • параллельная обработка разнородной неструктурированной информации из различных источников.

Система позволяет быстро изучать новые предметные области, которым посвящены тексты фонда, структурировать проблематику, готовить отчёты и информационно-аналитические материалы.
Кратко рассмотрим эти решения.

Пилотируемый поиск информации

В системе реализованы все основные модели поиска информации: булева, нечеткая булева и векторная. Существует возможность сохранять и повторно использовать в дальнейшем сохраненные пользователями запросы.

В окне настроек системы (пункт Настройки основного меню) можно настраиваться на работу с соответствующими информационными фондами для конкретного пользователя, задавать параметры для поиска и просмотра его результатов (рисунок 2).



Рисунок 2. Настройка параметров поиска

На стадии формировании поискового запроса система позволяет использовать тезаурусные расширения термов запроса. За счёт использования тезауруса и морфологического анализатора запрос поиска «ДТП» имеет фактор расширения 1:150 (из одной лексемы фактически генерируется 150 лексем для сервера поиска).

 Рисунок 3. Расширение запроса с использованием современного тезауруса.

Кроме контекстного поиска и поиска с использованием тезауруса, «Аналитический курьер» предоставляет функцию «Найти похожие»: получение списка документов, наиболее соответствующих содержанию первичного документа.

Система допускает разные способы и направления сортировки всех отобранных по запросу документов. После получения подборки документов можно построить частотное распределение по атрибутам документа, например, по источникам публикации с представлением ряда в виде таблицы или диаграммы. Отобранные в списке документы (или все документы из списка) можно сохранить в одном из форматов экспорта документов.

Отличительной особенностью системы является наличие навигатора поиска, используемого для выбора направления дальнейшего поиска по результатам выполненного запроса. На рисунке представлен список ключевых тем выполненного ранее запроса, которыми можно уточнять его, перемещая нужные темы в поле контекстного запроса для повторного выполнения.

 Рисунок 4. Навигационное поле обработанного запроса для выбора направления поиска

Для поиска необходимых документов можно использовать альтернативный вход в систему через объекты и их взаимосвязи, выделенные системой автоматически из текста проиндексированных документов. Этот способ позволяет исследовать связи объектов и документы, их отображающие, без указания контекстного критерия на фильтрацию документов объекта. Ниже приведен пример интерфейса, для формирования запроса на исследования связей объекта «Чейни».


Рисунок 5. Интерфейс для входа в информационные объекты.

По этому запросу будет получен результат следующего вида.

Рисунок 6. Вход в систему через сеть взаимосвязей объекта.

Этот способ позволяет исследовать связи объектов во всех фондах системы без предварительного получения подборок документов.

Виды аналитической обработки текста документа

Система «Аналитический курьер» реализует унифицированную технологию создания и ведения распределенных информационных фондов документов.

На рисунке 7 представлена модель документа, используемая для выполнения базовых функций аналитической обработки.


Рисунок 7. Модель представления исходного документа в системе

Остановимся на них подробнее.

Автоматическое аннотирование документов

Суть аннотирования (реферирования) текста заключается в формировании краткого описания основных тем, затрагиваемых в документе. Обращение, вместо первоисточника, к аннотации, упрощает смысловой поиск, уменьшает объём просматриваемой информации, экономит время читателя.

В «Аналитическом курьере» аннотация автоматически формируется из фрагментов документа, и объём аннотации не является фиксированным, а зависит от исходного документа, составляет от 5 до 30% исходного текста.

Аннотация позволяет зрительно оценить содержание текста и принять решение, какие документы важны для стоящей перед аналитиком проблемы. При работе с информационно-аналитической системой эксперт обращается к аннотации во время первого просмотра списка документов, полученного с помощью поиска или с помощью средств визуальной навигации по семантическим картам или кластерам.

Автоматическое рубрицирование документов

Продолжением идеи аннотирования документов является сервис рубрицирования. Рубрицированием (классификацией) называется процедура отнесения документа к одной из априорно сформулированных экспертом категорий.

Система предоставляет возможность автоматического определения наличия определенных тем в документе — тематическое рубрицирование проблем, а также определение тональности публикации по отношению к определенным объектам (лицам, организациям и др.), встречающимся в них, — рубрицирование тональности. Для этого систему нужно предварительно обучить на документах с типичной для рубрик лексикой.

«Аналитический курьер» содержит несколько различных «движков» (построенных на разных математических моделях), позволяющих осуществлять тематическое рубрицирование. При анализе текста учитывается не только состав слов, но и их совместная встречаемость. Если тема (или набор тем) выявлены, документ заносится в соответствующие проблемно-тематические рубрики. Это реализовано через механизм метаданных, «карточку документа» — обязательный атрибут каждого содержащегося в ЕИП элемента, независимо от контента. Такое решение позволяет строить запросы по тематическим рубрикам, например, выбрать все документы по теме «Социальные проблемы».

Во втором случае, при тональном рубрицировании, с высокой точностью производится автоматическое определение эмоциональной окраски сообщения по отношению к объекту, о котором в тексте идёт речь. Для проведения тонального рубрицирования необходимо предварительно обучить систему на документах с типичной для рубрик лексикой. Данная возможность высоко оценивается аналитиками, работающими с новостными лентами: она позволяет анализировать общественное мнение, автоматически строить статистические отчёты о настроении прессы к объекту в каждом регионе, исследовать закономерности между высказываниями в прессе и рейтингом политиков и т.д.

Проведение рубрицирования, в особенности тонального, тесно связано с построением дайджестов на объекты мониторинга, т.е. выбор предложений, в которых упоминается интересующий объект. «Аналитический курьер» выполняет нормализацию дайджестов с использованием углубленного анализа анафорических ссылок в разных предложениях, за счёт этого репрезентативность дайджеста, точность рубрицирования, увеличивается на 50-80%.

Виды оперативной аналитической обработки фондов

Процесс исследования предметной области опирается на результаты аналитической обработки коллекций документов, которая должна выполняться в оперативном режиме (в течение 3-7 секунд).

На уровне оперативного анализа подборок документов «Аналитический курьер» предоставляет сервисы построения кластерной карты, семантической карты взаимосвязей тем, частотного распределения документов.

Рассмотрим эти функции более подробно.

Динамический анализ тематической структуры публикаций (кластерный анализ)

Кластеризация позволяет в режиме реального времени получить абрис тематической структуры подборки документов. Этот метод используется для выявления значимых тематических групп, характерных для подборки. Результат кластеризации: список или карта кластеров. Кластеры пронумерованы и имеют названия, в качестве которых выступают ключевые слова, выявленные для данной группы документов. Щелчок клавишей мыши по названию кластера открывает список документов, входящих в кластер. Поскольку разные тематические группы могут иметь общую лексику, то кластеры могут пересекаться, что указывает на взаимосвязь основных тем. Примеры результатов кластеризации представлены на рисунках ниже.

 Рисунок 8. Пример кластерной карты подборки документов


Рисунок 9. Пример кластерной карты с коррелирующими кластерами

Семантические карты связей объектов

«Аналитический курьер» автоматически выделяет из текста всех документов содержащиеся в них темы, объекты и их связи — семантическую сеть документа. Можно настроить систему на автоматическое выделение определенных типов объектов, например, юридических или физических лиц, географических названий и других.

После обработки запроса система может построить семантическую карту полученной подборки документов (возможно из различных фондов) для исследования «тонких взаимосвязей» между темами и объектами подборки. На карте можно переименовывать, удалять и объединять вершины. Система умеет определять причинно-следственные связи между темами подборки, отображая их направленными стрелками. Реализован сервис объединения нескольких карт в одну, а также поиск на карте ситуаций или семантических шаблонов, сохраненных в библиотеке.

На рисунках представлены примеры семантических карт по различным проблемам.


 Рисунок 10. Пример семантической карты по аспектам деятельности губернаторов

Карта может быть представлена с типизированными связями (показывается дескриптор (ключевое наименование) связи), либо с нетипизированными, обозначающими факт наличия связи.


 Рисунок 11. Пример семантической карты по региональной проблематике

Частотный анализ публикаций

«Аналитический курьер» динамически строит одно- и двумерные частотные распределения по любым атрибутам документов: дата загрузки, объём документов, дата публикации, заголовок, автор, источник, фонд и регион происхождения источника (имеет важное значение для сравнения публикаций центральной и местной прессы), а также по экспертным и автоматически полученным рубрикам, по тональности публикаций, а также по самому тексту.

Частотный анализ полезен при исследовании динамики процессов, например, для обнаружения зависимости между рейтингом и освещением в прессе деятельности объекта в течение длительного периода на основе анализа тональности публикаций.

Web-интерфейс «Аналитического курьера» отображает зависимость количества публикаций от нескольких параметров одновременно, например, от региона, времени, тональности публикаций о выбранном объекте. Частотные распределения могут представляться как в виде матрицы, так и в виде трехмерной гистограммы, оба представления допускают операцию drill-down: колонки и строки данных представляются в виде гипертекстовых указателей. Щелкнув мышью на выбранном объекте, пользователь получает более детальную информацию, доступ к конкретным документам подборки.

Если данных о количестве и тональности публикаций больше, чем о рейтинге изучаемого объекта, то рейтинг может быть спрогнозирован статистическими методами. Для решения вычислительно весомых задач в «Аналитическом курьере» предусмотрена возможность взаимодействия с системами класса Data Mining, позволяющими глубоко анализировать многомерные частотные распределения выборок.


Рисунок 12. Технология анализа частотных распределений рубрик

Технологии выделения фактографической информации и ведения досье на объекты мониторинга реализует система управления досье «XFiles», которая может использовать в качестве источника информации систему «Аналитический курьер».

Заключение

Эффективность работы с текстовыми активами заслуживает самого пристального внимания руководства и ИТ-специалистов государственных структур и коммерческих компаний. 80-85% корпоративной информации получаются в результате сравнения, анализа и синтеза разрозненных и разбросанных по разным источникам фактов («источники» — это новостные ленты, служебные записки, пожелания клиентов, платежные документы и т.д.). Аналитик, который по этим фактам должен составить определенную картину, нуждается в мощных инструментах, облегчающих извлечение знаний из текстов, написанных на естественных языках.

Компании «Ай-Теко» принадлежит патентное свидетельство на систему извлечения знаний из текстов «Аналитический курьер», призванную помочь аналитикам в работе с большими объёмами неструктурированной информации.

Предоставляемые аналитику сервисы выделения тем и объектов текста, удобная визуализация их связей, высокая точность выделения фактов с помощью развитых средств морфологического, синтаксического анализа, разрешения анафорических ссылок, возможность параллельной обработки нескольких фондов, сервисы поиска, тематического и тонального рубрицирования, кластеризации подборки документов, выделения ключевых тем, построения частотных распределений документов с использованием механизма drill-down — являют собой важный ресурс конкурентоспособной компании.

Standard
Управление знаниями

Факты – основа современной информационной системы бизнес-разведки XFiles.

Автор: Сергей Леонидович Киселев, источник: http://it2b.ru
Система корпоративной безопасности компании является важнейшим инструментом управления предпринимательскими рисками. Задачи этой системы заключаются не столько в сборе, обработке, оценке и накоплении данных, сколько в их информационном анализе и синтезе управляющих воздействий. Эти функции возлагаются на подсистему бизнес-разведки (business intelligence) компании. Термин бизнес-разведка определяется как« широкая категория технологий, связанных со сбором, хранением, анализом и обеспечением доступа к информации с целью принятия оптимальных деловых решений».

Методы ведения бизнес-разведки весьма близки к используемым в традиционной разведывательной деятельности. Сначала определяются требования к параметрам возможных объектов — источников угроз для планирования и организации разведки. Затем рассматриваются возможные источники информации для проведения бизнес-разведки (как правило, используются несколько альтернативных источников или доверенные источники информации). Разрабатывается модель системы угроз и система управляющих воздействий при их обнаружении. На этой основе разрабатывается методика проведения бизнес-разведки, а также её технология. В настоящее время бизнес-разведка невозможна без использования специализированных информационных технологий. Компании, занимающиеся бизнес-разведкой, в своей работе используют информацию, получаемую из масс-медиа, внутрифирменных, банковских, правительственных отчетов, а также прогнозных исследований.

Для того чтобы оценить эффект от внедрения систем бизнес-разведки, необходимо ясно представлять возможности подобных решений. Практическое использование этих систем, в частности, позволяет:

  • постоянно отслеживать и анализировать новую информацию, имеющую отношение к бизнесу конкурентов;
  • организовать постоянный поток автоматически выделяемой информации о действиях конкурента (таких как: ценовая политика, слияния и поглощения, рекламные объявления и анонсы, отзывы об их изделиях);
  • раскрывать планы конкурента;
  • проводить изучение потенциального спроса на продукцию и услуги;
  • изучать реакцию рынка на отдельные свойства товаров и услуг, например, с помощью анализа тональности публикаций об этих объектах;
  • исследовать аспекты политической деятельности объектов.

Системы бизнес-разведки находят применение в различных сферах: профессиональная разведка, деятельность правоохранительных органов, медицина, финансы, страхование и др. Приведём несколько типичных примеров использования информационных систем бизнес-разведки.

При изучении клиентов банками, страховыми компаниями, из различных источников (регистрационных учетов, финансовых отчетов, налоговых деклараций, баз данных зарегистрированной собственности и транспортных средств, СМИ, оперативных источников и из аналитических систем) собираются факты в досье с целью минимизации рисков финансовых операций.

В процессе изучения фигуранта, описание его поступков может быть получено из отчётов участковых милиционеров, протоколов, оперативных донесений, из агентурных сообщений и др. Зачастую эти документы хранятся в различных фондах. У объекта может быть большое количество контактов, как прямых, так и предполагаемых по косвенным признакам. Учетная информация об объекте тоже может храниться в различных базах данных. Получение всей этой информации очень трудоемко, методы экспертной обработки сообщений практически неприменимы. Ценность извлеченных фактов весьма невысока, поскольку эксперт не может совместно проанализировать большое число фактов. Для профессиональной деятельности нужно использовать технологии другого класса — активной доставки новых фактов с помощью специализированных программ-агентов — автоматического выделения фактов (А-факты), связей и ведения дел.

В статье обсуждаются концептуальная и базовая информационные модели информационных систем бизнес-разведки, которые иллюстрируются на примерах возможностей системы управления досье XFiles версии 2006 года.

Концепция информационно-аналитических систем бизнес-разведки предполагает реализацию трех принципов:

  1. единое информационное пространство взаимосвязанных фактов или гипотез независимо от типа их контента (содержимого источников информации);
  2. связь фактов или гипотез с релевантными источниками информации (аргументированность фактов и гипотез);
  3. исторически-пространственная информационная модель базы данных фактов и гипотез. Это означает наличие атрибутов времени и места для каждого факта, а также невозможность их безвозвратного удаления из системы.

Для управления пространством фактов в информационных системах бизнес-разведки используется подсистема обработки фактографической информации. На её входе из различных источников выделяется не только поток информации об изучаемых объектах в форме количественных показателей, видеоклипов, документов (информационных сообщений). Автоматически выделяемые из текста данные преобразуются в структурированный вид, основной формой представления служат факты и гипотезы (т.е. аналитически обработанная, классифицированная и очищенная информация). Естественно, факты проходят процедуры очистки, интеграции и другие стандартные процедуры управления единым информационным пространством фактов (ЕИПФ). Системы этого типа находятся на вершине иерархии информационной инфраструктуры компании. С помощью своих программ извлечения знаний они извлекают факты или порождают гипотезы (или сигнальную информацию) из СУБД, хранилищ многомерных данных, Интернет, подсистем аналитической обработки и моделирования, прикладных систем.

Природа множественности фактов об одном событии субъективно обусловлена возможностью его различной интерпретации, а также противоречивостью, неточностью или нечеткостью поступающей из внешних источников информации. Поэтому инфологическими особенностями информационной модели ЕИПФ являются: поддержка множественных фактов об одном событии; наличие у факта атрибутов трекинга (идентификации автора, времени, источника факта, …) для его возможного повторного извлечения из источника; поддержка множественных версий интерпретации фактов.

Перейдем к рассмотрению реализации концепции систем бизнес-разведки в системе управления фактографической информацией XFiles, созданной с использованием программных компонентов ряда компаний, среди которых: Oracle, Microsoft, Hummingbird, Inxight, ABBYY Software House и Altova.

Информационная модель системы бизнес-раведки

Кратко остановимся на основных понятиях информационной модели системы.

Факт — событие (как правило, зафиксированное и произошедшее), сопровождаемое временной и географической метками. Факт сопровождается также аргументирующей информацией, ссылками на источники и др. Факт может быть извлечен из текста документов, либо определен экспертом. Факт может определять как свойства объекта, так и его связь с другими объектами.

Гипотеза — аналитическое высказывание (полученное не из внешнего источника данных, например, из статьи СМИ, а в результате аналитической обработки данных, например, прогнозирования) относительно состояния атрибута досье, сопровождаемое также аргументирующей информацией, ссылками на источники и др. Гипотеза может порождаться различными подсистемами извлечения знаний или экспертами.

Объект — это сущность, факты относительно которой накапливаются в системе. Объект имеет семантический фильтр для самоидентификации в тексте.

Тип досье — описание проблемной области, представленное в виде иерархии атрибутов. Для каждого объекта должен быть определен, по крайней мере, один тип досье.

Досье — реализация типа досье для конкретного объекта.

Атрибут — это структурный элемент типа досье, предназначенный для накопления фактов одного типа. Например, биографических данных, сведений о поездках и др. Атрибут имеет семантический фильтр для выделения« своих» фактов из потока документов. Один атрибут может входить в несколько типов досье.

Связь — это направленное или ассоциативное отношение определенного типа между объектами системы. Связи классифицируются как:

  • Прямые. В этом случае есть факт о связи двух объектов.
  • Нечеткие (не представленные фактом):
    • по общему месту и времени у пары различных фактов различных объектов;
    • косвенные (транзитивные) — через общий третий объект-связь у пары фактов различных объектов.
  • Рефлективные — между парой атрибутов, связанных по фактам. Если в одном из них появляется факт с определенным объектом-связью, то в симметричном атрибуте для объекта-связи также появляется этот факт. Например, атрибут« продажа акций» имеет симметричный атрибут« покупка акций». Симметричные атрибуты « срабатывают» по прямым связям. Свойство симметричности задаётся при создании атрибутов независимо от того, в какие досье они входят. При включении атрибута в другое досье свойство симметричности сохраняется.

Поскольку предметная область зачастую довольно обширна, целесообразно использование нескольких досье для одного объекта. Например, одно досье может отражать бизнес-деятельность объекта, второе — его личную собственность, третье — медицинские данные, и другие. Такой подход дает возможность различным группам аналитиков« чувствовать» только профильную для них группу атрибутов. Однако, лицо, принимающее решение, может анализировать все досье объекта и все его связи.

В представленном на рисунке 1 примере Объект X объединяет два типа досье: Тип досье А и Тип досье В, и содержит все семь атрибутов. Объект Y имеет один тип досье Тип досье В и содержит 4 атрибута. Атрибут 4 одновременно входит в состав обоих типов досье.


Рисунок 1. Пример фрагмента информационной модели системы

Актуализация базы данных досье производится путем ввода в неё новых фактов, каждый из которых определяется высказыванием вида:

Факт = {<идентификатор факта>, <значение (контент) факта>, <временной диапазон действия факта>, <место, <источник факта>, <оператор>, <статус факта>}.

Теперь кратко рассмотрим технологию автоматического выделения и накопления фактов из различных источников информации. Это свойство концептуально отличает современные системы обработки фактографической информации.

Технологии обработки фактов

В связи с большой плотностью потока текстовой информации, в современных фактографических системах интенсивно развивается технология автоматического выделения фактов. Она позволяет в режиме квазиреального времени «поднять» ретроспективные фонды документов за десяток лет и получить актуальное «сырое» досье на новые объекты, что практически нереально при использовании экспертной технологии выделения фактов. В системе XFiles реализована функция сбора А-фактов из практически всех доступных типов открытых источников (Интернет, информационные агентства, корпоративные базы данных, информационные ресурсы офисных приложений и др.).

Кроме автоматического выделения фактов, XFiles предоставляет интерфейс для их ведения авторизованными пользователями (Э-факты), а также для последующей оценки достоверности фактов, их обобщения и формирования аналитических материалов. На рисунке 2 представлен пример фрагмента досье, заполненного А-фактом о названии головной структуры холдинга и уточняющим его Э-фактом.



Рисунок 2. Фрагмент досье объекта

Для установления связи между объектами системы необходима пара профильных атрибутов в связываемых объектах, например Атрибут 4 (см. рисунок 1). При наличии факта об определенном типе связи двух объектов в каждый профильный атрибут обоих объектов проставляется ссылка на viz-a-viz объект. Этот процесс может выполняться автоматически и экспертно. Если объекта-второго участника связи нет в базе данных, то, в зависимости от параметров системы, он может быть либо создан автоматически, либо гипертекстовая ссылка не создается.

Как отмечалось выше, в системе могут быть симметричные и асимметричные связи. Симметричная связь между двумя объектами X и Y создается автоматически путем установления в одном и том же атрибуте досье у каждого из объектов гиперссылки на второй объект. Например, для атрибута Дружественные отношения в досье Персоны для объекта Орлов может быть факт дружбы с объектом Петров. В этом случае, у объекта Петров появится симметричный факт и ссылка на объект Орлов в этом же атрибуте.
В случае асимметричной связи автоматическая репликация факта связи производится между различными атрибутами объектов. Например, при появлении факта кредитования одним объектом другого, для атрибута Сумма выданного кредита одного объекта активируемым будет атрибут Сумма взятого кредита другого. На рисунке 3 связи отображаются в виде дерева, а детальные данные выделенной строки-связи — в виде конкретных фактов.


Рисунок 3. Пример отображения связей в виде дерева

Технология формирования А-фактов

Автоматическое выделение фактографической информации — это процесс выделения фактов для тех пар (объект, атрибут досье), которые находятся в состоянии автоматического мониторинга. В зависимости от типа атрибута и источника информации процесс может быть выполнен различными методами: с применением инструментов контекстного поиска, синтаксического анализа, методов распознавания образов, методами статистического анализа и др.

Для реализации процесса автоматического выделения фактов в системе используются следующие программные компоненты:

  • Фактографический модуль — предназначен для автоматического выделения фактов из документов. Компонент может обрабатывать структурированный (числовые и символьные данные, пространственные данные из геоинформационных систем) и неструктурированный (видео, звук, текст) типы контента. Например, для текстового атрибута Покупка акций значением факта является фраза контрольный пакет акций, объектом связи — ОАО «ХХХ», свойством факта является обстоятельство времени: в январе 2006 года. Эти данные сохраняются в БД и используются для аналитической обработки, например, для автоматического выявления прямых, косвенных и транзитивных связей между объектами, а также для построения семантических сетей объектов;
  • Источник данных — это программный объект, доставляющий контент для их автоматической обработки фактографическим модулем;
  • Задача — программный компонент, управляющий регламентом и настройками процесса автоматического выделения фактов из текстов;
  • Агент запуска задач — это сервис, который управляет регламентом выполнения задач, производит их запуск и остановку. Агент определяет задачу, готовую к выполнению, фактографический модуль и источники документов, которые необходимо для этого использовать.

Для минимизации времени обработки потока документов используются контекстные фильтры, предварительно отделяющие потенциально «полезные» для выделения фактов документы. Они могут быть связаны с объектом мониторинга или атрибутами досье. Каждый атрибут досье может иметь также фактографические правила — правила, определяющие синтактико-морфологический шаблон, по которому выделяется факт и его атрибуты в тексте. Шаблоны строятся специальным модулем на основе обучающих примеров-предложений. На его вход подается предложение, содержащее факт для определенного атрибута, на выходе формируется шаблон факта для всех похожих предложений. На рисунке 4 представлен фрагмент накопленных А-фактов для атрибута Сведения о производственной деятельности.



Рисунок 4. Пример накопленных А-фактов для одного атрибута досье

Технология выделения А-фактов из текста основана на использовании специальных семантико-лингвистических методов, которые дают возможность получить точность и полноту А-фактов, сравнимую с экспертными. Вкратце суть метода обработки каждого документа заключается в следующем.

Сначала из документа строится дайджест объекта, который содержит все предложения документа, содержащие ссылки на объект. Дайджест должен учитывать кореферентные ссылки на объект в различных предложениях. Затем строится информационный портрет документа на основе синтаксического анализа и синтеза. Далее портрет преобразуется в семантическую сеть, обеспечивающую инвариантность описания смысла относительно лингвистического представления текста. Например, семантическая сеть позволяет абстрагироваться от малоинформативных элементов формально-синтаксической структуры текста (порядка слов, залога и т.п.) и представляет его пропозициональную структуру в терминах описываемых ситуаций (предикатов) и их участников (аргументов) в определенных семантических ролях. Будучи дополнен правилами для генерации канонической формы синтагм, синтаксический анализ-синтез позволяет описать каждый смысловой атрибут текста в виде строки, инвариантной к его грамматическому выражению в различных фразах.

В последней технологической фазе извлечения А-фактов движок фактографических правил на основе семантической сети дайджеста производит поиск шаблонов фактов и сохраняет структурированное описание выделенных фактов в базе данных системы. Хотелось бы ещё раз отметить, что выделенный факт — это не только контекст, а выделенные из него свойства.

В системе алгоритм выделения фактов из текстов наиболее глубоко проработан для русского языка, для большинства других языков могут использоваться источники документов (например, Oracle Intertext, Microsoft Content Management System, Hummingbird SearchServer, …), поддерживающие многоязычный поиск.

Технологии формирования досье

В условиях коллективной работы зачастую вводятся несколько фактов в один атрибут для одного объекта, после чего возникает необходимость экспертного оценивания достоверности введенных, возможно противоречивых, фактов. Для этого в БД досье хранится дополнительная информация, подтверждающая факты в форме:

  • цитат из документов;
  • прикрепленных к факту документов, почтовых сообщений, заключений экспертов и др.;
  • видеофрагментов и графических файлов.

Каждый факт в системе имеет статус достоверный или недостоверный. Эксперт, на основе дополнительной подтверждающей информации в базе данных, может принять решение об изменении статуса факта, либо его удалить (при этом факт остается некоторое время в корзине БД, из которой он может быть восстановлен).

В системе реализован трекинг фактов, т.е. след от источника, даты или автора факта. Для любого факта пользователи имеют возможность вводить и просматривать комментарии и фрагменты контента, а также сами информационные объекты.

Технология пакетного формирования досье весьма актуальна в компаниях, которые имеют распределенную систему офисов, каждый из которых может порождать информацию, например, о действиях конкурентов в их регионе. При этом рыночная политика формируется в центральном офисе на основании, в том числе, досье на конкурентов. Для разметки удаленно сформированных сообщений, содержащих новые факты об объектах мониторинга, используется XML-формат. Он удобен по нескольким причинам. Во-первых, состав атрибутов для каждого типа досье постоянно изменяется. Во-вторых, необходимо обеспечить возможность ввода новых типов досье. Наличие встроенных в шаблон средств контроля целостности документа позволяет передавать только правильные факты.

Аналитическая обработка фактов

В системах бизнес-разведки обычно реализованы следующие базовые виды аналитической обработки фактов:

  • построение исторической цепочки фактов для каждого атрибута досье объекта;
  • автоматическое порождение досье на появившиеся в связях новые объекты. В случае появления в факте нового объекта — участника связи по определенному атрибуту досье (например, конкуренты), по нему автоматически создается досье, и новый объект ставится на мониторинг;
  • автоматическое выявление прямых и нечетких связей объекта с другими объектами системы (связи через третий объект или по общим диапазону дат и обстоятельству места) (см. рисунок 6). При выявлении нечетких связей используются методы статистической фильтрации для устранения незначимых связей;
  • построение частотных распределений фактов в виде графика и таблицы. Визуальный интерфейс поддерживает механизм drill-down, просмотр фактов, формирующих ячейку частотного распределения (см. рисунок 5);
  • построение карты связей объектов для различных типов связей, визуализация и фильтрация связей по атрибутам и другим параметрам (см. рисунок 7, 8);
  • поиск оптимальных (в частности, кратчайших) связей между заданными объектами;
  • определение областей влияния объекта;
  • формирование групп объектов, связанных между собой общностью фактов (например, место, время, содержание факта);
  • поиск релевантных объектов и связей по контенту фактов; поиск объектов в базе данных по шаблону названия объекта и атрибутам содержащихся в них фактов;
  • поиск фактов по их атрибутам: значение, место, время, объекты связи;
  • сортировка фактов в досье по различным критериям (например, по месту, по объекту, по времени — свойствам факта).


Рисунок 5. Частотное распределение фактов


Рисунок 6. Типы связей объектов


Рисунок 7. Фрагмент типизированной сети связей объекта


 Рисунок 8. Карта прямых связей объекта

Все виды аналитической обработки могут дополняться ограничениями на результаты: списки объектов и фактов, частотные распределения, карты связей и др., действующие на время всего сеанса пользователя (их можно также отключать). В зависимости от профиля предметной области аналитика, он может ограничить объем исследуемой информации при помощи фильтра. Фильтр накладывается на статус факта, на ссылочные объекты, на типы досье, на атрибуты, на место действия факта, на диапазоны времени действия и времени модификации факта, на рабочие группы, на пользователей, на приложения и на задачи (программы-агенты). Эта функция может использоваться и как инструмент разграничения доступа, и, самим пользователем, как возможность исследовать только релевантную информацию.



Рисунок 9. Визуальный интерфейс создания фильтра для пользователя

Система управления досье XFiles ориентирована на выявление смысловых объектовых групп (СОГ) или кластеров, т.е. групп, содержащих внутри себя наиболее тесно прямо или нечетко связанные объекты или факты. Связи могут относиться к различным атрибутам досье.

Примерами смысловой объектовой группы могут служить «политическая группировка» (люди, которых объединяют политические связи); «партнёры по бизнесу» (в один тип объединены атрибуты «покупка акций», «деятельность в бизнес-ассоциации», «должность в СЭД», «деятельность в СЭД»); «семья» (люди, объединённые родственными, интимными, личными связями), группа компаний, производящих медицинский препарат, и т.д.

Система управления досье «XFiles» позволяет решать следующие задачи:

  • поиск СОГ;
  • выделение типовых ситуаций (шаблонов) взаимосвязей.

Поиск СОГ производится автоматически. Система предоставляет пользователю интерфейс для выбора атрибутов, факты которых будут участвовать в формировании связей, а также интерфейс для указания критерия группировки объектов в СОГ. После этого автоматически строятся и отображаются списки объектов, входящих в СОГ, связи между ними (пользователю предоставляется механизм указания весов связей).

Выявление типовых ситуаций происходит следующим образом. Система предоставляет пользователю интерфейс описания модели ситуации в виде графа на карте типизированных связей фактов или объектов. Модель ситуации характеризуется:

  • ограничениями на типы объектов, являющихся вершинами графа;
  • ограничениями на значения фактов, которыми характеризуется объект (например «Должность в СЭД» — финансовый директор);
  • ограничениями на типы атрибутов связей;
  • ограничениями на статистические характеристики фактов, лежащих в основе связи (например, частоту либо суммарное количество встреч).

Например, аналитик задаёт описание типовой ситуации: недавно (не позднее месяца от вводимой пользователем даты) имело место поглощение бизнеса одной компании другой, например, с иностранным капиталом. Выбор необходимых атрибутов происходит аналогично механизму фильтрации. Пользователю предоставляется интерфейс, где он выбирает нужные элементы модели. Если в прошлом происходила аналогичная ситуация, и было выявлено, что «тайным менеджером» ситуации являлась связанная с поглотителем рейдерская компания, то система позволит такой же вывод сделать и на этот раз.

Профили пользователей системы

Различные пользователи могут иметь доступ к различным объектам, досье и выполнять в системе различные функции. Пользователи объединяются в рабочие группы, которые имеют доступ к заданному множеству объектов и заданному множеству типов досье. Один пользователь может входить в различные рабочие группы с разными полномочиями.

В каждой рабочей группе для пользователей допустимы различные уровни полномочий:

  • Администраторы — имеют возможность редактировать справочники типов досье, объектов и атрибутов, заполнять и просматривать досье;
  • Редакторы — имеют возможность редактировать и просматривать досье;
  • Пользователи — имеют возможность только просматривать досье и выполнять разрешённые виды аналитической обработки фактов.

Ведение профилей производится с использованием сервисов безопасности операционной системы сервера XFiles.

Заключение

В настоящее время без использования специальных систем аналитической разведки, извлечение конкретных фактов и их аналитическая обработка требуют от компании неприемлемо большого количества ресурсов. Заполняющая эту нишу система XFiles относится к системам извлечения знаний и используется для решения задач наблюдения, подготовки и принятия решений. Растущая популярность этого класса информационных систем объясняется возможностью интеграции знаний, накапливаемых экспертами и программами-автоматами. Этим достигается важное сочетание возможностей автоматического сбора большого числа относительно «сырых» фактов из различных источников, их экспертной оценки и информационной поддержки принятия адекватных решений. Компании, использующие системы бизнес- и аналитической разведки, получают качественно новые преимущества в конкурентном бизнесе, обеспечивают его безопасность и развитие.

Standard
Управление знаниями

Бизнес-разведка: факты, объекты, связи.

Автор: Сергей Леонидович Киселев, к.т.н. | Источник: предоставлено автором для it2b, it2b.ru

Система корпоративной безопасности компании является важнейшим инструментом управления предпринимательскими рисками. Задачи этой системы заключаются не столько в сборе, обработке, оценке и накоплении данных, сколько в их информационном анализе и синтезе управляющих воздействий. Её основой является подсистема бизнес-разведки (business intelligence). Термин бизнес-разведка определяется как «широкая категория технологий, связанных со сбором, хранением, анализом и обеспечением доступа к информации с целью принятия оптимальных деловых решений».

Методы ведения бизнес-разведки весьма близки к используемым в традиционной разведывательной деятельности. Сначала определяются требования к параметрам возможных объектов — источников угроз для планирования и организации поисковой работы. Затем рассматриваются возможные источники информации для проведения бизнес-разведки (как правило, используются несколько альтернативных источников или доверенные источники информации). Разрабатывается модель системы угроз и система управляющих воздействий при их обнаружении. На этой основе разрабатывается методика проведения бизнес-разведки, а также её технология. В настоящее время бизнес-разведка невозможна без использования специализированных информационных технологий. Фирмы, занимающиеся бизнес-разведкой, в своей работе используют информацию, получаемую из масс-медиа, внутрифирменных, банковских, правительственных отчетов, а также прогнозных исследований.

Для того чтобы оценить эффект от внедрения систем бизнес-разведки, необходимо ясно представлять возможности подобных решений. Практическое использование этих систем, в частности, позволяет:

  • постоянно отслеживать и анализировать новую информацию, имеющую отношение к бизнесу конкурентов;
  • организовать постоянный поток автоматически выделяемой информации о действиях конкурента (таких как: ценовая политика, слияния и поглощения, рекламные объявления и анонсы, отзывы об их изделиях);
  • раскрывать планы конкурента;
  • проводить изучение потенциального спроса на продукцию и услуги;
  • изучать реакцию рынка на отдельные свойства товаров и услуг, например, с помощью анализа тональности публикаций об этих объектах.
Естественно, эти системы используются также в других областях деятельности: в профессиональной разведке, в деятельности правоохранительных органов, медицине, банковской сфере, страховании и др.

Приведем несколько типичных примеров использования информационных систем бизнес-разведки.

В процессе изучения фигуранта при формировании дела, описание его поступков может быть получено из различных источников: из отчетов участковых, из протоколов, из оперативных донесений, из агентурных сообщений и др. Зачастую эти документы хранятся в различных фондах. У объекта может быть большое количество контактов, как прямых, так и предполагаемых по косвенным признакам. Учетная информация об объекте может храниться в различных базах данных. Получение всей этой информации очень трудоемко. Для этого используется специализированная система автоматического выделения фактов, связей и ведения дел.

При проведении выборных кампаний зачастую кандидаты из открытых источников собирают факты о конкурентах и их окружении. Обычно для этого используются поисковые системы. Ареал выделяемых персон включает обычно более 50 человек. Объем выделяемой информации составляет сотни страниц. Ценность извлеченных фактов весьма невысока, поскольку экспертная технология не позволяет совместно проанализировать большое число фактов. В этих случаях технология выделения а-фактов используется для накопления первоначальных досье объектов, используя ретро фонды открытой информации и Интернет.

Для мониторинга мнения потребителей о качестве производимой объектами или конкурентами продукции в настоящее время используются методы периодических опросов, либо экспертная обработка сообщений из Интернет. Поскольку в Интернет индексируется незначительная часть объема страниц, экспертный поиск нужных фактов представляет собой очень трудоемкую задачу. Существенно дешевле и точнее для этих задач использовать технологии активной доставки новых фактов с помощью специализированных программ-агентов.

При изучении клиентов банками, страховыми компаниями, из различных источников: регистрационных учетов, финансовых отчетов, налоговых деклараций, баз данных зарегистрированной собственности и транспортных средств, СМИ, оперативных источников и из аналитических систем собираются факты в досье с целью минимизации рисков.

В статье обсуждаются концептуальная и базовая информационные модели информационных систем бизнес-разведки, которые иллюстрируются на примерах возможностей системы XFiles 2004, разработанной интеграционно-инжиниринговой компанией «Белый ветер» и используемой рядом организаций.

Концепция информационных систем бизнес-разведки предполагает реализацию трех принципов:
1. единое информационное пространство взаимосвязанных фактов или гипотез независимо от типа их контента (содержимого источников информации);
2. связь фактов или гипотез с релевантными источниками информации (аргументированность фактов и гипотез);
3. исторически-пространственная информационная модель базы данных фактов и гипотез. Это означает наличие атрибутов времени и места для каждого факта или гипотезы, а также невозможность их безвозвратного удаления.

Реализация этой концепции связана с решением ряда проблем преобразования различных форм представления знаний. Проиллюстрирую одну из них. В чем основная причина относительно малого объема рынка систем извлечения знаний и систем поддержки принятия решений? В том, что на сегодня, практически ни одна система аналитической обработки различного типа контента не производит формально-семантическую интерпретацию результатов своей работы (хотя бы за счёт семантического шкалирования результата), что не позволяет без дополнительных программных компонентов преодолеть понятийный разрыв между результатами работы систем типа Knowledge Discovery и Data Mining и входом систем поддержки принятия решений. Этот разрыв «сшивается» за счет интерпретации результатов работы программ экспертом-аналитиком для лица, принимающего решение.

Такая технология приводит к тому, что добытые знания «упрятываются» в документы, теряется их аргументация, они не могут быть повторно получены. В большинстве корпораций каждый новый аналитик проходит весь путь накопления профильных знаний заново, прежде чем он сможет стать экспертом. Собранные факты «находятся в умах» экспертов, хранятся в различных документах или базах данных. Это не позволяет совместно анализировать разрозненные факты и объединять их в единое информационное пространство фактографической информации, что ведет к потере ценности разведанной информации и вложенных в её разведку средств.

Чтобы избежать этого, для управления пространством фактов в информационных системах бизнес-разведки используется подсистема обработки фактографической информации. На её входе из различных источников выделяется не только поток информации об изучаемых объектах в форме количественных показателей, видеоклипов, документов (информационных сообщений), но и выделенный из них поток знаний (т.е. аналитически обработанная, классифицированная и очищенная информация), основной формой представления которых являются факты и гипотезы. Естественно, факты проходят процедуры очистки, интеграции и другие стандартные процедуры управления единым информационным пространством фактов (ЕИПФ). Эта система находится на вершине иерархии информационной инфраструктуры компании, поскольку для генерации фактов использует сервисы различных систем анализа и доставки контента. С помощью своих программ извлечения знаний они извлекают факты или порождают гипотезы (или сигнальную информацию) из СУБД, хранилищ многомерных данных, Интернет, подсистем аналитической обработки и моделирования, прикладных систем.

Природа множественности значений факта субъективно обусловлена возможностью различной интерпретации одного явления, а также противоречивостью, неточностью или нечеткостью поступающей из внешних источников информации. Поэтому инфологическими особенностями информационной модели ЕИПФ являются: поддержка множественных фактов об одном событии; наличие у факта атрибутов для его трекинга (идентификации автора, времени, источника факта) для его возможного повторного извлечения; поддержка множественных версий интерпретации фактов.

Перейдем к рассмотрению реализации концепции систем бизнес-разведки в системе управления фактографической информацией XFiles 2004, созданной с использованием программных компонентов нескольких фирм, среди которых: Hummingbird, Oracle, Гарант-Парк-Интернет, Inxight, ABBYY Software House и Altova.

Информационная модель системы
Кратко остановимся на основных понятиях информационной модели системы.

Факт — событие (как правило, зафиксированное и произошедшее), сопровождаемое временной и географической метками. Факт сопровождается также аргументирующей информацией, ссылками на источники и др. Факт может быть извлечен из текста документов, либо определен экспертом. Факт может определять как свойства объекта, так и его связь с другими объектами.

Гипотеза — аналитическое высказывание (полученное не из внешнего источника данных, например, из статьи СМИ, а в результате аналитической обработки данных, например, прогнозирования) относительно состояния атрибута досье, сопровождаемое также аргументирующей информацией, ссылками на источники и др. Гипотеза может порождаться различными подсистемами извлечения знаний или экспертами;

Объект — это сущность, факты относительно которой накапливаются в системе. Объект имеет семантический фильтр для самоидентификации в тексте.

Тип досье — описание проблемной области, представленное в виде иерархии атрибутов. Для каждого объекта должен быть определен, по крайней мере, один тип досье.

Досье — реализация типа досье для конкретного объекта.

Атрибут — это структурный элемент типа досье, предназначенный для накопления фактов одного типа. Например, биографических данных, сведений о поездках и др. Атрибут имеет семантический фильтр для выделения «своих» фактов из потока документов. Один атрибут может входить в несколько типов досье.

Связь — это направленное или ассоциативное отношение определенного типа между объектами системы. Связь представляется специальным типом атрибута в каждом досье связываемых объектов.

Поскольку предметная область зачастую довольно обширна, целесообразно использование нескольких досье для одного объекта. Например, одно досье может отражать бизнес-деятельность объекта, второе — его личную собственность, третье — медицинские данные, и другие. Такой подход дает возможность различным группам аналитиков «чувствовать» только профильную для них группу атрибутов. Однако, лицо, принимающее решение, может анализировать все досье объекта и все его связи.

В представленном на рисунке 1 примере Объект X объединяет два типа досье: Тип досье А и Тип досье В, и содержит все семь атрибутов. Объект Y имеет один тип досье Тип досье В и содержит 4 атрибута. Атрибут 4 одновременно входит в состав обоих типов досье.

Рисунок 1 — Пример фрагмента информационной модели системы

Концептуальной моделью единого информационного пространства фактов системы XFiles 2004 является расширенная ER модель (модель «сущность-связи» (Entity-Relationship model)) для поддержания исторической и пространственной модели предметной области (объектов, их атрибутов и связей). Она позволяет получить состояние базы данных фактов на любой момент времени. Актуализация базы данных досье производится путем ввода в неё новых фактов, каждый из которых определяется высказыванием вида:

Факт ::= {Идентификатор факта, значение факта, временной диапазон действия факта, место [, источник факта][, оператор][, статус факта]}
Идентификатор факта ::= {Идентификатор объекта. Идентификатор элемента досье}
Идентификатор элемента досье ::= {[Идентификатор атрибута] [, Идентификатор связи]}

Теперь кратко рассмотрим технологию автоматического выделения и накопления фактов из различных источников информации. Это свойство концептуально отличает современные системы обработки фактографической информации.

Технологии обработки фактов
Одним из наиболее важных, но и наименее достоверных источников информации для выделения фактов является масс-медиа. В связи с большой плотностью потока текстовой информации, в современных фактографических системах интенсивно развивается технология автоматического выделения фактов (а-факты), относящихся к объектам мониторинга. Она позволяет в режиме квазиреального времени «поднять» ретроспективные фонды документов за десяток лет и получить актуальное «сырое» досье на новые объекты, что практически нереально при использовании экспертной технологии выделения фактов. В системе XFiles 2004 реализована функция сбора а-фактов из практически всех доступных типов открытых источников (Интернет, информационные агентства, корпоративные базы данных, информационные ресурсы офисных приложений и др.).

Для последующей оценки достоверности фактов, их обобщения и для формирования аналитических материалов используется экспертная обработка. Экспертные факты (э-факты) вводятся авторизованным пользователем в интерактивном или пакетном режимах. На рисунке 2 представлен пример фрагмента сформированного досье.

Рисунок 2 — Фрагмент досье объекта

Для установления связи между объектами системы необходима пара профильных атрибутов в связываемых объектах, например Атрибут 4 (см. рисунок 1). При наличии факта об определенном типе связи двух объектов в каждый профильный атрибут обоих объектов проставляется ссылка на viz a viz объект. Этот процесс может выполняться автоматически и экспертно. Если объекта — второго участника связи нет в базе данных, то, в зависимости от параметров системы, он может быть либо создан автоматически, либо гипертекстовая ссылка не создается.

В системе рассматриваются два типа связей: симметричные и асимметричные. Симметричная связь между двумя объектами X и Y создается автоматически путем установления в одном и том же атрибуте досье у каждого из объектов гиперссылки на второй объект. При автоматическом выделении этого факта из текста первичным объектом связи считается объект — подлежащее, вторичным — дополнение. Например, для атрибута Дружественные отношения в досье Персоны для объекта Орлов может быть факт дружбы с объектом Петров. В этом случае, у объекта Петров появится симметричный факт и ссылка на объект Орлов в этом же атрибуте.

В случае асимметричной связи автоматическая репликация факта связи производится между различными атрибутами объектов. Например, при появлении факта кредитования одним объектом другого, для атрибута Сумма выданного кредита одного объекта активируемым будет атрибут Сумма взятого кредита другого. Примеры интерфейса отображения связей в системе представлены на рисунках 3 и 8. На рисунке 4 связи отображаются в виде дерева, а детальные данные выделенной строки-связи — в виде конкретных фактов.

Рисунок 3 — Пример визуального интерфейса отображения связей в системе

Технология формирования а-фактов

На рисунке 4 представлен пример структуры источников информации, используемых для ведения досье.

Рисунок 4 — Пример структуры источников фактов системы бизнес-разведки

Автоматическое выделение фактографической информации — это процесс выделения фактов для тех пар (объект, атрибут досье), которые находятся в состоянии автоматического мониторинга (см. рисунок 5). В зависимости от типа атрибута и источника информации, процесс может быть выполнен различными методами: с применением инструментов контекстного поиска, синтаксического анализа, методов распознавания образов, методами статистического анализа и др.

Рисунок 5 — Пример преобразования аномалий процессов, полученных в системе экономического мониторинга, в а-факты

Для реализации этого процесса в системе XFiles 2004 используются следующие программные компоненты:

  • Фактографический модуль — предназначен для автоматического выделения фактов из информационных объектов, доставляемых источником данных. Компонент может обрабатывать структурированный (числовые и символьные данные, пространственные данные из геоинформационных систем) и неструктурированный (видео, звук, текст) типы контента. Например, для текстового атрибута Покупка акций фактом является фраза контрольный пакет акций, объектом связи — ОАО «ХХХ», свойством факта является обстоятельство времени: в мае 2004 года. С помощью семантико-лингвистических методов выделяется количественная информация, связанные с фактом объекты, обстоятельства места и времени. Выделенная информация очищается, нормализуется (например, приводится к единому формату даты в системе) и классифицируется. Эти данные сохраняются в БД и используются для аналитической обработки, например, для автоматического выявления прямых, косвенных и транзитивных связей между объектами, а также для построения семантических сетей объектов.
  • Источник данных — это COM объект, доставляющий контент для их автоматической обработки фактографическим модулем. Все источники документов системы поддерживают набор программных интерфейсов, с помощью которых фактографический модуль выполняет запросы, получает контент и его атрибуты. В системе реализовано несколько фактографических модулей и источников документов.
  • Задача — программный компонент, управляющий регламентом и настройками процесса автоматического выделения фактов из текстов.
  • Агент запуска задач — это сервис, который управляет регламентом выполнения задач, производит их запуск и остановку. Агент определяет задачу, готовую к выполнению. По её параметрам он определяет, какой фактографический модуль необходимо запустить и какие источники документов для этого использовать.
Для минимизации времени обработки потока документов используются контекстные фильтры, предварительно отделяющие потенциально «полезные» для выделения фактов документы. Они могут быть связаны с объектом мониторинга или атрибутами досье. Каждый атрибут досье может иметь также фактографическое правило — правило, определяющее синтактико-морфологический шаблон, по которому выделяется факт и его атрибуты в тексте. Шаблоны строятся специальным модулем на основе обучающих примеров-предложений. На его вход подается предложение, содержащее факт для определенного атрибута, на выходе формируется шаблон факта для всех похожих предложений. На рисунке 6 представлен фрагмент накопленных а-фактов для атрибута Сведения о производственной деятельности.

Рисунок 6 — Пример накопленных а-фактов для одного атрибута досье

Технология выделения а-фактов из текста основана на использовании специальных семантико-лингвистических методов, которые дают возможность получить точность и полноту а-фактов, сравнимую с экспертными. Вкратце суть метода обработки каждого документа заключается в следующем.

Сначала строится дайджест объекта, который содержит все предложения документа, содержащие ссылки на объект. Дайджест учитывает анафорические ссылки между предложениями (кореферентные связи). Затем строится информационный портрет документа на основе смысла элементов текста, извлекаемых средствами синтаксического анализа и синтеза. Далее он преобразуется в семантическую сеть, обеспечивающую инвариантность представления смыслов относительно ряда особенностей поверхностно-синтаксической организации текста. Например, семантическая сеть позволяет абстрагироваться от малоинформативных элементов формально-синтаксической структуры текста (порядка слов, залога и т.п.) и представляет его пропозициональную структуру в терминах описываемых ситуаций (предикатов) и их участников (аргументов) в определенных семантических ролях. Для решения задачи выделения а-фактов полное представление смысла текста в форме семантической сети является избыточным и непродуктивным, оно имеет большой объем (превышающий объем документа), а его утилизация требует высокопроизводительного оборудования и развитых нетривиальных средств для поиска и сравнения структур на графах.

Будучи дополнен правилами для генерации канонической формы синтагм, синтаксический анализ-синтез позволяет описать каждый смысловой атрибут текста в виде строки, инвариантной к его грамматическому выражению в различных фразах. Например, фразам «Транспорт был арендован террористом у автобазы», «Террорист арендует у автобазы транспорт» и «Аренда транспорта террористом у автобазы» будут соответствовать одинаковые элементы смысла: «террорист арендует», «аренда транспорта», «аренда у автобазы».

Выделяемые связи между элементами смысла можно разделить на следующие основные классы:

  • связи между ситуациями и их участниками — предикатно-аргументные связи, например: (сделать, покупка), (продажа, акции).
  • связи внутри именных групп (генитивные цепочки), обычно называющих участников ситуации, — атрибутивные связи, например, акт (террористический, боевиков), предприятие (прибыльное, город).
  • связи между ситуациями — предикатно-предикатные, например, покупать (учиться), бороться (искореняя).
  • связи ситуаций с обстоятельствами или дополнительными атрибутами.
В последней технологической фазе извлечения а-фактов движок фактографических правил на основе семантической сети дайджеста производит поиск шаблонов фактов и сохраняет структурированное описание выделенных фактов в базе данных системы. Хотелось бы ещё раз отметить, что выделенный факт — это не контекст, а выделенные из него свойства.

Алгоритм выделения фактов из текстов наиболее глубоко проработан для русского языка, для большинства других языков могут использоваться источники документов (например, Hummingbird SS 2004), поддерживающие многоязычный поиск.

Технологии формирования досье

В условиях коллективной работы зачастую вводятся несколько фактов в один атрибут для одного объекта, после чего возникает необходимость экспертного оценивания достоверности введенных, возможно противоречивых, фактов. Для этого в БД досье хранится дополнительная информация, подтверждающая факты в форме:

  • цитат из документов;
  • прикрепленных к факту документов, почтовых сообщений, заключений экспертов и др.;
  • видеофрагментов и графических файлов.

Каждый факт в системе имеет статус достоверный или недостоверный. Эксперт, на основе дополнительной подтверждающей информации в базе данных, может принять решение об изменении статуса факта, либо его удалить (при этом факт остается некоторое время в корзине БД, из которой он может быть восстановлен).

В системе реализован трекинг фактов. Для любого факта пользователи имеют возможность вводить и просматривать комментарии и фрагменты контента, а также сами информационные объекты.

Технология пакетного формирования досье весьма актуальна в компаниях, которые имеют систему распределенных офисов, каждый из которых может порождать информацию, например, о действиях конкурентов в их регионе. При этом рыночная политика формируется в центральном офисе на основании, в том числе, досье на конкурентов. Для разметки удаленно сформированных сообщений, содержащих новые факты об объектах мониторинга, используется XML формат. Он удобен по нескольким причинам. Во-первых, состав атрибутов для каждого типа досье постоянно изменяется. Во-вторых, необходимо обеспечить возможность ввода новых типов досье. Наличие встроенных в шаблон средств контроля целостности документа позволяет передавать только правильные факты.

Автоматический ввод поступающих фактов в БД системы производится с помощью специальной программы Агент ввода фактов.

Программа выполняет следующие функции:

  • мониторинг поступления новых сообщений;
  • анализ корректности и структурный разбор XML сообщения;
  • формирование списка фактов, содержащихся в сообщении;
  • проведение автоматической аутентификации удаленного пользователя, приславшего сообщение, и получение локальных полномочий этого пользователя в системе для правильного трекинга факта;
  • ввод фактов в БД.
Аналитическая обработка фактов

В системах бизнес-разведки обычно реализованы следующие базовые виды аналитической обработки фактов:

    • построение исторической цепочки фактов для каждого атрибута досье объекта;
    • автоматическое порождение досье на появившиеся в связях новые объекты. В случае появления в факте нового объекта — участника связи по определенному атрибуту досье (например, конкуренты), по нему автоматически создается досье и новый объект ставится на мониторинг;
    • автоматическое выявление косвенных связей объекта с другими объектами системы (связи через третий объект или по общим диапазону дат и обстоятельству места) (см. рисунок 7);

Рисунок 7 — Типы связей объектов

  • поиск наиболее коротких цепочек связей между заданными объектами;
  • построение сети связей объекта (см. рисунок 8);
  • определение областей влияния объекта;
  • выявление кластеров (плотных скоплений) связанных объектов (группировок);
  • поиск релевантных объектов и связей по контенту фактов.

Рисунок 8 — Фрагмент сети связей объектов в системе XFiles 2004

Все виды аналитической обработки в системе XFiles 2004 могут дополняться ограничениями на:

  • атрибуты-связи (например, отображать связи только по атрибутам: Покупка и продажа акций и банки-посредники операций);
  • на типы допустимых в цепочке связей (прямые, косвенные или любые);
  • на контент фактов, т.е. возможность выделять только те объекты, факты, относящиеся к которым, содержат определенный шаблон контента. Например, выделить объекты, в атрибуте Акционеры которых содержится лингвистический шаблон «Резник%»;
  • на длину цепочки связи объектов;
  • на временной диапазон существования связей. Например, считать действительным только связи после 2000 года;
  • на обстоятельство места совершения факта. Например, считать действительным только факты, относящиеся к государству Кипр.
Профили пользователей системы

Различные пользователи могут иметь доступ к различным объектам, досье и выполнять в системе различные функции. Один пользователь может входить в различные рабочие группы с разными полномочиями. Каждая рабочая группа имеет доступ к заданному множеству объектов и заданному множеству типов досье.

В каждой рабочей группе для пользователей прописаны различные уровни полномочий:

  • Администраторы — имеют возможность редактировать справочники типов досье, объектов и атрибутов, заполнять и просматривать досье.
  • Редакторы — имеют возможность редактировать и просматривать досье.
  • Пользователи — имеют возможность только просматривать досье и выполнять различные виды аналитической обработки фактов.
Заключение

На этом завершим краткий анализ современных информационных технологий бизнес-разведки. Они относятся к технологиям извлечения знаний, в качестве источников включающие все системы, используемые в процессе подготовки и принятия решений. Обычно эти системы интегрированы в корпоративный аналитический портал компании. Растущая популярность этого класса информационных систем объясняется возможностью интеграции знаний, накапливаемых экспертами и программами-автоматами. Этим достигается важное сочетание возможностей автоматического сбора большого числа относительно «сырых» фактов из различных источников, их экспертной оценки и информационной поддержки принятия адекватных решений. Основанные на этом подходе системы бизнес-разведки компаний получают качественно новые преимущества в конкурентном бизнесе.

Standard
Управление знаниями

Секретные материалы

Автор: Елена Некрасова | Источник: Журнал «CIO» № 3, 04.04.2008, ссылка it2b.ru

Сегодня, в условиях возрастающей гиперинформированности, практически невозможно с помощью естественного интеллекта обработать потоки информации и накопленные ее архивы. Поэтому технологии выделения информации и их аналитической обработки, обеспечивающие аналитическую и бизнес-разведку, являются сейчас основными инструментами для тех компаний, которым важен стратегический успех в борьбе с их конкурентами.

Прежде чем подробно обсуждать цели, задачи и способы организации «разведслужбы» компании, определимся с терминами. Не следует считать словосочетания «конкурентная разведка» и «бизнес-разведка» синонимами. Конкурентная разведка является одним из направлений бизнес-разведки, ограниченным сбором и анализом информации по конкурирующим компаниям, продуктам, технологиям и т. п. «Бизнес-разведка — понятие более широкое, описывающее деятельность по сбору и обработке сведений обо всех процессах бизнеса, — объясняет Сергей Зорин, руководитель департамента информационной безопасности „Квазар-Микро“. — К этому могут относиться изучение эффективности бизнес-процесса, выяснение спроса на определенный товар, сбор информации о конкретных лицах, анализ структуры объектов и законодательства в данной области, выявление тенденций развития какого-либо процесса. Единственный критерий — это должно иметь отношение к бизнесу». Задачи подсистемы бизнес-разведки — сбор, обработка и анализ информации и как результат — обеспечение руководства компании сведениями для обоснованного принятия важных решений. Соответственно, такой «информационный центр» компании должен быть ориентирован на нескольких топ-персоналий. Разведка может быть залегендирована в подразделения по связям с общественностью, маркетинговые отделы, исследовательские отделы, отдельные фирмы и т. п.

В большинстве коммерческих компаний бизнес-разведка рассматривается как инструмент стратегического маркетинга. Основная задача бизнес-разведки — снижение рисков для деятельности компании.

Существует множество схем развития бизнеса, для реализации которых необходимо провести тщательный анализ ситуации. Если компания планирует выводить на рынок новую технологию или продукт, формировать новую потребительскую нишу, важно максимально точно выявить все «подводные камни», связанные с существующим конкурентным окружением, планами конкурентов по выводу аналогичных продуктов, сроками (иногда приоритетом может быть вывод продукта первым), заявленным функционалом и поддержкой со стороны профильных ассоциаций, ключевых вендоров и др.

Значительную пользу может принести бизнес-разведка в ходе подготовительных мероприятий по заключению стратегически важного партнерства, при слиянии с какой-либо организацией или в случае приобретения фирмы. Руководству необходима твердая уверенность в том, что представленные потенциальными партнерами документы не сфабрикованы, не являются фальсификацией и отражают истинное положение вещей (особенно в части финансового анализа и юридической чистоты).

Не стоит забывать и о таких современных реалиях, как борьба за высококвалифицированных специалистов.

Здесь могут быть весьма полезны и разведка, и контрразведка. В первом случае компания ищет подходящие ресурсы для развития бизнеса, которыми может располагать другая организация (а найдя, проверяет их «на прочность»), во втором — менеджеры по работе с персоналом «держат руку на пульсе», отслеживая возможную активность со стороны конкурентов по «переманиванию» специалистов компании.

Люди в черном

Как организовать службу бизнес-разведки в компании? Стоит ли создавать для этого отдельную структуру, или функции по сбору «разведданных» могут быть возложены на сотрудников других подразделений?

«Если компания работает на остроконкурентном рынке, где минимальная утечка информации может стоить многомиллионных потерь или, того хуже, банкротства, скорее всего, имеет смысл создавать специальную службу бизнес-разведки, — считает Леонид Корох, CIO компании Aladdin. — Однако, на наш взгляд, большинство функций по сбору и анализу информации из открытых источников могут выполнять классические маркетологи в ходе перманентного мониторинга рыночного окружения и профильных СМИ, касающихся данного сегмента. Четко выработанные методы сбора информации, система анализа полученных данных и отработанная схема информирования руководства обо всех рыночных колебаниях и малейших движениях конкурентов — в большинстве случаев этих действий вполне достаточно для получения общей картины „поля боя“».

Однако иногда для принятия действительно важного управленческого решения может потребоваться информация из так называемых закрытых источников. «И вот тут уже арсенал бизнес-разведчика может сравниться разве что с джентльменским набором Джеймса Бонда, — рассказывает Леонид Корох. — При этом не стоит думать, что чем выше ценность требуемых разведданных, тем меньше вероятность того, что они могут быть получены легальным способом. Отнюдь. Никто не запрещает вам легально заказать продукт конкурента и протестировать его на предмет заявленных характеристик и функциональных возможностей.

Нет ничего сложного в том, чтобы позвонить в конкурирующую организацию, послушать стройную речь пресейл-менеджера и попросить сравнить предлагаемый продукт с рядом других — это даст возможность услышать конкурентные „недостатки“ вашего собственного продукта». Таким образом, можно выяснить ценовую и дисконтную политику, а иногда и планы по разработке следующих версий.

Отдельно стоит отметить бизнес-разведку на выставочных мероприятиях, форумах и конференциях. Запись презентаций или докладов — вполне легальная форма получения данных относительно бизнеса конкурента и его стратегических планов. «Скептически настроенные оппоненты могут возразить, сказав, что на публичных мероприятиях никто вам тайн не откроет. Возможно, но, во-первых, у вас уже будут данные, озвученные публичным лицом компании, которые вы можете сверять и перепроверять по другим источникам, во-вторых, если вы лично еще не примелькались специалистам конкурирующей компании, подойдите на стенд и задайте интересующие вопросы там. Выясняйте то, что вам нужно, представляясь клиентом, потенциальным партнером или даже журналистом. Иногда весьма полезно выявлять различия между заявленным в конференц-зале и сказанным на стенде», — советует Леонид Корох.

Все перечисленные способы легитимны. Однако если компания решит серьезно заняться своим конкурентом, не исключено, что в дело могут пойти и другие методы добычи информации, начиная с применения программ-“шпионов” и заказной атаки на информационные ресурсы компании и заканчивая вербовкой инсайдера и, более того, внедрением «на объект» — если остальные методы воздействия (технические и вербовочные) невозможны.

Невидимый фронт в виртуальной среде

Сейчас, в век динамичного развития информационных технологий, Интернет с его поистине безграничными информационными возможностями, пожалуй, стал основным полем деятельности для бизнес-разведчиков. «С уверенностью можно сказать, что интернет-разведка весьма эффективна, поскольку позволяет очень быстро получить огромное число относящихся к изучаемой области фактов, — говорит Сергей Киселев, директор департамента систем управления знаниями компании »Ай-Теко”. – Объем накапливаемых за сутки веб-страниц составляет десятки гигабайт. Это — ее первое отличие от других видов текстовой информации. С использованием статистических методов анализа можно получать полезные выводы о связях, которые с разной степенью вероятности существуют между объектами мониторинга, о динамике развития этих связей. Связи позволяют определить сообщества различного типа, существующие в виртуальном и реальном мире.

Интернет-разведка будет и дальше активно используемым инструментом не только из-за большого объема контента, но и из-за того, что это пространство не монополизировано”.

Источники информации Интернета по разным признакам можно разделить на следующие категории:

  • платные, условно-бесплатные и бесплатные;
  • закрытые, ограниченно-доступные и общедоступные;
  • структурированные и неструктурированные (сюда же можно отнести индексируемые и неиндексируемые).

«Бесплатные источники открыты для всех пользователей. К условно-бесплатным можно отнести ресурсы, предоставляющие информацию по запросу, с обязательной предварительной регистрацией. Чтобы получить полноценный ответ, приходится обозначать свой интерес к данной теме и тратить время на получение и проверку достоверности собранной информации. Платные ресурсы обладают теми же недостатками, с той лишь разницей, что уровень достоверности выше и время, потраченное на поиск по запросам, входит в стоимость полученной информации», — отмечает Сергей Зорин.

Закрытыми являются ресурсы, доступные только для ограниченного круга пользователей, а ограниченно-доступными — ресурсы, обладающие и общедоступной, и закрытой частями. Уже сейчас небольшие и средние компании отказываются от предоставления в общий доступ документации по своим продуктам и технологиям, финансовой информации и т. п. Эти сведения могут получить клиенты или партнеры после аутентификации.

Источники информации можно разделить на структурированные и неструктурированные. К структурированным источникам относятся различные специализированные порталы, базы данных самых различных отраслей, сообществ и институтов, веб-каталоги, рубрицированные хранилища. Их можно классифицировать на легальные и нелегальные. Ко второму типу относится широкий спектр предложений многочисленных «развалов» с дисками, содержащими данные самых различных государственных и коммерческих компаний, достоверность которых гарантировать подчас весьма сложно.

Неструктурированные источники информации гораздо сложнее и разнообразнее и по форме, и по содержанию, особенно в свете появления концепции Web 2.0, социальных сетей, блогосферы. К ним относятся практически любые информационные ресурсы. «Личные дневники топ-менеджеров, их секретарей и других подчиненных могут содержать, на первый взгляд, банальную информацию, которую, однако, опытный разведчик вполне может использовать в своих целях, — рассказывает Леонид Корох. — Не менее полезен может быть анализ отзывов наемных работников о своих работодателях как в период работы, так и после увольнения. Нередко подобные „заметки“ могут содержаться в специальных блогах и коммьюнити. Проследить карьеру или узнать подробности о какой-либо персоналии могут помочь сверхпопулярные нынче „Одноклассники.ру“ или „Контакт.ру“. Так что источников много, надо лишь правильно организовать сбор и анализ».

«Если рассматривать типы источников через призму бизнес-разведки, то можно сказать, что основное различие здесь заключается в чистоте используемых данных, — считает Вадим Бондарев, ведущий менеджер по работе с партнерами, компания „ФОРС — Центр разработки“. — В большинстве случаев в структурированных каталогах хранится только конкретная „очищенная“ информация, разбитая на категории по определенным критериям, либо информация о датах и событиях и т. п. Обычный неструктурированный текст насыщен побочной информацией, которая и придает ему читабельность, и определяет взаимоотношения между объектами в тексте. Кстати, современные технологии вполне позволяют выделить почти любые фактографические данные из таких текстов, вплоть до эмоциональной окраски относительно описываемых субъектов».

Арсенал Джеймса Бонда

Инструменты и способы получения информации из Интернета чрезвычайно многообразны.По-прежнемубольшая часть поисковых операций реализуется через поисковые системы, которые позволяют получить быстрые результаты для последующей обработки. Поисковые системы можно разделить на несколько видов:

  • глобальные, массовые (Yandex, Google). Эти поисковики дают возможность экспорта данных в XML-формат посредством RSS-каналов, что обеспечивает возможность отслеживания и структурирования интересующей информации;
  • специализированные поисковые системы (каталоги глобальных поисковых систем, научные поисковики, системы поиска по базам данных при институтах, библиотеках и др.);
  • мета-поисковые системы обеспечивают поиск по совпадениям мета-данных в поисковом запросе с данными в мета-тегах страниц сайтов. Их использование позволяет получить неранжированную информацию по категории или типу информации.

Сегодня поисковые системы обладают возможностью частично структурировать найденную информацию, например на основе алгоритмов семантических сетей, выделяя наиболее значимые темы и ранжируя результаты по значимости относительно поискового запроса.

Количество сайтов, проиндексированных различными поисковыми системами, увеличивается в геометрической прогрессии. Но, тем не менее, эксперты утверждают, что доля непроиндексированного, «темного» Интернета для каждой поисковой системы (даже для такой мощной, как Google) возрастает месяц от месяца. «Поскольку разные поисковики используют разные алгоритмы поиска и уделяют „особое“ внимание разным участкам сети, к которым они наиболее адаптированы, логично во многих случаях искать сразу несколькими поисковыми машинами», — считает Сергей Зорин.

Для анализа информации необходимы более сложные и ресурсоемкие алгоритмы, поэтому встраиванию в поисковые системы такие средства не подлежат. Например, для выделения фактов в тексте, структурирования текста относительно различного количества признаков необходимы специальные аналитические комплексы, созданием которых и занимаются ИТ-компании, имеющие богатый опыт в этом, а также специалисты высокого уровня.

Средства извлечения информации из интернет-ресурсов различаются прежде всего производительностью, надежностью и качеством анализа контента. На основе собранной роботом информации система выделяет и структурирует факты. Качественные роботы во многих случаях определяют и качество выделения фактов ведения досье, т. е. само качество технологии бизнес-разведки. Сергей Киселев отмечает тревожный факт: «На российском рынке сложилась сложная ситуация в секторе „малых“ поисковых систем. Основным фактором этой ситуации является желание выиграть тендер за счет демпинговой цены коммерческого предложения, а не качества предоставляемых услуг. Это становится возможным из-за того, что по условиям тендера, проводимого государственными структурами, основным квалификационным требованием является цена, а не функциональная полнота предлагаемого решения, что требуется по стандарту ISO 9000». На сегодняшний день реализованы основные базовые технологии для бизнес-анализа, бизнес-разведки и аналитической разведки. Разрабатываются и некоторые методы анализа контента в Интернете, которые связаны с анализом блогов, форумов и других сетевых диалоговых форм взаимодействия пользователей. Поскольку это очень специфический метод диалога, он требует и специальных методов анализа данных.

Эффект от внедрения систем бизнес-разведки на нижнем уровне сбора информации заключается в том, что пространство рассматриваемых тем и объектов практически полностью охвачено, и в процессе принятия решений не возникает дополнительной необходимости прямого обращения к среде Интернет или архивам. Если задачи мониторинга были поставлены правильно, вся эта информация в компании уже накоплена. В области аналитической обработки качество бизнес-разведки оценивается полнотой методов аналитической обработки и извлечения знаний. Чем лучше проведен анализ, тем выше вероятность принятия адекватного успешного бизнес-решения.

Профессиональное мнение

Сергей Киселев, директор департамента систем управления знаниями компании «Ай-Теко»

Если мы смогли решить задачу профильного мониторинга Сети, то этим создана основа получения значимых для пользователя результатов.

Для стратегической информационной разведки важной функцией системы является обработка мультиязычных документов, перевод запросов, правил и получаемых документов и фактов. Этот фактор является критическим для систем управления фактографической информацией, поскольку автоматическая работа по выделению свойств фактов должна приводить к моноязычному их представлению для совместной обработки. Это — ресурсо- и наукоемкий сервис, доступный скорее уже не системе, а платформе или решению.

В типичных задачах аналитической обработки, о которых мы упоминали выше, используется не только контент, но и различные агрегаты свойств страниц. Действительно, во многих случаях частотность упоминания проблемы говорит о ее актуальности, а для объекта — о его популярности. Например, на основании частотности свойств собранных фактов можно определять различного вида сообщества; кратчайшие, эффективные или нечеткие связи между участниками и пр. Наиболее востребованы сегодня методы исследования динамики активности объектов, изменение тональности публикаций, различные виды статистического анализа для прогнозирования развития ситуации, анализа факторов, которые влияют на ее динамику, и многого другого.

Необходимо отметить также математические методы лингвистического анализа текста, методы структурирования текста в виде сущностей, их свойств и связей. К сожалению, сегодняшнее качество программ лингвистического и семантического анализа русского языка недостаточно.

Направление, которым нужно заниматься все более активно — структурирование речевого, графического и видеоконтента. Мы ощущаем потребности заказчиков, связанные с оцифровкой речи на различных языках. Однако пока нельзя считать, что сегодняшний уровень этих программ обеспечивает достаточную для достоверного анализа точность и полноту.

Эффективность бизнес- и аналитической разведки в большинстве случаев определяеются этими базовыми сервисами.


Сергей Зорин, руководитель департамента информационной безопасности «Квазар-Микро»

В России есть несколько устоявшихся предпосылок и для применения более традиционных способов добычи информации, и для постепенного расширения применения интернет-разведки. С одной стороны, пока еще не до конца созданы и централизованы базы данных государственных служб и ведомств; не определены требования к системам, обрабатывающим персональные данные и ответственность за их кражу; существует практика набирать в службу безопасности бывших работников силовых ведомств. Все это приводит к тому, что конкурентной разведкой занимается СБ, и она же, по своим ли каналам или с помощью растиражированных БД различных ведомств, собирает информацию. Пока подобный способ будет настолько прост и дешев — нет смысла серьезно вкладываться в разработку инструментария в Интернет.

С другой стороны, Интернет во много раз динамичнее статичного ежегодного отчета. Поэтому и в России уже начинают появляться отделы по интернет-разведке в детективных, кадровых, PR- и прочих агентствах — достаточно «спросить» у любого поискового сервера. К примеру, очень просто настроить автоматический ежечасный сбор информации с сайтов известных СМИ, индексацию информации и поиск по двум-трем критериям. Такими критериями могут служить имя человека, название компании-конкурента, все что угодно. Вы удивитесь, сколько информации наберете за месяц — останется только анализировать тенденции.

Вадим Бондарев, ведущий менеджер по работе с партнерами, компания «ФОРС — Центр разработки»

Задачу бизнес-разведки можно разделить на две части — глубокий анализ и мониторинг. Мониторинг — менее ресурсоемкая задача, которую можно решить внедрением корпоративной поисковой системы, обеспечивающей индексацию помимо внутренней информации еще и внешних источников: новостных сайтов, публичных хранилищ информации и т. п. Подобная поисковая система, обладающая алгоритмикой рубрикации результатов поиска относительно поискового запроса, может существенно сократить затраты на мониторинг окружающего информационного пространства.

Для эффективного мониторинга сначала необходимо определиться с источниками информации, поскольку задача сбора данных весьма ресурсоемкая. В аналитических целях вам могут понадобиться документы в полном виде — для того, чтобы выделить из них точную информацию обо всех участниках событий и далее связать их и факты в единую сеть. Таким образом, объемы индексируемой информации могут достигать нескольких сотен мегабайт в день, а ведь делать выводы о деятельности конкурирующей компании нужно на основе анализа данных за длительный период ее жизни. Итак, если вы решили заняться деловой разведкой, приготовьтесь к тому, что для этого понадобятся серьезные ресурсы.

Леонид Корох, CIO компании Aladdin

Бизнес-разведка не только является неотъемлемой частью систем поддержки принятия решений, но и связана с технологиями обеспечения безопасности компании. В системе корпоративной безопасности бизнес-разведка — скорее область контрразведки, поскольку любой компании, какой бы прогрессивной она ни была, стоит исходить из того, что конкуренты тоже могут использовать различные развединструменты, причем не всегда этичные. В частности, такие вещи, как подкуп за передачу конфиденциальных данных, не столь уж большая редкость, особенно если принять во внимание низкую финансовую мотивацию персонала. К слову, в ходе «круглого стола» по проблеме утечки информации вследствие действий инсайдеров, проходившего в октябре на ежегодной конференции Aladdin, прозвучали результаты опроса системных администраторов государственных учреждений, как известно, имеющих невысокий уровень дохода. На вопрос, за какую сумму у них можно получить конфиденциальные данные, только 10% опрошенных ответили, что никогда не пойдут на такое должностное преступление, около половины опрошенных готовы рискнуть за большие деньги, а примерно 40% способны пойти на это за любое вознаграждение.

Стоит добавить: для того чтобы компания не стала жертвой нелегальной деятельности разведчиков-конкурентов, необходимы комплексные меры технической защиты (защита от утечки информации, программ-“шпионов”, инсайдерской атаки и др.), а также постоянная работа с персоналом с целью достижения максимальной лояльности к компании и достаточного уровня мотивации сотрудников

Standard
Управление знаниями

Поиск фактов в тексте естественного языка на основе сетевых описаний

Мероприятие: Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог’2004. – Москва, Наука, 2004 | Автор: Киселев С.Л., Ермаков А.Е., Плешко В.В.

Источник: http://it2b.ru/blog/arhiv/648.html

Аннотация

Доклад посвящен технологии автоматического анализа текста русского языка и поиска в нем описания фактов заданного типа, в том числе извлечения требуемых фигурантов факта и сопутствующих обстоятельств. Описывается представление текста в форме сети синтактико-семантических отношений, которая инвариантна к форме описания фактов с точностью до выбранной автором структуры пропозиции. Для поиска фактов используются шаблоны в форме сетей с заданными ограничениями на атрибуты узлов и связей, которые позволяют находить, преобразовывать и интерпретировать требуемые семантические структуры в сети текста.

Доклад

Речь пойдет о технологии, которая позволяет найти в тексте описания фактов заданного типа, например, “поездки” или “поддержка на выборах”, и извлечь требуемую информацию, связанную с фактами — имена задействованных участников, обстоятельства места и времени и другое. Основная сфера приложения технологии — это аналитические задачи из области компьютерной разведки, требующие высокоточного отбора информации по заданным смысловым критериям, например, автоматизированное составление досье на целевые персоны или организации.

Реализованная нами технология фактографического поиска опирается на модель содержания текста в форме семантической сети. Семантическая сеть содержит все полнозначные слова и словосочетания, упоминавшиеся в тексте — наименования объектов, действий и признаков, связанные различными типами синтактико-семантических связей.

Элементарная сеть представляет результат синтаксического анализа и постсинтаксических трансформаций дерева синтаксических зависимостей между словами в отдельном предложении. Некоторые принципы используемого нами синтаксического анализа были описаны в [1,2], а полная информация о синтаксическом анализаторе RCO Syntactic Engine представлена на сайте www.rco.ru. Полная сеть текста есть результат объединения отдельных семантических сетей на основе узлов, соответствующих кореферентным именам объектов.

Узлы и связи в сети имеют набор следующих атрибутов:

  • Name — строка текста, соответствующая узлу. Может иметь несколько значений, каждое из которых соответствует цельному словосочетанию, образованному от ключевого существительного в узле, например: “новый указ президента”, “указ президента”, “указ”, или одному из кореферентных имен объекта в тексте “Василий Иванов”, “директор”, “известный предпрениматель”.
  • SemanticCategory – семантический разряд ключевого слова, соответствующего узлу.
  • RelationType – тип синтактико-семантической связи между узлами, например “аргумент”, “признак”, “принадлежность”.
  • RelationRole – семантическая роль, определенная для связей предиката с аргументом, получаемая обычно из словаря моделей управления, например “субъект”, “объект”, “инструмент”.
  • RelationCase, RelationConnector – семантический падеж и коннектор (предлог, союз), при помощи которых устанавливается связь предиката с аргументом. Представляют альтернативу семантической роли, так как роль не всегда может быть установлена. Один и тот же семантический падеж может соответствовать различным грамматическими падежами в зависимости от построения фразы. Например, семантический именительный субъекта действия и винительный объекта соответствуют одноименным грамматическим падежам в активном залоге, а в пассивном выражаются грамматическим творительным и именительным соответственно.

Рис. 1. Пример семантической сети, соответствующей предложению “В ноябре 2003 года Ивановым была совершена сделка по покупке акций Лукойла у Петрова”.

Представление содержания текста в форме семантической сети позволяет абстрагироваться от многих особенностей его коммуникативной организации. Такая сеть инвариантна к синтаксической структуре предложений и порядку слов с точностью до структуры пропозиции, выбранной автором для описания ситуации. Например, конструкциям “Иванов купил акции” и “акциях, купленных Ивановым” будут соответствовать одинаковые сети. В то же время пропозициям вида “Иванов становится покупателем акций Лукойла” и “покупка акций Лукойла – дело рук Иванова” будут соответствовать иные сети. Вследствие этого семантическая сеть является промежуточным уровнем представления между собственно семантической схемой ситуации и ее языковым описанием.

Модель факта задается множеством лингвистических описаний (ЛО), каждое из которых описывает множество изоморфных семантических сетей, соответствующих некоторому типовому способу описания факта в тексте. Основными элементами ЛО являются:

  • участники ситуации – узлы сети, которые соответствуют текстовым единицам, извлекаемым в качестве значений фигурантов факта. Например, в ситуации покупки акций потенциально присутствуют участники с ролями “продавец”, “покупатель” и “эмитент акций”, а “товаром” всегда являются акции.
  • вспомогательные элементы — узлы сети с заданными ограничениями на атрибуты, которые позволяют распознать присутствие описания факта в тексте. Обычно они соответствуют наименованию ситуации (“покупка”, “покупать”, “приобретать”) или именам обязательных участников, более точно идентифицирующим ее (тип товара: “акция”, “контрольный пакет”).
  • схема ситуации – набор связей между участниками и вспомогательными элементами с заданными ограничениями на атрибуты связей. Схема ситуации соответствует связям в семантической сети простого неосложненного предложения, свободного от дополнительных участников, обстоятельств, определений и прочего.

Поиск факта есть поиск в семантической сети текста такой подсети, которая изоморфна одному из ЛО. Если подсеть найдена, факт считается установленным, после чего производится извлечение текстовых значений фигурантов факта (атрибут Name) и их интерпретация в соответствии с ролями, заданными в соответствующих узлах ЛО.

Дополнительно в схеме ЛО могут присутствовать необязательные узлы, которые соответствуют дополнительным участникам или обстоятельствам. После нахождения изоморфизма производится поиск необязательных узлов, и текстовые значения соответствующих фигурантов также извлекаются.

Существует возможность вводить в ЛО порождаемые объекты и связи с любыми заданными атрибутами, которые добавляются к заданным узлами сети текста при нахождении изоморфизма. В ходе работы все ЛО применяются в заданном порядке, и каждое следующее ЛО может обрабатывать подсети, которые являются совместным результатом работы анализатора текста и всех предыдущих ЛО. В результате по мере срабатывания ЛО сеть синтактико-семантических отношений может быть постепенно превращена в сеть смысловых отношений, сохраняя при этом все исходные связи, явно выраженные в тексте.

Рис. 2. Пример ЛО, покрывающего множество описаний факта в форме пропозиции вида “Покупатель совершает действие по приобретению у продавца акций предприятия”.

В ЛО на рисунке 2 три узла, обозначенные метками BUYER, ISSUER и SELLER, представляют возможных фигурантов факта “покупка акций” – покупатель, эмитент и продавец соответственно. Узел SELLER вместе с идущей к нему связью является необязательным, так как продавец может и не указываться в тексте, и именно пара “покупатель-эмитент” представляет интерес для факта покупки акций.

ЛО задаются на формальном языке описания графов, который позволяет определить структуру сети и наложить ограничения на атрибуты узлов и связей в виде логических выражений. Для удобства настройки ЛО используется модуль с графическим интерфейсом, позволяющий построить сеть на основе типовой фразы русского языка. После добавления требуемых ограничений на узлы сети, указания обязательных, необязательных, порожденных элементов и ролей участников факта, ЛО сохраняется в нужном формализме, готовое для работы системы фактографического поиска.

В практических задачах, требующих высокой полноты поиска, мощность класса ЛО, необходимых для выделения факта одного типа, может колебаться от десятков (например, для фактов “заключение договоров”) до сотен (например, для фактов “конфликты”). Формирование множества таких классов, описывающих предметную область, относится к сфере инженерии знаний и требует операций декомпозиции области на элементарные факты, их классификации и упорядочивания. Качественное описание иерархии фактов требует формирования многоуровневой гетерархической структуры, так как один и то же факт на любом из уровней может допускать несколько целевых интерпретаций. Способы решения данной задачи выходят за рамки задач компьютерной лингвистики и относятся сфере приложения методов искусственного интеллекта.

В настоящее время нами разработаны ЛО для извлечения из текста нескольких десятков типов фактов, которые связаны с действиями юридических лиц и VIP-персон, часто освещаемыми в СМИ.

Литература
  • Ермаков А.Е. Неполный синтаксический анализ текста в информационно-поисковых системах. // Компьютерная лингвистика и интеллектуальные технологии: труды Международного семинара Диалог’2002. В двух томах. Т.2. “Прикладные проблемы”. – Москва, Наука, 2002. — С. 180-185.
  • Ермаков А.Е., Плешко В.В. Синтаксический разбор в системах статистического анализа текста. // Информационные технологии. — 2002. – N 7. – С. 30-34.
Standard
Управление знаниями

Лингвистическая модель для компьютерного анализа тональности публикаций СМИ

По той причине, что я сейчас активно учу английский и всякими другими делами, у меня не так много времени для публикации своих мыслей и отзывов на прочтенные книги. Однако, пока есть минут по 20 времени за вечер, я перепощу сюда статьи Киселева Сергея (опять же для своей личной истории и как объект своей гордости, не давая уведомлений на фейсбук и твиттер).

Итак, первая.

Ермаков А.Е., Киселев С.Л.

Компьютерная лингвистика и интеллектуальные технологии: труды Международной  конференции Диалог’2005. – Москва, Наука, 2005

Аннотация
Доклад освещает опыт практического  решения задачи определения тональности текста по отношению к заданному  объекту. Систематизируются средства, используемые автором текста для  формирования тонально окрашенного образа объекта, и строится лингвистическая  модель для выделения всех составляющих этого образа. Описывается схема оценки  тональности “позитив/негатив” с учетом тех мест, которые занимают в  составе пропозиций тональные и нейтральные слова, средства выражения
отрицания и инверсии смысла.

Введение

Речь пойдет о задаче компьютерного  анализа тональности текста (публикации СМИ) по отношению к заданному объекту  – персоне или организации. Эта задача оказалась востребованной на рынке в
связи с активным развитием политтехнологий и технологий компьютерной  разведки. Оперативное исследование субъективного образа объекта, естественно  возникающего или намеренно формируемого в информационном поле СМИ, является  важнейшей составляющей обеспечения эффективной политики и безопасности  бизнеса, оценки эффективности ПР-компаний и прочих видов манипуляций
информационно-обусловленным общественным сознанием в современном мире.

В рассматриваемой здесь постановке под тональностью  текста понимается позитивное или негативное отношение его автора к заданному  объекту, фигурирующему в тексте.

Интуитивно понятно, что оценка  тональности требует анализа смысла, заложенного автором в текст. С
лингвистической точки зрения смысл текста (его субъективное содержание)  характеризуется следующими группами факторов:

  • введение лексико-грамматических средств, выражающих модальные  характеристики ситуации, модусные смыслы и явное отношение автора к  описываемой ситуации, в том числе выбор тонально окрашенного слова  взамен нейтрального из синонимического ряда. Очевидно, что этих факторы  должны прежде всего учитываться при оценке тональности текста.
  • трансформации “нейтральной” структуры предложения (которая  в норме является изосемически изоморфной конструкцией), связанные с  изменением порядка слов, осложнением, трансформацией залога, введением  показателей смысловых отношений, экспликаторов и прочих элементов.
    Факторы этой группы определяют расстановку акцентов, ракурс подачи  ситуации, выбранные автором текста для достижения своих коммуникатитвных  целей. Не ясно, как использовать эти факторы для оценки тональности  текста.

Вся остальная информация в тексте, с  точки текста лингвистики, представляет его объективное содержание –  совокупность семантических отношений между объектами (предметами, событиями и
их свойствами) в описанном фрагменте внеязыковой действительности, которые  автор пожелал отразить. При этом лингвистика не рассматривает возможность  искажения описанной ситуации или ее подмены другой ситуацией, хотя в этих  случаях именно содержание, переставшее быть объективным, отражает смысл, что  сплошь и рядом наблюдается в текстах СМИ. В итоге, за рамками лингвистических
моделей остаются глубинные факторы экстралингвистической природы, связанные  со способом формирования самого содержания текста, отбором тех ситуаций для  включения в текст, которые, внешне не получив тональной окраски и смысловой  обработки, тем не менее формируют тональность текста благодаря своей семантике,  набору вызываемых коннотаций. Сюда относятся фразы типа “Ельцинские  реформы привели народ к потере своих сбережений”, “Между масками  Ельцина и Путина выступает Смерть с косой – символ этих десяти лет”.
Такие способы выражения тональности очень часто встречаются в тексте,  особенно при выражении негатива. Ориентируясь на модель восприятия текста  целевой аудиторией, автор связывает с объектом описание таких событий или  метафорических образов, восприятие которых вызывает эмоциональную реакцию и  формирует негативное или позитивное отношение к самому объекту.

Из сказанного выше интуитивно понятно,  что в общем случае никакими машинными методами невозможно разделить  объективное и субъективное содержание текста – объективную констатацию
фактов, пускай даже тонально окрашенных, и намеренное искажение  действительности, в том числе сознательное выведение в фокус внимания  определенных ее сторон на фоне замалчивания других. К счастью для  разработчиков, жизнь позволяет считать, что данной проблемы просто не существует,
и заказной характер публикаций СМИ дает нам право отождествить со смыслом  любое вызывающее эмоциональную реакцию содержание, исходя из принципа  “раз это пишется – значит это кому-то нужно”.

Будем называть тонально-окрашенными или  просто тональными такие элементы текста (слова, синтагмы, фразы), которые  несут в себе оценочную семантику, например: превосходный, бессовестно, робкие  действия, медлительность, олигарх, вор, режим, бюрократизация, наглеть.

Будем называть  эмоционально-коннотативными такие элементы текста, семантика которых при
восприятии вызывает эмоциональную реакцию вида “хорошо/плохо”.  Строго говоря, такими элементами являются синтагмы, содержащие в себе  событийный предикат вместе с его распространителем (борьба с преступностью,  повышение цен, пенсионеры голодают), однако дальше мы будем называть
эмоционально-коннотативными и отдельные элементы таких синтагм (преступник,  рост), не забывая при этом, что окончательный эмоциональный коннотат  “хорошо” или “плохо” они формируют только в сочетаниях  друг с другом.

Окончательно, мы рассматриваем задачу  оценки тональности в конструктивной постановке как процесс проведения  следующих операций с текстом:

  1. Распознавание всех упоминаний о целевом  объекте в тексте, включая его полные, краткие, косвенные, местоименные и  другие обозначения (необходимость в этом этапе отсутствует, если известно,  что весь текст посвящен только целевому объекту);
  2. Отсев и полный синтаксический разбор тех  конструкций, в которых отражаются все ситуации (события и признаки), связанные  с целевым объектом;
  3. Выделение и классификация тех  пропозиций, в которых явно выражается тональность, и тех пропозиций, которые  описывают эмоционально-коннотативные ситуации.
  4. Для каждой пропозиции принятие решения о  тональности “позитив/негатив” с учетом тех мест, которые занимают в  ее составе эмоционально-коннотативные, тональные и нейтральные слова,
    средства выражения отрицания.

Заключительный шаг – оценка общей  тональности текста на основе тональности всех входящих в него пропозиций –  является утилитарной задачей и зависит от целей, которые преследует  конкретная прикладная система. Так, с точки зрения наших заказчиков,  появление одного негатива в тексте перечеркивает весь позитив. Тот факт, что  под видом позитива в тексте может с иронией подаваться “махровый”  негатив, распознать который машина в принципе не способна, подтверждает  основательность данной точки зрения.

Проведение операций (1) и (2) требует  наличия технических средств для проведения полного синтаксического анализа  текста, выделения и отождествления наименований, которые к настоящему моменту  разработаны в нашей компании [2,3]. Операции (3) и (4) относятся собственно к
лингвистической модели оценки тональности и описываются далее.

Фильтрация и разбор пропозиций для  оценки тональности

Технологически отбор пропозиций  происходит как поиск в сети синтактико-семантических отношений (результат  синтаксического анализа предложения) всех подсетей, изоморфных заданным  лингвистических схемам-графам [2]. При нахождении подсети, удовлетворяющей заданной  схеме, происходит отбор тех ее узлов, которые соответствуют важным для оценки  тональности участникам ситуации, а также связанных с ними узлов, содержащих  дополнительных информацию (частицы, наречия, прилагательные, служебные  глаголы). На основании класса, к которому отнесена пропозиция, лексического  состава участников ситуации с учетом их ролей и семантики дополнительных слов
принимается решение о тональности.

Отбор пропозиций, связанных с объектом  мониторинга и используемых при оценке тональности, производится в  соответствии с описанными ниже схемами.

Явная тональная характеристика

Ситуации класса “объект или  инициированное им событие наделяется признаком, имеющим оценочную
семантику”. Выделяются участники в следующих ролях:

  • Объект оценки – целевой  объект;
  • Атрибут – существительное или именная группа,  прилагательное, наречие, тонально окрашенный предикат-глагол.

Ниже перечислены типовые пропозиции,  которыми выражаются ситуации этого класса, в которых курсивом выделены  тонально окрашенные участники.

  1. Логическая пропозиция полная: Петров – плохой  руководитель; власть становится защитницей преступности; политика  власти – дрянь. Тональность выражается именной группой, образуемой
    существительным.
  2. Логическая пропозиция свернутая с  существительным: гениальный авантюрист Петров; робкая политика  президента, циничность власти. Тональность выражается именной группой,
    образуемой существительным.
  3. Логическая пропозиция свернутая с  прилагательным: нерешительный президент; президент нерешителен.  Тональность выражается прилагательным.
  4. Свернутая логическая пропозиция в  составе событийной, отражающая оценку события, в котором целевой объект  выступает в роли протагониста: Петров бездумно согласился; президент  принял авантюрное решение; власть обнаглела. Тональность может  выражаться наречием при глаголе, прилагательным при событийном  существительном, самим глаголом.

Прямая эмоционально-коннотативная  характеристика

Класс эмоционально-коннотативных  ситуаций, отражающих отношение целевого объекта к эмоционально-коннотативным  сущностям, их оценку целевым объектом, или наоборот – отношение этих
сущностей к объекту, оценку объекта ими. Выражается событийными пропозициями:  президент борется с преступностью, народ выносит осуждение  власти. Выделяются участники в следующих ролях:

  • Субъект – активный участник, в приведенных примерах –  “президент” и “народ”;
  • Объект – пассивный участник ситуации, в приведенных  примерах – “преступность” и “политика власти”;
  • Предикат – глагол или существительное, выражающее  отношение Субъекта к Объекту (в приведенных примерах – “бороться с” и “осуждение”).

Типовые пропозиции, которыми выражаются  ситуации этого класса, следующие:

  1. Событийная пропозиция полная или  свернутая, в которой роль Cубъекта занимает целевой объект: власть борется  с олигархами; президент ведет борьбу с коррупцией, борьба
    президента за права народа. Тональность складывается из семантики  именной группы в роли Объекта и семантики Предиката по принципу  “положительное отношение к положительному – позитив” и наоборот.
    Если эмоциональный коннотат Объекта или Предиката не определен,  тональность считается нейтральной (президент встретился с олигархами,  Иванов борется с сорняками на даче).
  2. Событийная пропозиция полная или  свернутая, в которой роль Объекта занимает целевой объект: олигархи  испугались президента, страна выражает недоверие к власти ненависть преступников к власти. В случае, если семантика Субъекта  имеет положительный эмоциональный коннотат, общая тональность складывается по  тому же принципу, что и в (1). Если же семантика Субъекта имеет  отрицательный коннотат, то общая тональность не определена: олигархи  полюбили президента (да мало ли за что?).

Ассоциированный эмоциональный коннотат

Класс эмоционально-коннотативных  ситуаций, фигурирующих в одном предложении с целевым объектом, но не  связанных с ним напрямую (в ряде случаев эту связь просто не удается
идентифицировать средствами автоматического анализа текста). Выражаются  событийными пропозициями: обнищание пенсионеров, повысить зарплатурождаемость падает, пристраститься к пиву. Выделяются участники в  следующих ролях:

  • Участник – участник, на состояние которого влияет событие;
  • Предикат – событие, которое влияет на Участника.

Тональность складывается из семантики  именной группы в роли Участник и семантики Предиката по
принципу “хорошо для хорошего – позитив” и наоборот. Если  эмоциональный коннотат Участника или Предиката не определен,  тональность считается нейтральной.

Методика принятия решения о тональности

Способы оценки тональности отдельных  пропозиций в зависимости от их типа качественно описаны выше, и при наличии  всех слов и словосочетаний в словарях с оценкой тональности и эмоционального
коннотата задачу можно считать решенной. Однако, поскольку число комбинаций  слов практически бесконечно, необходим подход, позволяющий определить  тональность участника ситуации по тональности составляющих его слов.

Для примера рассмотрим возможные  комбинации тональности слов в составе именной группы
“прилагательное-существительное”.

Тональность существи-тельного Тональность прилага-тельного Тональность именной группы Пример
Нейтрально Любая Тональность прилагательного Плохой руководитель,Хороший руководитель
Любая Нейтрально Тональность существительного Новый олигарх, новый победитель
Позитив Негатив Негатив Плохой защитник демократии
Позитив Позитив Позитив Отличный защитник демократии
Негатив Любой Негатив Слабый диктатор,Сильный диктатор

Все прочие примеры, в том числе  сочетания “глагол-наречие” укладываются в подобную схему, которая
может быть обобщена так: “При наличии хотя бы одного слова с негативной  тональностью общая тональность участника негативна; в противном случае общая  тональность позитивна, если присутствует хотя бы одно слово с позитивной  тональностью”.

Дополнительно при оценке тональности  каждого участника ситуации необходимо учесть наличие при нем слов, которые  инвертируют тональность – частиц, наречий, прилагательных и некоторых  глаголов. Показатели инверсии часто могут употребляться совместно, причем  четное количество инверсий эквивалентно отсутствию таковой, а нечетное есть  инверсия (якобы мало борется = борется, якобы не безуспешно  борется = якобы борется = не борется = безуспешно  борется). В ситуациях, выраженных предикативной конструкцией, показатели  тональности и отрицание могут быть выражены не при главном, а при  дополнительном предикате (который и сам по себе может выражать отрицание),
например: власть слишком медленно пытается укрепиться,  президент начал бы активно борьбу с олигархами, президент якобы  не отказался повысить пенсии.

Влияние показателей отрицания на  тональность отдельных слов необходимо просчитывать до применения указанного  выше принципа получения результирующей тональности участников факта.
Исключением является случай, когда показатель инверсии стоит на самом целевом  объекте: “не президент отвечает за…”, что инвертирует  общую окончательную оценку тональности ситуации.

Общая схема тональной оценки каждой  пропозиции выглядит следующим образом:

  • Определение тональности всех слов-словосочетаний, относящихся к  участникам ситуации, по словарям (для каждой роли необходимы свои  словари), включая учет показателей инверсий по словарям;
  • Полная оценка каждого участника ситуации на основании тональности  относящихся к нему слов;
  • Оценка тональности всей пропозиции в соответствии с ее схемой и  ролями участников;
  • При наличии показателя инверсии на целевом объекте – инверсия  тональности всей пропозиции.

Заключение

Несмотря на большой интерес, проявляемый  к задаче оценки тональности, авторам известна только одна практическая  разработка в данной проблемной области – “Проект ВААЛ” [1].  Постановка задачи, решаемой ВААЛом, наиболее точно, на наш взгляд, отражена  парой следующих цитат с сайта [1]: “Оценивать неосознаваемое  эмоциональное воздействие фонетической структуры текстов и отдельных слов на  подсознание человека” и “производить эмоционально-лексический  анализ текстов”. Применяемые алгоритмы – это превращение текста в  частотный словарь и отнесение некоторых слов к определенным  психолингвистическим категориям, которые позволяют, к примеру, определить,  что текст отражает “истероидное” или “депрессивное”  настроение автора (категории “Психиатрического  анализа”). Об  анализе семантики текста, который невозможен без учета синтаксических связей
слов, речь, очевидно, не идет. Это принципиально ограничивает применимость  прикладных решений, которые могли бы быть разработаны на базе одной только  технологии ВААЛ, однако позволяет рассматривать проведенные авторами  исследования в области лексической фоно- и психосемантики как важный и,  возможно, уже достаточно глубоко проработанный элемент полной многофакторной  модели оценки тональности текста. Весьма вероятно, что разработанные авторами  проекта ВААЛ словари и методики категоризации могли бы успешно использоваться  на последних этапах описанной здесь схемы анализа текста, позволяя  производить более тонкую оценку его содержания по различным шкалам.

Описанная нами лингвистическая модель  является в основном полной. Как показали эксперименты, ошибки оценки  тональности на выходе всей технологической схемы в большей степени  определяются ошибками синтаксического разбора текста, нежели неучтенными в  рамках модели факторами.

Следует отметить, что с высокой  достоверностью удается выделить только негатив, тогда как из  “формального” позитива чуть ли не половина оказывается скрытым  негативом, иронией, или же попросту перечеркивается рядом стоящим негативом.  Это становится очевидным, если учесть хотя бы тот факт, что обругать хорошими  словами весьма естественно, а похвалить плохими – весьма затруднительно. По  нашему мнению, выделение позитива с приемлемой точностью в общем случае
невозможно, во всяком случае, при анализе текстов из “желтой”  прессы. Возможно, правда, что данное утверждение относится только к локальным  фрагментам текста, так как эксперименты по совокупной оценке тональности  текста на базе оценки его составляющих нами пока не проводились.

С учетом сказанного, основным  утилитарным результатом применения системы компьютерной оценки тональности  является не подсчет соотношения “хвалят/ругают”, а формирование  частотного портрета всех позитивных и негативных событий, связываемых в  тексте (прямо или ассоциативно) с объектом. На наш взгляд, целевая система  должна позиционироваться именно как инструмент для отсева и классификации  событий, формирующих образ объекта в информационном поле. Не столь важно
точно узнать, где и как хвалят или ругают, важнее узнать – за что?

Литература

  1. “Проект ВААЛ”
  2. Ермаков А.Е. Референция обозначений
    персон и организаций в русскоязычных текстах СМИ: эмпирические закономерности
    для компьютерного анализа. // Компьютерная лингвистика и интеллектуальные
    технологии: труды Международной конференции Диалог’2005. – Москва, Наука,
    2005. – C.131-135 (http://www.rco.ru/article.asp?ob_no=2339)
  3. Киселев С.Л., Ермаков А.Е., Плешко В.В.
    Поиск фактов в тексте естественного языка на основе сетевых описаний //
    Компьютерная лингвистика и интеллектуальные технологии: труды Международной
    конференции Диалог’2004. – Москва, Наука, 2004. – C. 282-285.

Источник: http://www.rco.ru/article.asp?ob_no=2340

Standard
Управление знаниями

Что такое хорошо, а что такое плохо?

На этот вопрос поможет ответить решение компании i-teco: “Анализ тональности текста в системе «Аналитический курьер»“. Система показывает какую тональность (позитивную или негативную) несет указанная информация.

Если человеку достаточно легко сказать – что хорошо, а что нет, то ЭВМ это сделать не так просто. Система позволяет это  определить. Например, новость “В РФ построен новый завод”  система определит как положительную.

Рассмотрим более сложную задачку – берем первую попавшуюся новость с lenta.ru  и смотрим на результат:

На странице представлена упрощенная версия компонента, имеющая следующие ограничения:

· текст должен состоять только из правильно написанных предложений;

· анафорические местоимения не разрешаются;

· компонент не выделяет цитаты и ссылки на мнение лица, отличного от автора текста;

· в каждом простом предложении выделяется не более одного объекта, относительно которого определяется тональность.

Подробности, касаемые алгоритмов и тому подобного приведены на сайте.

Standard
Управление знаниями

«Ай-Теко» создала систему патентного поиска для Роспатента

http://cnews.ru/

«Ай-Теко» создала систему патентного поиска для Роспатента

Компания «Ай-Теко» сообщила о завершении проекта по расширению информационной базы и развитию системы патентного поиска PatSearch для Федеральной службы по интеллектуальной собственности, патентам и товарным знакам (Роспатент). Генеральным заказчиком системы выступило ФГУ «Федеральный институт промышленной собственности (ФГУ ФИПС, входит в состав Роспатента). Согласно условиям контракта, заключенного по итогам открытого конкурса, работы стартовали в 2008 г. и были завершены в конце 2010 г. Общая… полный текст

Источник: CNews

 

Скрин прикладываю:

 

Standard