Управление знаниями

Извлечение данных

Решил получить базовую экспертизу в области data mining, со мной поделились замечательной работой на эту тему А.К. Скуратова, а я , в свою очередь, поделюсь с вами краткой выжимкой (учитывая, что самой работой я обещал вообще ни с кем не делиться). Итак,если посмотреть технологии, то к задачам обработки неструктурированной информации относятся:

  • Глубинный анализ текста (Text mining). К основным процедурам ТМ относятся: суммаризация (summarization), выделение феноменов, понятий (feature extraction), кластеризация (clustering), классификация (classification), ответ на запросы (question answering), тематическое индексирование (thematic indexing) и поиск по ключевым словам (keyword searching). Также в некоторых случаях набор дополняют средства поддержки и создания таксономии (oftaxonomies) и тезаурусов (thesauri). То есть, если мы имеем некий набор документов, то мы можем выделить общие сущности, получить навигационный механизм для исследования документов и т.п.
  • Управление содержанием и знаниями (Content and Knowledge Management): классификация информации и документов, автоматизация процессов обработки, организация и классификация документов по папкам, организация единой точки доступа к документам, поиск документов по атрибутике и содержанию.
  • Управление документами (Document Management). Хранение документов на основании модели.
  • Поиск и категоризация документов (Document Search and Categorization). Здесь вообще всё должно быть понятно. Примером системы, использующей данную технологию (+ управление документами) отчасти может быть электронная библиотека, особенно если она распределена между несколькими вузами, например ehd.mgimo.ru

Очевидные проблемы – высокая ресурсоемкость операций, распределенность данных, а также потребность в имитационном моделировании. Для решения этих проблем используется параллельное вычисление (например – многоядерные процессоры), так как я не являюсь архитектором, то и углубляться в данную тематику здесь не буду. Про СУБД я также не буду распространяться, но про DB2 следует узнать несколько больше… Инструменты извлечения данных весьма стандартны, а вот о средствах доведения информации до потребителей я немного расскажу, ведь программы создаются для получения пользователем определенного результата. Результат может быть получен при помощи следующих систем:

  • ERP-системы (Enterprise Resource Planning), осуществляющие тотальную интегрированную поддержку управления производственным или эксплуатационным предприятием.
  • CALS-системы (Continuous Acquisition and Life Cycle Support) — поддержка жизненного цикла программных комплексов.
  • CIM-системы (Computer Integrated Manufacturing) — компьютерное управление производством.
  • PDM-системы (Project Data Management) — управление проектами;
  • системы управления документами и электронными архивами (СУД).
  • системы управления деловыми (бизнес-) процессами (workflow).
  • и т.д.

Выделим же ещё экпертный и интеллектуальные системы, в чем же их особенности?

  • Экспертные системы строятся на  основе статической базы знаний, сформированной стандартными методами инженерии знаний, например, путем работы с экспертами. В настоящее время существует достаточно обширный инструментарий автоматизации создания экспертных систем, из которого наиболее известен, пожалуй, пакет GENSYM (http://www.gensym.com/). Традиционными потребителями экспертных систем являются области знания, слабо обеспеченные формальным математическим аппаратом, например, разделы медицины, в которых постановка диагноза сильно связана с субъективными ощущениями больного.
  • Интеллектуальные системы отличаются от экспертных тем, что, помимо статической базы, они обладают еще и динамической базой знаний, модифицирующейся по мере поступления в систему новой информации. Фактически, в интеллектуальной системе предусмотрена возможность самообучения.

Почему я о них упомянул? Именно потому, что в них обрабатываются огромные массивы данных, из которых выделяются необходимые для анализа сущности. Кроме того, требования к времени обработки/получению данных могут быть жестко задано, например, если речь идёт об управлению полетами и т.п. И чем “умнее и быстрее” будет данная система, тем меньше будет участие “человеческого фактора”. Не забудем ещё и про систему логического вывода, выводящей прогнозы и рекомендации на основании базы знаний и текущих данных, производя идентификацию ситуации. Итого, описанные системы решают следующие задачи:

  • Получение справочной (описательной) информации для поддержки принятия решения.
  • Анализ степени достоверности предоставляемой информации.
  • Исследование возможного развития событий (анализ «если-то»).
  • Обратная «прокрутка» логического вывода с целью отсечения альтернатив.
  • Уточнение (адаптация) базы знаний системы с использованием текущей информации.

Само собой, к этому можно вполне и графику прикрутить, из самого простого, что пришло на ум – highcharts.com. Само собой – это самые простенькие графики, гораздо интереснее системы CAD/CAM/CAE, а если говорить о подходах, то они будут следующими:

  • Ландшафт данных (Map) представляет собой графический интерфейс, отображающий данные в виде трехмерного ландшафта произвольно определенных и позиционированных форм — столбчатых диаграмм, каждая с индивидуальными высотой и цветом. Это позволяет наглядно отображать интенсивность и взаимосвязи между данными и быстро идентифицировать в них тенденции и выбросы.
  • Диаграммы рассеяния (Scatter plots). Для данных с размерностью больше 3 к обычной 3D-системе координат, в которой задаются исходные переменные, добавляется два дополнительных измерения. Они отображают размер и цвет элементов данных. Дополнительно вводятся динамические измерения, которые позволяют прокручивать многомерные данные, показывая изменчивость одних переменных при фиксации остальных.
  • Древовидные структуры (Tree plot). Информация организуется иерархически (по связям в виде дерева) и изображается в виде трехмерного ландшафта с возможностью динамического движения в этом пространстве, что позволяет вести обзор всего множества данных или его части. Количественные характеристики данных отражены также в форме и цвете узлов. Такой способ визуализации весьма эффективен для представления деревьев решений.
  • Диаграммы правил (Rule plot) рассматриваются как специфическое средство графического представления результатов процедуры анализа ассоциаций. Анализируя визуально эти результаты — правила с сущностями в их левой и правой частях, пользователь может глубже проникнуть в природу специфического набора данных, отмечая наиболее значимые связи.
  • Диаграммы свидетельств (Evidence plots) предназначаются для оценки качества классификации. Они позволяют визуально оценить меру сходства-различия элементов классов и осознать, какие именно характеристики влияют на ее структуру.
  • Лица Чернова (Chernov faces) являются классическим средством когнитивного представления многомерных данных. Многомерному вектору данных сопоставляется стилизованное изображение лица человека, интенсивность черт которого пропорциональна компонентам вектора, а их расположение — связям между ними. Лица Чернова служат не только для распознавания, но и для шкалирования многомерных данных, ранжируя их в соответствии с «настроением» лица.
  • Лучевые диаграммы (Star diagram) сворачивают многомерный вектор данных на циклическую траекторию; интенсивность удаления от центра соответствует величине компонента вектора. Лучевые диаграммы наиболее важны для описания взаимосвязей между элементами, которые пропорциональны телесным углам между лучами из центра.

Если что, то программные продукты я могу предоставить по запросу. Тем более, что они не столь любопытны, как системы “Виртуальной реальности” (эти сисемы интерактивные, понятнее будет ниже), они могут быть реализованы по одной из следующих технологий:

  • Кабинные симуляторы (cab simulators), порожденные автомобильными, морскими и авиационными тренажерами, в которых пользователь садится в кабину и видит перед собой в окне дисплей компьютера, на котором изображены некие ландшафты.
  • Системы искусственной реальности (artificial, projected reality), в которых пользователи видят реальные видеозаписи друг друга, встроенные в виртуальное пространство трехмерных образов. Эти системы не требуют головных дисплеев и могут успешно использоваться для неквалифицированных пользователей. Идея совмещения видео и компьютерной графики в реальном времени породила, в частности, технологию виртуальных студий, при которой изображение на экране телевизора в реальном времени складывается из видеозаписей участников передачи (реально находящихся в пустой студии) и трехмерных миров, которые компьютер генерирует и соединяет с этой видеозаписью.
  • Системы «расширенной» реальности (augmented reality), в которых изображение на экране головного дисплея прозрачно, так что пользователь видит одновременно и свое реальное окружение, и виртуальные объекты, генерируемые компьютером на экране.
  • Системы телеприсутствия (telepresence) используют видеокамеры и микрофоны для погружения в виртуальное окружение пользователя. К ним в основном относятся системы управления удаленными динамическими объектами или консалтинговые системы, применяемые, например, при дистанционном проведении хирургических операций [Телемедицина, 1998].
  • Настольные ВР-системы (desktop VR) обеспечивают эффект погружения за счет проецирования изображения на большую площадь с помощью специальных проекторов. В основном они применяются для бизнес-презентаций и создания ситуационных комнат.
  • Визуально согласованный дисплей (visually coupled display) размещается прямо перед глазами пользователя и изменяет картинку согласно движениям его головы. Он снабжен стереофоническими наушниками и системой отслеживания направления взгляда и фокусирует изображение, на которое направлено внимание пользователя.

Собственно, вот и хватит, разве что скажу, что в РФ с данными технологиями работают как минимум IBS, I-teco (http://www.osp.ru/os/2011/05/13009439/ и т.д.).

Advertisements
Standard

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s