17.2. ПРАКТИЧЕСКИЕ МЕТОДЫ ИЗВЛЕЧЕНИЯ ЗНАНИЙ
Рассмотрев в главе 16 различные аспекты извлечения знаний, мы, однако,
в явном виде не определили, каким методом эти знания получены. В неявном
виде предполагалось, что это некоторое взаимодействие инженера по знаниям
и эксперта в форме непосредственного живого общения. Однако это не единственная
форма извлечения знаний, хотя и довольно распространенная.
Изложим классификацию методов извлечения знаний (рис. 17.10) [
4], что позволит инженерам по знаниям, в зависимости от конкретной
задачи и ситуации, выбрать конкретный метод. Из предложенной схемы классификации
видно, что основной принцип деления связан с источником знаний. Коммуникативные
методы охватывают все виды контактов с живым источником знаний - экспертом,
а текстологические касаются методов извлечения знаний из документов (методик,
пособий, руководств) и специальной литературы (статей, монографий, учебников).
Разделение этих групп методов на верхнем уровне классификации не означает
их антагонистичности, обычно инженер по знаниям комбинирует различные
методы, например, сначала изучает литературу, затем беседует с экспертами,
или наоборот.
Рис.17.10. Классификация методов извлечения знаний.
В свою очередь, коммуникативные методы можно также разделить на две группы:
активные и пассивные. Пассивные методы подразумевают, что ведущая роль
в процедуре извлечения знаний как бы передается эксперту, а инженер по
знаниям только протоколирует рассуждения эксперта во время его реальной
работы по принятию решений или записывает то, что эксперт считает нужным
самостоятельно рассказать в форме лекции. В активных методах, напротив,
инициатива полностью в руках инженера по знаниям, который активно контактирует
с экспертом различными способами - в играх, диалогах, беседах за "круглым
столом" и т.д.
Пассивные методы на первый взгляд достаточно просты, но на самом деле требуют
oт инженера по знаниям умения четко анализировать "поток сознания"
эксперта и выявлять в нем значимые фрагменты знаний. Отсутствие обратной связи
(пассивность инженера по знаниям) значительно ослабляет эффективность этих методов,
чем и объясняется их обычно вспомогательная роль при активных методах.
Активные методы можно разделить на две группы в зависимости от числа
экспертов, отдающих свои знания. Если их число больше одного, то целесообразно
помимо серии индивидуальных контактов с каждым применять и методы групповых
обсуждений предметной области. Такие групповые методы обычно активизируют
мышление участников дискуссий и позволяют выявлять весьма нетривиальные
аспекты их знаний. В свою очередь, индивидуальные методы на сегодняшний
день остаются ведущими, поскольку столь деликатная процедура, как "отъем
знаний", не терпит лишних свидетелей. Отдельно следует сказать об играх. Игровые методы сейчас широко используются
и социологии, экономике, менеджменте, педагогике для подготовки руководителей,
учителей, врачей и других специалистов. Игра - это особая форма деятельности
и творчества, где человек раскрепощается и чувствует себя намного свободнее,
чем в обычной трудовой деятельности.
ПАССИВНЫЕ МЕТОДЫ
Название "пассивные" не должно вызывать иллюзий, поскольку
этот термин введен как противовес к "активным" методам. В реальности
же пассивные методы требуют от инженера по знаниям не меньшей отдачи,
чем такие активные методы, как игры и диалог. Согласно классификации (см.
рис. 17.10) к этой группе относятся:
наблюдения;
анализ протоколов "мыслей вслух";
лекции.
Наблюдения
В процессе наблюдений инженер по знаниям находится непосредственно рядом
с экспертом во время его профессиональной деятельности или имитации этой
деятельности; При подготовке к сеансу извлечения эксперту необходимо объяснить
цель наблюдений и попросить максимально комментировать свои действия. Во время сеанса аналитик записывает все действия эксперта, его реплики
и объяснения. Может быть сделана и видеозапись в реальном масштабе времени.
Непременное условие этого метода - невмешательство аналитика в работу
эксперта хотя бы на первых порах.
Существуют две разновидности проведения наблюдений:
наблюдение за реальным процессом;
наблюдение за имитацией процесса.
Обычно используют обе разновидности.
Сеансы наблюдений могут потребовать от инженера по знаниям:
овладения техникой стенографии для фиксации действий эксперта в реальном
масштабе времени;
ознакомления с методиками хронометрирования для четкого структурирования
производственного процесса по времени,
развития навыков "чтения по глазам", наблюдательности к жестам,
мимике и другим невербальным компонентам общения;
серьезного предварительного знакомства с предметной областью, так как
из-за отсутствия "обратной связи" иногда многое непонятно в
действиях экспертов. Протоколы наблюдений после сеансов в ходе домашней
работы тщательно расшифровываются, а затем обсуждаются с экспертом. Таким
образом, наблюдения - один из наиболее распространенных методов извлечения
знаний на начальных этапах разработки. Обычно он применяется не самостоятельно,
а в совокупности с другими методами.
Анализ протоколов "мыслей вслух"
Протоколирование "мыслей вслух" отличается от наблюдений тем, что
эксперта просят не просто прокомментировать свои действия и решения, но
и объяснить, как это решение было найдено, т.е. продемонстрировать всю
цепочку своих рассуждений. Во время рассуждения эксперта все его слова
протоколируются инженером по знаниям: при этом полезно отмечать даже паузы
и междометия. Вопрос об использовании для этой цели магнитофонов и диктофонов
является дискуссионным, поскольку магнитофон иногда действует на эксперта
парализующе, разрушая атмосферу доверительности, которая может и должна
возникать при непосредственном общении.
Основной трудностью при протоколировании "мыслей вслух" является
принципиальная сложность для любого человека объяснить, как он думает.
При этом существуют экспериментальные психологические доказательства,
что люди не всегда в состоянии достоверно описать мыслительные процессы.
Кроме того, часть знаний, хранящихся в невербальной форме (например, различные
процедурные знания типа "как завязывать шнурки"), вообще слабо
коррелируют с их словесным описанием.
Автор теории фреймов М.Минский считает, что "только как исключение, а
не как правило человек может объяснить то, что он думает"
Расшифровка полученных протоколов производится инженером по знаниям самостоятельно
с коррекциями на следующих сеансах извлечения знаний. Удачно проведенное
протоколирование "мыслей вслух" является одним из наиболее эффективных
методов извлечения, поскольку в нем эксперт может проявить себя максимально
ярко, он ничем не скован, он как бы свободно парит в потоке своих умозаключений
и рассуждений. Для большого числа экспертов это самый приятный и лестный
способ извлечения знаний.
Лекции
Лекция - самый старый способ передачи знаний. Лекторское искусство издревле
высоко ценилось во всех областях науки и культуры. Но нас интересует не
столько способность к подготовке и чтению лекций, сколько способность
эту лекцию слушать, конспектировать и усваивать. Уже говорилось, что экспертов
чаще всего не выбирают, и поэтому инженер по знаниям учить эксперта чтению
лекций не сможет. Но если у эксперта опыт преподавателя (например, профессора
клиники или опытного руководителя производства), то можно воспользоваться
таким концентрированным фрагментом знаний, как лекция.
В лекции эксперту предоставлено много степеней свободы для самовыражения; при
этом необходимо сформулировать эксперту тему и задачу лекции. При такой
постановке опытный лектор может заранее структурировать свои знания, ход
рассуждении. От инженера по знаниям в этой ситуации требуется лишь грамотно
законспектировать лекцию и в конце задать необходимые вопросы.
Продолжительность лекции стандартная - от 40 до 50 мин и через 5-10 мин
- еще столько же. Курс - от двух до пяти лекций.
Метод извлечения знаний в форме лекций, как и все пассивные методы, используют
в начале разработки как эффективный способ быстрого погружения инженера по знаниям
в предметную область.
В заключение несколько советов, как слушать лекции [ 15]:
к лекции подготовьтесь, т.е. познакомьтесь с предметной областью;
слушайте с максимальным вниманием. Для этого: устраните мешающие факторы
(скрип двери, шорохи и т.д.); удобно устройтесь; поменьше двигайтесь;
учитесь отдыхать во время слушания (например, когда лектор приводит цифры,
которые найдете в справочнике);
слушайте одновременно и лектора, и самого себя (параллельно рассуждениям
лектора по ассоциации возникают и собственные мысли);
слушайте и одновременно записывайте, но записывайте текст сокращенно, используя
условные значки (для всего этого достаточно только установить для себя
ряд условных значков и ими неизменно пользоваться);
расшифруйте записи лекции в тот же день;
не спорьте с лектором во время слушания.
АКТИВНЫЕ МЕТОДЫ
Активные индивидуальные методы
Активные групповые методы
Активные индивидуальные методы
Активные индивидуальные методы извлечения знаний на сегодняшний день-наиболее
распространенные. В той или иной степени к ним прибегают при разработке практически
любой экспертной системы.
К основным активным методам можно отнести:
анкетирование;
интервью;
свободный диалог;
игры с экспертом.
В этих методах активную функцию выполняет инженер по знаниям, который пишет
сценарий и режиссирует сеансы извлечения знаний. Игры с экспертом существенно
отличаются от других методов. Три оставшихся метода очень схожи между
собой и отличаются лишь по степени свободы, которую может себе позволить
инженер по знаниям при проведении сеансов извлечения знаний.
Анкетирование - наиболее жесткий
метод, т.е. наиболее стандартизованный. Инженер по знаниям заранее составляет
вопросник или анкету, размножает ее и использует для опроса нескольких
экспертов. Это основное преимущество анкетирования.
Сама процедура может проводиться двумя способами:
аналитик вслух задает вопросы, и сам заполняет анкету по ответам эксперта;
эксперт самостоятельно заполняет анкету после предварительного инструктирования.
Выбор способа зависит от конкретных условий. Второй способ нам кажется предпочтительнее,
так как у эксперта появляется неограниченное время на обдумывание ответов.
Вопросник (анкета) заслуживает отдельного разговора. Существует несколько общих
рекомендаций при составлении анкет. Эти рекомендации универсальны, т.е.
не зависят от предметной области. Наибольший опыт работы с анкетами накоплен
в социологии и психологии, поэтому часть рекомендаций заимствована из
[ 11, 13 ].
Во-первых, анкета не должна быть монотонной и однообразной, т.е. вызывать
скуку или усталость. Это достигается вариациями вопросов, сменой тематики,
вставкой вопросов-шуток и игровых вопросов. Во-вторых, анкета должна быть
приспособлена к языку экспертов. В-третьих, следует учитывать, что вопросы
влияют друг на друга, и поэтому последовательность вопросов должна быть
строго продумана. В-четвертых, желательно стремиться к оптимальной избыточности.
Известно, что в анкете всегда много лишних вопросов, часть из них необходима
- это так называемые контрольные вопросы, а другую часть нужно минимизировать.
И, наконец, в-пятых, у анкеты должны быть "хорошие мане╜ры",
т.е. ее язык ясен, понятен, предельно вежлив. Методическим мастерством
составления анкеты овладевают только на практике.
Под интервью понимаем
специфическую форму общения инженера по знаниям и эксперта, в которой
инженер по знаниям задает эксперту серию заранее подготовленных вопросов
с целью извлечения знаний о предметной области. Наибольший опыт в проведении
интервью накоплен также в журналистике и социологии [
11 , 13 ,
20 ].
Интервью очень близко к анкетированию, когда аналитик сам заполняет анкету,
занося туда ответы эксперта. Основное отличие в том, что интервью позволяет
аналитику опускать ряд вопросов в зависимости от ситуации, вставлять новые
вопросы в анкету, изменять темп, разнообразить ситуацию общения. Кроме
того, у аналитика появляется возможность "взять в плен" эксперта
своим обаянием, заинтересовать его самой процедурой и тем самым увеличить
эффективность сеанса извлечения.
Теперь подробнее о центральном звене активных индивидуальных методов
- о вопросах. Инженеры по знаниям редко задумываются: умеют ли они задавать
вопросы? В философии и математике эта проблема обсуждается с давних пор.
Существует даже специальная ветвь математической логики - логика вопросов.
Укажем три основные характеристики вопросов [ 20 ], которые влияют на качество
интервью:
стиль вопроса (понятность, лаконичность, терминология);
порядок вопросов (логическая последовательность и немонотонность);
уместность вопросов (этика, вежливость).
Вопрос в интервью - это не просто средство общения, но и способ передачи
мыслей и позиции аналитика. Отсюда необходимость фиксировать в протоколах
не только ответы, но и вопросы, предварительно отработав их форму и содержание.
Очевидно, что любой вопрос имеет смысл только в контексте. Поэтому вопросы
может готовить инженер по знаниям, уже овладевший ключевым набором знаний.
Вопросы для эксперта имеют диагностическое значение - несколько откровенно
"глупых" вопросов полностью разочаруют эксперта и отобьют у
него охоту к дальнейшему сотрудничеству.
Свободный диалог
- это метод извлечения знаний в форме беседы инженера по знаниям и эксперта,
в которой нет жестко регламентированного плана и вопросника.
Это определение не означает, что к свободному диалогу не надо готовиться.
Напротив, внешне свободная и легкая форма этого метода требует высочайшей
профессиональной и психологической подготовки. Подготовка к свободному
диалогу практически может совпадать с предлагаемой в [
20 ] подготовкой к журналистскому интервью. (Рис.17.11) графически
иллюстрирует схему такой подготовки, дополненную в связи со спецификой
инженерии знаний.
Квалифицированная подготовка к диалогу помогает аналитику стать истинным
драматургом или сценаристом будущих сеансов, т.е. запланировать гладкое
течение процедуры извлечения - от приятного впечатления в начале беседы
к профессиональному контакту, - пробудив интерес и завоевав доверие эксперта.
Для обеспечения желания эксперта продолжить беседу необходимо проводить
"поглаживания" (терминология [Берн, 88]), т.е. подбадривать
эксперта и подтверждать всячески его уверенность в собственной компетентности.
Рис. 17.11. Схема подготовки к интервью и свободному диалогу
Так, в одном из исследований по технике журналистских диалогов экспериментально
доказано, что одобрительное и поощрительное "хмыканье" интервьюера
увеличивает длину ответов респондента. Чтобы разговорить собеседника, аналитику
следует рассказать о себе, о работе, т.е. поговорить самому.
В свободном диалоге важно выбрать правильный темп или ритм беседы: без больших
пауз, так как эксперт может отвлечься, но и "без гонки", иначе быстро
утомляются оба участника и нарастает напряженность; кроме того, некоторые люди
говорят и думают очень медленно. Умение чередовать разные темпы; напряжение
и разрядку существенно влияет на результат беседы.
Подготовка к диалогу так же, как и к другим активным методам извлечения знаний,
включает план сеанса извлечения, в котором необходимо предусмотреть следующие
стадии:
начало беседы (знакомство, создание у эксперта "образа" аналитика,
объяснение целей и задач работы);
диалог по извлечению знаний;
заключительная стадия (благодарность эксперту, подведение итогов, договор
о последующих встречах).
Активные групповые методы
К групповым методам извлечения знаний относятся:
ролевые игры;
дискуссии за круглым столом с участием нескольких экспертов;
мозговой штурм.
Основное достоинство групповых методов - это возможность одновременного
поглощения знаний от нескольких экспертов, взаимодействие которых вносит
элемент принципиальной новизны от наложения разных взглядов и позиций.
Метод круглого стола
(термин заимствован из журналистики) предусматривает обсуждение какой-либо
проблемы из выбранной предметной области, в котором принимают участие
с равными правами несколько экспертов. Обычно вначале участники высказываются
в определенном порядке, а затем переходят к живой свободной дискуссии.
Число участников дискуссии колеблется от трех до пяти-семи. Существует
и специфика, связанная с поведением человека в группе.
Во-первых, от инженера по знаниям подготовка круглого стола потребует дополнительных
усилий, как организационных (место, время, обстановка, минеральная вода,
чай, кворум и т.д.), так и психологических (умение вставлять уместные
реплики, чувство юмора, память на имена и отчества, способность гасить
конфликтные ситуации и т.д.).
Во-вторых, большинство участников будут говорить под воздействием "эффекта
фасада" совсем не то, что они сказали бы в другой обстановке, т.е.
желание произвести впечатление на других экспертов будет существенно "подсвечивать"
их высказывания.
Задача дискуссии - коллективно, с разных точек зрения, под разными углами
исследовать спорные гипотезы предметной области. Обычно эмпирические области
богаты таким дискуссионным материалом. Для остроты на круглый стол приглашают
представителей разных научных направлений и разных поколений, это также
уменьшает опасность получения односторонних знаний.
Несколько практических советов по процедурным вопросам круглого стола перед
началом дискуссии ведущему следует:
убедиться, что все правильно понимают задачу (т.е. происходит сеанс извлечения
знаний);
установить регламент и четко сформулировать тему.
По ходу дискуссии проследить, чтобы слишком эмоциональные и разговорчивые эксперты
не подменили тему и критика позиций друг друга была обоснованной.
Мозговой штурм или
мозговая атака - один из наиболее распространенных
методов раскрепощения и активизации творческого мышления. Впервые этот
метод был использован в США как способ получения новых идей в условиях
запрещения критики. Замечено, что боязнь критики мешает творческому мышлению,
поэтому основная идея штурма - это отделение процедуры генерирования идей
в замкнутой группе специалистов от процесса анализа и оценки высказанных
идей.
Как правило, штурм длится около 40 мин. Участникам (до 10 человек) предлагается
высказывать любые идеи (шутливые, фантастические, ошибочные) на заданную
тему (критика запрещена). Обычно высказывается более 50 идей. Регламент
до двух минут на выступление. Самый интересный момент штурма - это наступление
пика (ажиотажа), когда идеи начинают "фонтанировать",т.е. происходит
непроизвольная (бессознательная) генерация гипотез участниками. При последующем
анализе всего лишь 10 - 15% идей оказываются разумными, но среди них бывают
весьма оригинальные. Оценивает результаты обычно группа экспертов, не
участвовавшая в генерации.
Ведущий мозгового штурма - инженер по знаниям - должен свободно владеть
аудиторией, подобрать активную группу экспертов - "генераторов",
не зажимать плохие идеи - они могут служить катализатором хороших. Искусство
ведущего - это искусство задавать вопросы аудитории, "подогревая"
генерацию. Вопросы служат "крючком"[ 19 ], которым извлекаются
идеи. Вопросы также могут останавливать многословных экспертов и служить
способом развития идей других.
Основной девиз штурма - "чем больше идей, тем лучше". Фиксация
сеанса - традиционная (протокол или магнитофон).
ЭКСПЕРТНЫЕ ИГРЫ
Общие сведения
Игрой называют такой вид
деятельности, который отражает (воссоздает) другие ее виды [7]. Понятие
экспертной игры, или игры с экспертами, в целях извлечения
знаний восходит к трем источникам - это понятие деловой игры, широко используемое
при подготовке специалистов и моделировании, и понятие диагностической
игры, введенной в [ 1 ], а также компьютерные
игры, все чаще применяемые в обучении [ 11 ].
Под деловой игрой чаще всего понимают эксперимент, где участникам предлагается
производственная ситуация, а они на основе своего жизненного опыта, общих
и специальных знаний и представлений принимают решения. Решения анализируются,
и вскрываются закономерности мышления участников эксперимента. Именно
эта анализирующая часть деловой игры полезна для получения знаний. И если
участниками такой игры становятся эксперты, то игра из деловой превращается
в экспертную. Из трех основных типов деловых игр (учебных, планово-производственных
и исследовательских) к экспертным ближе всего исследовательские, которые
используются для анализа систем, проверки правил принятия решений.
Диагностическая игра - это та же деловая игра, но применяемая
конкретно для диагностики методов принятия решения в медицине (диагностика
методов диагностики). Эти игры возникли при исследовании способов передачи
опыта от квалифицированных врачей новичкам. В нашем понимании диагностическая
игра - это игра, безусловно, экспертная без всяких оговорок, только с
жестко закрепленной предметной областью - медициной.
В соответствии с введенной классификацией разделим экспертные игры на:
индивидуальные;
групповые.
Кроме того (рис. 17.12), продолжим и разовьем эту классификацию, введя другие
критерии:
использование специального оборудования;
применение компьютерной техники.
Плодотворность моделирования реальных ситуаций в играх подтверждается сегодня
практически во всех областях науки и техники. Они развивают логическое
мышление, способности быстро принимать решения, вызывают интерес у экспертов.
Индивидуальные игры с экспертом
В этом случае с экспертом играет инженер по знаниям, который берет на
себя какую-нибудь роль в моделируемой ситуации. Например, игра "Учитель
и ученик", в которой инженер по знаниям берет на себя роль ученика
и на глазах эксперта выполняет его работу, а эксперт поправляет ошибки
"ученика". Эта игра - удобный способ разговорить застенчивого
эксперта.
В другой игре (описана в [ 1 ]) инженер
по знаниям берет на себя роль врача, который хорошо знает больного, а
эксперт - роль консультанта. Консультант задает вопросы, делает прогноз
о целесообразности применения того или иного вида лечения. Такая игра
"двух врачей" позволила, например, выявить, что эксперту понадобилось
всего 30 вопросов для успешного прогноза, в то время как первоначальный
вопросник, составленный медиками для этой же цели, содержал 170.
Основные советы инженеру по знаниям по проведению индивидуальных игр:
играйте смелее, придумывайте игры сами; не навязывайте игру эксперту, если
он не расположен; в игре "не давите" на эксперта;
не забывайте цели игры; играйте весело, нешаблонно; не забывайте о времени
и о том, что игра утомительна для эксперта.
Рис.17.12. Классификация экспертных игр
Ролевые игры в группе
Групповые игры предусматривают участие в игре нескольких экспертов. К
такой игре обычно заранее составляется сценарий, распределяются роли,
к каждой роли готовится портрет-описание и разрабатывается система оценивания
игроков.
Существует несколько способов проведения ролевых игр. В одних играх игроки
придумывают себе новые имена и играют под ними; в других - игроки переходят
на "ты"; в третьих роли выбирают игроки, в четвертых роли вытягивают
по жребию. Роль - это комплекс образцов поведения. Роль связана с другими
ролями. "Короля играет свита". Поскольку в нашем случае режиссером
и сценаристом является инженер по знаниям, то ему и предоставляется полная
свобода в выборе формы проведения игры.
Создание игровой обстановки потребует немало фантазии и творческой выдумки
от инженера по знаниям. Ролевая игра, как правило, требует некоторых простейших
заготовок (например, табличек "Директор", "Бухгалтерия",
"Плановый отдел", специально напечатанных инструкций с правилами
игры). Но главное, конечно, чтобы эксперты в игре действительно "заиграли",
раскрепостились и "раскрыли свои карты".
Игры с тренажерами
Игры с тренажерами в значительной степени ближе не к играм, а к имитационным
упражнениям в ситуации, приближенной к действительности.
Наличие тренажера позволяет воссоздать почти производственную ситуацию и понаблюдать
за экспертом. Тренажеры широко применяют для обучения (например, летчиков
или операторов атомных станций). Очевидно, что применение тренажеров для
извлечения знаний позволит зафиксировать фрагменты "летучих"
знаний, возникающих во время и на месте реальных ситуаций и выпадающих
из памяти при выходе за пределы ситуации.
Компьютерные экспертные игры
Идея использовать компьютеры в деловых играх известна давно. Но только
когда компьютерные игры взяли в плен практически всех пользователей персональных
ЭВМ от мала до велика, стала очевидной особая притягательность игр такого
рода. Компьютерные игры обычно разделяют на [ 12 ]:
позиционные игры (шахматы, шашки, го);
динамические игры (связанные со скоростью реакции - стрельба по движущейся
мишени);
зрелищные или диалоговые фильмы, где пользователь может влиять на сюжет;
обучающие, в которых пользователь, играя, осваивает какие-то навыки или
узнает что-то новое для себя.
Очевидно, что экспертные игры должны сочетать элементы перечисленных выше
классов.
Одна из первых отечественных экспертных компьютерных игр описана в [
5 ]. Основной принцип игры "Зоосад"
состоит в создании игровой ситуации при организации диалога с экспертом.
При этом задача извлечения знаний маскируется нацеленностью на решение
чисто игровой задачи: необходимо определить содержимое "черного ящика",
в котором находится некое животное, при этом надо набрать наибольшее количество
очков, не истратив выделенного ресурса денег. В ходе игры эксперт делает
ставки на различные гипотезы, указывая при этом, какими признаками обладает
то или иное животное. После каждого ответа он получает необходимую информацию
о своих результатах. По ходу игры невидимо для эксперта формируются правила,
отражающие знания эксперта на основании сделанных им ходов. В данной игре
- это знания о том, какими признаками обладают те или иные живот╜ные.
Таким образом выявляется алфавит значимых признаков для диагностики и
классификации животных.
ТЕКСТОЛОГИЧЕСКИЕ МЕТОДЫ
Группа текстологических
методов объединяет методы извлечения знаний, основанные на изучении
специальных текстов из учебников, монографий, статей, методик и других
носителей профессиональных знаний.
Задачу извлечения знаний из текстов можно сформулировать как задачу понимания
и выделения смысла текста. Сам текст на естественном языке является лишь
проводником смысла, а замысел и знания автора лежат во вторичной структуре
(смысловой структуре или макроструктуре текста), настраиваемой над естественным
текстом [ 3 ].
При этом можно выделить две такие смысловые структуры: M1 смысл, который
пытался заложить автор, это его модель мира, и М2 смысл, который постигает
читатель, в данном случае инженер по знаниям (рис. 17.13) в процессе интерпретации
I. При этом Т - это словесное одеяние М1, т.е. результат вербализации
V.
Сложность процесса заключается в принципиальной невозможности совпадения
знаний, образующих М1 и M2, из-за того, что М1 образуется за счет совокупности
представлений, потребностей, интересов и опыта автора, лишь малая часть
которых находит отражение в тексте Т. Соответственно и М2 образуется в
процессе интерпретации текста Т за счет привлечения всей совокупности
научного и человеческого багажа читателя.
Рис. 17.13. Извлечение знаний из текстов
Встает задача выяснить, за счет чего можно достичь максимальной адекватности
М1 и М2, помня о том, что понимание всегда относительно. Рассмотрим подробнее,
какие источники питают модель М1 и создают текст Т. В [
17 ] указаны два компонента любого научного текста. Это первичный
материал наблюдений и система научных понятий в момент создания текста.
В дополнение к этому, на наш взгляд, помимо объективных данных экспериментов
и наблюдений, в тексте обязательно присутствуют субъективные взгляды автора,
результат его личного опыта, а также некоторые "общие места",
или "вода". Кроме того, любой научный текст содержит заимствования
из других источников (статей, монографий) и.т.д.
При извлечении знаний аналитику, интерпретирующему текст, приходится
решать задачу декомпозиции этого текста на перечисленные выше компоненты
для выделения истинно значимых для реализации базы знаний фрагментов.
Сложность интерпретации научных и специальных текстов заключается еще
и в том, что любой текст приобретает смысл только в контексте, где под
контекстом понимается окружение, в которое "погружен" текст.
Основными моментами понимания текста являются (частично из [ 17 ] ):
выдвижение предварительной гипотезы о смысле всего текста (предугадывание);
определение значения непонятных слов (т.е. специальной терминологии);
возникновение общей гипотезы о содержании текста (о знаниях);
уточнение значения терминов и интерпретация отдельных фрагментов текста под
влиянием общей гипотезы (от целого к частям);
формирование некоторой смысловой структуры текста за счет установления внутренних
связей между отдельными важными (ключевыми) словами и фрагментами, а также
за счет образования абстрактных понятий, обобщающих конкретные фрагменты
знаний;
корректировка общей гипотезы относительно содержащихся в тексте фрагментов
знаний (от частей к целому);
принятие основной гипотезы, т.е. формирование М2.
Следует отметить наличие как дедуктивной (от целого к частям), так и индуктивной
(от частей к целому) составляющей процесса понимания.
Центральными моментами процесса I являются шаги формирования смысловой
структуры или выделения "опорных", или ключевых, слов, а также
заключительное охватывание "смысловых вех" в единую семантическую
структуру. В качестве ключевого слова может служить любая часть речи (существительное,
прилагательное, глагол и т.д.) или их сочетание. Существует гипотеза лингвостатистики
о том, что наиболее употребляемые слова являются наиболее важными с точки
зрения содержания текста, т.е. отражают его тематическую структуру.
Подготовкой к прочтению специальных текстов является выбор совместно
с экспертами некоторого "базового" списка литературы, который
постепенно введет аналитика в предметную область. В этом списке могут
быть учебники для начинающих, главы и фрагменты из монографий, популярные
издания. Только после ознакомления с "базовым" списком целесообразно
приступать к чтению специальных текстов.
Наиболее простым методом является анализ учебников, в которых логика
изложения обычно соответствует логике предмета, и поэтому макроструктура
такого текста будет, наверное, более значима, чем структура текста какой-нибудь
специальной статьи. Анализ методик затруднен как раз сжатостью изложения
и практическим отсутствием комментариев, т.е. фоновых знаний, облегчающих
понимание для неспециалистов. Поэтому можно рекомендовать для практической
работы комбинацию перечисленных методов.
В заключение предложим одну из возможных практических методик анализа текстов
с целью извлечения и структурирования знаний.
Составление "базового" списка литературы для ознакомления с предметной
областью и чтения по списку.
Выбор текста для извлечения знаний.
Первое знакомство с текстом (беглое прочтение). Для определения значения
незнакомых слов - консультации со специалистами или привлечение справочной
литературы.
Формирование первой гипотезы о структуре текста.
Внимательное прочтение текста с выписыванием ключевых слов и выражений,
т.е. выделение "смысловых вех" (компрессия текста).
Определение связей между ключевыми словами, разработка макроструктуры текста
в форме графа или "сжатого" текста (реферата).
Формирование поля знаний на основании структуры текста. |