Тезаурус как модель парадигматической семантики Тезаурус моделирует парадигматическую структуру содержательного плана языка, организуя лексическое значение через семантические отношения. Он служит основным инструментом для представления того, как значения естественного языка группируются и противопоставляются друг другу. Основное внимание по-прежнему уделяется парадигматическим, а не синтагматическим отношениям.
Три смысла понятия “тезаурус” и основное внимание здесь уделяется Этот термин имеет три значения: максимально полный словарь языка, лексическая классификация, основанная на понятиях, и модифицированные версии этой классификации. Первое значение редко встречается в живых языках из-за недостижимой полноты. Обсуждение сосредоточено на втором значении и его практических вариантах.
Исчерпывающий тезаурус для мертвых языков Существуют полные тезаурусы для мертвых языков, корпус которых ограничен. В электронном тезаурусе Linguae Aegyptiae перечислены все подтвержденные египетские слова с переводом на английский. Thesaurus Linguae Latinae - это пояснительный реестр всех латинских слов вплоть до 600 года н.э., включая надписи и другие памятники. Такие ресурсы, по сути, представляют собой полные двуязычные или толковые словари.
Концептуальный прототип компании Roget Тезаурус Роже (1852) установил модель организации слов в соответствии с концептуальной иерархией. Лексикон классифицируется по идеям, а не по алфавиту или определениям. Этот дизайн стал стандартом для концептуальных тезаурусов.
Шесть классов верхнего уровня и иерархическая детализация Верхний уровень включает абстрактные отношения, Пространство, Материю, Разум, Волю и Чувства/Мораль. Каждый класс подразделяется, как и Пространство, на Пространство в целом, Измерение, Форму и Движение. Иерархия включает примерно тысячу тематических групп. Каждая группа возглавляется репрезентативным словом, которое наилучшим образом отражает рассматриваемую концепцию. Слово может прослеживать несколько восходящих путей в иерархии.
Тематические группы как семантические поля и соглашения об именовании Каждая тематическая группа очерчивает концептуальное поле, обозначенное его наиболее типичным лексическим представителем. Такие тезаурусы также называются идеологическими, идиографическими или концептуальными словарями. Здесь “идеологический” происходит от идеи (концепта), а не от социально-политической идеологии. Ресурс функционирует как система семантических полей для данного языка.
Направленность: семасиология против ономасиологии И тезаурусы, и толковые словари связывают означающее с означаемым, но они различаются по направленности. Толковые словари идут от словоформы к значению (семасиологические), что способствует пониманию. Тезаурусы идут от понятия к выражению (ономасиологические), что способствует выражению. Первая нацелена на переводчика, вторая - на продюсера.
Инструмент для создания текста и стилистического выбора Роже явно нацелен на выражение идей и написание композиций. Для создания языка тезаурус поддерживает выбор слов, которые соответствуют коммуникативному замыслу. В повседневной письменной речи он помогает заменить повторяющиеся слова почти синонимами, соответствующими предполагаемому смыслу.
Алфавитный указатель и многопрофильное членство Алфавитный указатель сопоставляет каждое слово с цифровыми адресами тематических групп. Если следовать за адресом, то можно найти семантически близкие варианты для точного выражения. Слово может быть отнесено к нескольким группам из-за многозначности, омонимии или общих компонентов, выявленных с помощью компонентного анализа. Например, "завершение" соответствует концептуальным областям времени, изменений и дискретности.
Четыре пути доступа к ресурсу Навигация осуществляется по четырем маршрутам: от понятия к понятию с помощью синоптической схемы (онтологии), от понятия к лексическим единицам в основной части, от лексической единицы к понятиям с помощью указателя и от лексической единицы к лексической единице с помощью перекрестных ссылок среди многословных выражений. Эти дополнительные элементы поддерживают как планирование, так и поиск. Онтология - это структурированная сеть понятий и отношений, лежащих в основе ресурса.
Построение синоптической схемы Единая научная картина мира недоступна, поэтому тезаурусы на общих языках сочетают научные фрагменты с повседневной концептуализацией. Специализированные области, такие как химия, могут основывать свою иерархию непосредственно на устоявшихся научных системах. Повседневная жизнь лишь частично охватывается академическими дисциплинами, а этнография предлагает ограниченный охват. Полученную схему обязательно перемешивают.
Мировоззрение, формирующее концепции высшего уровня В книге Хулио Касареса "Испанский идеологический словарь" Бог и Вселенная рассматриваются как высшие классы, отражающие культурное мировоззрение. Роже, напротив, отводит религии более низкий уровень и использует менее теологические категории высшего уровня. Организация отражает самоанализ автора и его интеллектуальную среду.
Аристотелевские категории в современной таксономии Классические категории — Субстанция, Состояние/Качество, Отношение, Количество и время — вновь всплывают в классах высокого уровня Роже. Эти концептуальные подразделения были унаследованы от древних грамматических традиций. Таксономия Роже повторяет эту линию в своей верхней структуре.
Глаголы речевого действия, распределенные по классам Речевые действия не образуют единого класса в системе Роже. Команды соотносятся с волей, утверждения - с разумом, а соболезнования - с чувствами. Распределение соответствует аспектам воли, познания и аффекта, которые связаны с каждым глаголом.
Онтологическая семантика: объекты и события Онтологии, ориентированные на приложения, такие как онтологии Ниренбурга и Раскина, делят мир на объекты и события. Речевые акты подчиняются событиям и могут быть как физическими, так и ментальными. В рамках событий речевые акты подразделяются на локутивные, иллокутивные и перлокутивные типы по мере необходимости. Такие онтологии разрабатываются и расширяются в соответствии с требованиями приложения.
Классификация глаголов речи по модели Якобсона Коммуникативная модель Якобсона предполагает наличие шести факторов — адресанта, адресатки, сообщения, контекста/референта, кода и контакта — и соответствующих языковых функций: эмотивной, волевой, поэтической, референциальной, металингвистической и фатической. Васильев распределяет глаголы речи в соответствии с тем, на какой фактор или функцию они направлены. Некоторые варианты размещения противоречат здравому смыслу, но данная схема иллюстрирует классификацию, основанную на теории. Лингвистические теории неизбежно формируют семантические иерархии.
Вывод компонентов значения из индекса Даже без определений индексные адреса показывают, какие концептуальные единицы участвуют в значении слова. Заглавные слова терминальных групп действуют как семы, составляющие это значение. Таким образом, группировка тезауруса позволяет получить перечень компонентов для каждой лексической единицы.
Выводим перефразировку слова “возникнуть”. В социально-политическом тезаурусе, построенном на основе официальных документов, слово arise относится к классам Existence/Бытие/Присутствие и Beginning. Компонентный анализ приводит к перефразировке “X начал существовать”. С точки зрения логики, слово exist выступает в качестве аргумента для предиката высшего порядка begin. Задания тезауруса и формальный пересказ совпадают.
Что в тезаурусах не говорится о структуре значения Тезаурусы объединяют компоненты, не кодируя синтаксическую доминанту, область действия или отношения аргументов. Пояснительные парафразы делают такие зависимости явными. Разница важна: компоненты перечислены, но их внутренняя структура не отражена в тезаурусе.
Различные представления тезауруса на разных ресурсах В разных тезаурусах одному и тому же слову присваиваются разные концептуальные пути и компоненты. Результаты зависят от выбранной иерархии и руководящей лингвистической или научной теории. Пользователи должны интерпретировать значения, основанные на тезаурусе, с учетом этих различий.
Этот Вопрос Ставит Взаимодействие Выше Контакта В подклассе контактов тематическая группа “вопрос” выдвигает на первый план интерактивный характер запроса. Вопрос предполагает присутствие и диалог, в отличие от монологических актов, где инициатива остается за говорящим. Лекции в основном представляют собой монологи с необязательными вопросами в конце, а журнальные статьи не допускают немедленного ответа на них. В одной модели вопрос ставится в рамках контакта, в то время как другая начинается с человека в обществе и продвигается через общение, чтобы подчеркнуть интерактивность вопроса.
Вопрошание как когнитивная операция В тезаурусе “спрашивать” фигурирует в разделе "Интеллект" → "Формирование идей" → "Предпосылки и операции", связывая вопросы с познанием. Запрос может быть направлен как на природу, так и на людей, поэтому получение знаний зависит от постановки правильного вопроса. Финский логик, анализируя Шерлока Холмса, показывает, что дедукция носит вопрошающий характер: “Почему собака не лаяла?” Этот единственный вопрос закрепляет цепочку, которая раскрывает преступление.
Иллокутивная сила вопроса как директивного В классификациях речевых актов вопрос относится к иллокуции и функционирует как указание на получение информации. Коммуникативный и интерактивный аспекты являются поверхностными, но разные тезаурусы выдвигают на первый план разные аспекты. Некоторые выделенные аспекты не являются семами — иллокуция — это теоретический уровень, - в то время как побуждение может функционировать как сема. Расположение одного и того же слова меняется, когда аспект выдвигается на передний план.
От толковых словарей к русским тезаурусам Компонентное значение слова коррелирует с его местом в тезаурусе и его интерпретацией. Русская лексикография долгое время предлагала множество толковых словарей, но не было собственного тезауруса. Первый “Идеографический словарь” О. С. Баранова появился в 1980-х годах, но оказался громоздким. Электронные тезаурусы позже стали более практичным средством доступа.
Для изменения Определений требуется Семантическая предварительная обработка Построение тезауруса путем обращения к толковым словарям требует большего, чем прямой переход от значений к формам. Определения содержат синонимию и избыточность, которые препятствуют прямому сопоставлению. Подготовительные операции должны устранить синонимию и омонимию и стандартизировать компоненты определения. Этот план послужил мотивом для проведения эксперимента по созданию тезауруса в электронном виде.
Нормализация дескриптора по Караулову В машинном фонде Института русского языка команда под руководством Караулова обработала словарь Ожегова. Все синонимы в определениях были заменены одним-единственным представителем - дескриптором. Каждый компонент был однозначно отнесен к одному понятию. Классы были собраны путем поиска общих компонентов, таких как “speak” для речевых действий.
Кластеризация компонентов и пример с матрасом Антонимы и отношения "часть–целое" были включены наряду с совпадениями компонентов. В дескрипторе “матрас” содержались семантические множители, такие как "стеганый", "пучки", "кровать", "подстилка", "сено" и "солома". Таким образом, слово “матрас” относилось к постельным принадлежностям, а также к свойствам и материалам. Один и тот же метод организовал множество доменов с помощью перекрывающихся компонентов.
Экспериментальный Семантический Словарь с Ограниченным Использованием Результатом проекта стал огромный семантический словарь русского языка. Он служит скорее памятником эксперименту, чем практическим пособием. Более поздние методы превзошли его, хотя и ознаменовали ключевой этап в создании тезауруса. Стремление автоматизировать трудоемкую ручную работу сохранилось.
Синоптическая модель мира для подбора заглавных слов Заглавные слова соответствовали краткой схеме научной картины мира и форм материи. Категории включали время, пространство, движение, развитие, свойства, отношения, энергию, силу, состояние, форму и структуру, затем разделялись на макрокосм, микрокосм и Землю. Земля разделилась на флору и фауну, свойства, процессы и условия жизни, не ограниченные частями речи. Повседневные предметы, такие как “матрас”, были отображены в соответствии с условиями жизни человека, а в описателях были указаны классы высокого уровня.
Концептуальный поиск в научных информационных системах Специализированным учреждениям нужен поиск по понятиям, а не по словоформам. Эффективный поиск требует наличия иерархий и перекрестных связей между понятиями, а не только гипернимии. Семантические корреляции, такие как терроризм и заложники, должны проявляться независимо от формулировок. Тезаурусы делают эти ссылки явными, соединяя ключевые слова текста с лежащими в его основе понятиями.
Анатомия ранних информационно-поисковых тезаурусов Синонимия была сведена к единому дескриптору, а родственные слова перечислены как синонимы. Омонимия/многозначность была разделена на пронумерованные значения (таблица 1 - мебель; таблица 2- диета). Распечатанные тезаурусы доменов содержат синонимы, гипернимы, гипонимы, части и другие ассоциативные элементы для каждого дескриптора. Записи были сгруппированы по темам, но в алфавитном порядке внутри групп, предлагая отношения вместо определений.
Экспертное Заключение В Сочетании С Лингвистическим Структурированием Эксперты в каждой области определили ключевые термины и определили точную синонимию и гипонимию; более слабые связи были названы ассоциациями. Лингвисты создали основу для семантических корреляций и классификации. Перечень отношений может быть намного богаче, чем синонимия и антонимия, и отражать специфические для предметной области закономерности. Сотрудничество было необходимо, поскольку типы отношений трудно понять без лингвистической подготовки.
Что оправдывает название Этого Тезауруса Тезаурус моделирует парадигматическую структуру языкового контента для естественных или искусственных областей. В слабом смысле он группирует единицы и отмечает несколько связей; в сильном смысле он детализирует все соответствующие отношения между единицами и классами. Помимо иерархий, он кодирует связи "часть–целое", "агент–действие" и другие актантные связи. Модели в стиле Роже являются слабыми; сильные модели удовлетворяют как группировочным, так и реляционным требованиям.
Надежный ориентир: лингвистический тезаурус Никитиной В Тезаурусе теоретической и прикладной лингвистики терминология упорядочена с помощью 29 семантических связей. Созданный в 1980-х годах, он отражает концепции того периода, но при этом остается структурно мощным. Его набор связей позволяет систематизировать термины, в том числе отсутствующие в справочнике. Это иллюстрирует сильный смысл тезауруса.
WordNet как электронный тезаурус WordNet для английского языка, созданный в Принстоне под руководством Миллера, рассматривается как тезаурус. Он начинается с частей речи — существительных, глаголов, прилагательных — и затем семантически разветвляется. Его элементами являются синтаксические наборы с глоссариями, примерами и типизированными ссылками. В результате получается сеть межсетевых связей.
Plough в WordNet: методы, домены и последствия Синсет [пахать, ворочать] содержит глоссарий и примеры употребления. Прямые тропонимы указывают на способы выполнения действия, такие как гребень и диск, а гипонимы глаголов определяются как способы выполнения действия. Доменные имена, такие как farming и agribnry, относятся к полю, в то время как till является прямым гипернимом. В прилагательных перечислены такие составляющие действия, как копание и рыхление, а производные указывают на существительные "агент" и "инструмент" без тегов "роль".
Проекты в стиле русской сети WordNet При Лукашевиче был создан российский электронный тезаурус RuTez с типами связей, аналогичными WordNet. Аналогичная работа в Санкт-Петербурге привела к созданию Рунета, который частично доступен. Эти ресурсы существуют и могут быть использованы на русском языке. Их родственные связи включают, среди прочего, гипернимию и гипонимию.
Корпусно-Ориентированное Построение Начинается С Ключевых Слов По мере роста вычислительной мощности нейронные методы начали оценивать семантические корреляции. Подход Захарова начинается с предварительной обработки корпуса данных для извлечения ключевых слов. Программное обеспечение генерирует списки ключевых слов, исключая общие слова и добавляя термины предметной области. Информативность отражает частоту и роль в предметной области, причем последняя проверяется экспертами или справочными источниками.
Кластеризация с помощью семантики распределения и оценки Выбранные термины группируются в тематические микрополя с помощью распределительной семантики. Векторные представления вычисляют контекстуальную близость, автоматизируя группировку с некоторыми ошибками, которые могут быть отредактированы лингвистами. Конкурирующие программы сравниваются по таким показателям, как полнота и актуальность выходных данных. Этот процесс поддерживает масштабируемое создание подробного тезауруса.
Обогащение словосочетаний и моделирование на основе онтологии На третьем этапе записи обогащаются словосочетаниями и лексико-синтаксическими шаблонами, и пользователи могут открывать все контексты корпуса для проверки правильности включения. Это ускоряет разработку и углубляет детализацию, чему способствуют такие инструменты, как система SKche. Альтернативный путь сначала моделирует онтологию, создавая синоптическую схему, а затем присоединяет ключевые термины и связывает их с помощью автоматизированной близости. Несмотря на автоматизацию, определение типов семантических связей по-прежнему выполняется вручную.