Атрибуция, стилометрия, грамматический инвариант стиля, синтаксис и пунктуация писателя - polpoz.ru o_O
Главная
Поиск по ключевым словам:
страница 1
Похожие работы
Название работы Кол-во страниц Размер
Поступающим в вузы 24 6262.16kb.
Контрольная работа по теме «Синтаксис и пунктуация» 1 62.13kb.
«Синтаксис и пунктуация» 1 71.17kb.
Урок в 11 классе по теме: «Синтаксис и пунктуация» 1 62.68kb.
Лексико-грамматический тест Use of English Лексико-грамматический... 1 143.32kb.
Требования к выполнению задания. Перед выполнением данного задания... 1 94.47kb.
Конспект занятия по дисциплине «История стилей в костюме» для специальности... 1 216.6kb.
Философия и религия. Понятие трансценденции 1 24.24kb.
Вещь и человек в художественном пространстве Ч. Паланика 1 132.4kb.
Мук «Моргаушская межпоселенческая центральная библиотека Моргаушского... 1 62.62kb.
Не уйти от другого суда Сегодня исполняется десять лет со дня гибели... 1 56kb.
Вступительное испытание в магистратуру направлено на выявление степени... 1 118.67kb.
1. На доске выписаны n последовательных натуральных чисел 1 46.11kb.

Атрибуция, стилометрия, грамматический инвариант стиля, синтаксис и пунктуация писателя - страница №1/1

Проблема грамматического инварианта Достоевского и атрибуция анонимных и псевдонимных статей в журналах "Время" и "Эпоха" (1861-1865)
В.Н. Захаров, А.А. Рогов, Ю.В. Сидоров

атрибуция, стилометрия, грамматический инвариант стиля, синтаксис и пунктуация писателя

Петрозаводский государственный университет


185640, Республика Карелия, г. Петрозаводск, пр. Ленина, 33, филологический факультет, кафедра русской литературы, математический факультет, кафедра математического моделирования систем управления телефон: (814-2) 711-050
zakharov@mainpgu.karelia.ru, rogov@mainpgu.karelia.ru, sidorov@psu.karelia.ru
Summary

Our research is devoted to studying of the style of F.M. Dostoevsky’s articles and some anonymous and pseudonymous articles that were published at magazines “Vremja” and “Epokha” (1861-65). The aim is to find stable author's invariant. There was developed "Attribution" software package for performing linguistic analysis, including grammar and syntactical parser. The results were achieved by means of methods of applied statistical analysis: the principal component analysis, method of hierarchical cluster analysis (tree clustering), method of correlation pleads. The research forces us to look for a new methodic of authorship attribution.


С 1993 года в Петрозаводском государственном университете под руководством профессора В. Н. Захарова идет работа по созданию профессиональных баз данных для многоаспектного филологического анализа литературных текстов. Цель этой работы – автоматизировать лингвистический анализ литературных текстов, провести статистический анализ текстов и, в частности, решить задачу по атрибуции текстов (установлению авторства). К настоящему времени разработан программный комплекс «Атрибуция» для лингвистического анализа на ПК Макинтош, позволяющий в диалоговом режиме проводить грамматический и синтаксический разборы литературных текстов, используя многочисленные лингвистические характеристики, например, такие как часть речи, падеж, род, число, тип предложения и т.д. Программный комплекс состоит из двух частей: модуль «Грамматический анализ» и модуль «Синтаксический анализ». Они позволяют частично автоматизировать и формализовать процесс синтаксического и грамматического разбора по 69 параметрам.

Принципы работы обоих модулей одинаковы: входной информацией является литературный текст в электронном виде. Во избежание неоднозначной интерпретации грамматических и синтаксических единиц, каждый модуль первоначально выделяет целое предложение, а затем позволяет работать с каждым словом предложения, предлагая в простых ситуациях (например, союзы) свой вариант значений, но решающим правом на принятие решения обладает пользователь, который, несомненно, должен являться специалистом-филологом. На выходе получается структурированная таблица, которую можно конвертировать в любой формат баз данных. В настоящее время мы используем формат Microsoft Access. Следует отметить, что выходной файл примерно в 8 раз превосходит по объему входной текст.

При помощи разработанного программного комплекса были проанализированы 18 статей Ф.М. Достоевского, а также 4 статьи других авторов, и 27 статей, авторство которых неизвестно или вызывает споры среди специалистов. В качестве примера безусловно принадлежащих Ф.М. Достоевскому статей можно назвать цикл «Ряд статей о русской литературе» («Введение», «Г. -бов и вопрос об искусстве», первая и вторая статьи «Книжность и грамотность», «Последние литературные явления»).

Задачей исследования являлось установление авторства Достоевского или же, наоборот, отклонение гипотезы о том, что автором спорных статей является Достоевский. Для этого необходимо, во-первых, определить формально-грамматические признаки стиля Достоевского; во-вторых, сравнить установленный инвариант с аналогичными грамматическими параметрами анонимных статей.



На первом этапе исследования было сделано предположение, что инвариантом может являться распределение частей речи на первых трех и последних трех позициях предложений. По каждой статье были составлены частотные таблицы частей речи для 6 позиций в предложении. Модуль «Грамматический анализ» позволяет выявлять 16 частей речи, поэтому каждая статья имеет 96 признаков (6 позиций по 16 признакам). Для сравнения статей использовались различные методы:

  • экспертный метод для первичной визуальной обработки данных;

  • компонентный анализ с целью понижения размерности признакового пространства;

  • методы кластерного анализа

    • алгоритм иерархического кластерного анализа, включающий методы ближайшего и дальнего соседа с различными мерами близости между объектами;

    • метод корреляционных плеяд, позволяющий получать группы статей на основе корреляционной матрицы.

Для поиска стилистических инвариантов использовалась методика, основанная на изучении закономерностей расположения частей речи в предложении. В качестве основной характеристики текстов рассматривалась матрица частот парной встречаемости грамматических классов слов. На ее основе был построен граф сильных связей для каждого текста. Полученный формально-грамматический инвариант стиля Достоевского не позволил однозначно утверждать, принадлежат ли Достоевскому избранные для исследования анонимные и псевдонимные статьи. Так, по всем существующим методикам установления авторства в разряд текстов Достоевского попадает принадлежащая А. Григорьеву статья «Стихотворения А. С. Хомякова». Данный факт ставит нас перед задачей создания новой методики определения авторства, которая учитывает не только все формально-грамматические признаки слова (такие как число, падеж, род, наклонение и т.п.), но и обнаруживает «лицо автора» в структурно-типологическом анализе синтаксических конструкций изучаемых текстов.
Литература


  1. Захаров В.Н. Гениальный фельетонист. Ф.М. Достоевский. Полное собрание сочинений. Канонические тексты. Том IV. – Петрозаводск, изд-во Петр. гос. ун-та, 2000.- С. 801-812.




  1. Сидоров Ю.В., Леонтьев А.А., Рогов А.А., Захаров В.Н. Компьютерная автоматизированная система для лингвистического разбора литературных текстов. // IV-ая Санкт-Петербургская Ассамблея молодых ученых и специалистов. Тезисы докладов. - СП-б., 1999.- C. 66.