Preview

Труды Института системного программирования РАН

Расширенный поиск

Обобщенная контекстно-зависимая теоретико-графовая модель фольклорных и литературных текстов

https://doi.org/10.15514/ISPRAS-2022-34(1)-6

Аннотация

Одной из проблем при автоматической обработке текстов является их атрибуция. Под этим термином понимают установление атрибутов текстового произведения (определение авторства, времени создания, места записи и др.). В статье представлена обобщенная контекстно-зависимая теоретико-графовая модель, предназначенная для анализа фольклорных и литературных текстов. Минимальной структурной единицей модели (примитивом) является слово. Множества слов объединяются в вершины, причем одно и то же слово может иметь отношение к разным вершинам. Ребра и графовые подструктуры отражают лексические, синтаксические и семантические связи текста. Характеристиками модели являются ее нечеткость, иерархичность и темпоральность. В качестве примеров приводятся иерархическая теоретико-графовая модель составляющих (на примере литературных произведений А. С. Пушкина), темпоральная теоретико-графовая модель сказочного сюжета (на примере русских волшебных сказок А. М. Афанасьева) и нечеткая теоретико-графовая модель «сильных» связей грамматических классов (на примере анонимных статей из дореволюционных журналов «Время», «Эпоха» и еженедельника «Гражданин», которые редактировал Ф. М. Достоевский). Модель строится таким образом, чтобы в дальнейшем ее можно было исследовать с помощью методов искусственного интеллекта (например, деревьев решений или нейронных сетей). Для этой цели в информационной системе «Фольклор» был разработан формат для хранения подобных данных, а также реализованы процедуры для ввода, редактирования и анализа текстов и их теоретико-графовых моделей.

Об авторах

Николай Дмитриевич МОСКИН
Петрозаводский государственный университет
Россия

Кандидат технических наук, доцент, доцент кафедры теории вероятностей и анализа данных



Александр Александрович РОГОВ
Петрозаводский государственный университет
Россия

Доктор технических наук, профессор, заведующий кафедрой теории вероятностей и анализа данных



Роман Владимирович ВОРОНОВ
Петрозаводский государственный университет
Россия

Доктор технических наук, профессор кафедры прикладной математики и кибернетики



Список литературы

1. Афанасьев А.М. Народные русские сказки А. Н. Афанасьева: в 3 т. М., Государственное Издательство Художественной литературы (Гослитиздат), 1957 г. / Afanasyev A.M. Folk Russian fairy tales by A. N. Afanasyev: in 3 volumes. Moscow, State Publishing House of Fiction (Goslitizdat), 1957 (in Russian).

2. Берштейн Л.С., Боженюк А.В. Использование темпоральных графов как моделей сложных систем. Известия ЮФУ. Технические науки, № 4 (105), 2010 г., стр. 198-203 / Bershtein L.S., Bozhenyuk A.V. The use of temporal graphs as models of complex systems. Izvestiya SFedU. Engineering Sciences, vol. 4 (105), 2010, pp. 198-203 (in Russian).

3. Берштейн Л.С., Боженюк А.В. Нечеткие графы и гиперграфы. М., Научный мир, 2005 г., 256 стр. / Bershtein L.S., Bozhenyuk A.V. Fuzzy graphs and hypergraphs. Moscow, Scientific world, 2005, 256 p. (in Russian).

4. Гаазе-Рапопорт М.Г. Поиск вариантов в сочинении сказок. Дополнение в книге Зарипов Р.Х. Машинный поиск вариантов при моделировании творческого процесса. М.: Наука, 1983 г., стр. 213-223. / Gaaze-Rapoport M.G. Search for variants in the composition of fairy tales. Supplement in Zaripov R.H. Machine search for variants in modeling the creative process. Moscow, Nauka, 1983, pp. 213-223 (in Russian).

5. Гладкий А.В. Синтаксические структуры естественного языка. М., ЛКИ, 2007 г., 152 с. / Gladky A.V. Syntactic structures of natural language. Moscow, LKI, 2007, 152 p. (in Russian).

6. Зубов А.В., Зубова И.И. Основы искусственного интеллекта для лингвистов. М., Университетская книга, Логос, 2007 г., 320 стр. / Zubov A.V., Zubova I.I. Fundamentals of artificial intelligence for linguists. Moscow, University book, Logos, 2007, 320 p. (in Russian).

7. Ильвовский Д.А., Черняк Е.Л. Системы автоматической обработки текстов. Открытые системы. СУБД, no. 1, 2014 г., стр. 51-53 / Ilvovsky D.A., Chernyak E.L. Systems of automatic processing of texts. Open systems. DBMS, no. 1, 2014, pp. 51–53 (in Russian).

8. Касьянов В.Н., Евстигнеев В.А. Графы в программировании: обработка, визуализация и применение. СПб., БХВ-Петербург, 2003 г., 1104 стр. / Kasyanov V.N., Evstigneev V.A. Graphs in programming: processing, visualization and application. St. Petersburg, BHV-Petersburg, 2003, 1104 p. (in Russian).

9. Милов Л.В., Бородкин Л.И. и др. От Нестора до Фонвизина: Новые методы определения авторства. М., Прогресс, 1994 г., 445 cтр. / Milov L.V., Borodkin L.I. et al. From Nestor to Fonvizin: New methods for determining authorship. Moscow, Progress, 1994, 445 p. (in Russian)

10. Москин Н.Д. Теоретико-графовые модели фольклорных текстов и методы их анализа. Петрозаводск, Изд-во ПетрГУ, 2013 г., 148 стр. / Moskin N.D. Graph-theoretic models of folklore texts and methods of their analysis. Petrozavodsk, PetrGU Publishing House, 2013, 148 p. (in Russian)

11. Рогов А.А., Абрамов Р.В. и др. Проблема атрибуции в журналах «Время», «Эпоха» и еженедельнике «Гражданин». Петрозаводск, Изд-во «Острова», 2021 г., 391 с. / Rogov A.A., Abramov R.V. et al. The problem of attribution in the magazines «Time», «Epoch» and the weekly «Citizen». Petrozavodsk: Publishing house «Islands», 2021, 391 p. (in Russian)

12. Соколов И.А. Теория и практика применения методов искусственного интеллекта. Вестник Российской академии наук, том 89, вып. 4, 2019, стр. 365-370. / Sokolov I.A. Theory and practice of application of artificial intelligence methods. Bulletin of the Russian Academy of Sciences, vol. 89, issue 4, 2019, pp. 365-370. (in Russian)

13. Хозяинов С.А. Атрибуция публицистических произведений, приписываемых А. С. Пушкину: тексты 1830-1836 гг. Санкт-Петербург, 2008 г., 24 с. / Hozyainov S.A. Attribution of publicistic works attributed to A. S. Pushkin: texts of 1830-1836. St. Petersburg, 2008, 24 p. (in Russian)

14. Щеголева Л.В., Лебедев А.А., Москин Н.Д. Методы анализа данных в задаче разграничения фольклорных и авторских текстов. Вопросы языкознания, 2020 г., no. 2, стр. 61-74. / Shchegoleva L.V., Lebedev A.A., Moskin N.D. Methods of data analysis in the problem of distinguishing between folklore and author's texts. Questions of linguistics, 2020, no. 2, pp. 61-74. (in Russian)

15. Calle-Martin J., Miranda-Garcia A. Stylometry and Authorship Attribution: Introduction to the Special Issue. English Studies, vol. 93, no. 3, 2012, pp. 251-258.

16. Stamatatos E. A Survey of Modern Authorship Attribution Methods. Journal of the American Society for Information Science and Technology, vol. 60, no. 3, 2009, pp. 538-556.

17. Vaswani A., Shazeer N. et al. Attention is all you need. In Proc. of the 31st International Conference on Neural Information Processing Systems, 2017, pp. 6000-6010.

18. Zečević A. N-gram based text classification according to authorship. In Proc. of the Second Student Research Workshop associated with RANLP 2011, 2011, pp. 145-149.

19. Zhou J., Cui G. et al. Graph neural networks: A review of methods and applications. AI Open, vol. 1, 2020, pp. 57-81.


Рецензия

Для цитирования:


МОСКИН Н.Д., РОГОВ А.А., ВОРОНОВ Р.В. Обобщенная контекстно-зависимая теоретико-графовая модель фольклорных и литературных текстов. Труды Института системного программирования РАН. 2022;34(1):73-86. https://doi.org/10.15514/ISPRAS-2022-34(1)-6

For citation:


MOSKIN N.D., ROGOV A.A., VORONOV R.V. Generalized context-dependent graph-theoretic model of folklore and literary texts. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2022;34(1):73-86. (In Russ.) https://doi.org/10.15514/ISPRAS-2022-34(1)-6



Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2079-8156 (Print)
ISSN 2220-6426 (Online)