Preview

Труды Института системного программирования РАН

Расширенный поиск

Стратегии семплирования текста для прогнозирования недостающих библиографических ссылок

https://doi.org/10.15514/ISPRAS-2022-34(2)-7

Аннотация

В статье исследуются различные стратегии семплирования текстовых данных при выполнении автоматической классификации предложений с целью обнаружения недостающих библиографических ссылок. Построение семплов осуществляется на основе предложений в качестве семантических единиц текста, к которым добавляется их непосредственный контекст, состоящий из нескольких соседних предложений. Исследуется ряд стратегий семплирования, которые различаются размером и положением контекста. Эксперимент проведен на данных из сборника научных работ по естественнонаучной и инженерной тематике. Показано, что включение контекста предложений в семплы улучшает результат классификации предложений. Предложен метод автоматического определения оптимальной стратегии семплирования для данной текстовой коллекции: оптимальная стратегия определяется результатом голосования одинаковых классификаторов, получающих на вход одни и те же данные, семплированные различными способами. Семплирование с учетом контекста предложения в сочетании с процедурой жесткого голосования (hard voting) показало точность классификации 98% (оценка F1). Предложенный подход к обнаружению недостающих библиографических ссылок может использоваться в рекомендательных модулях прикладных интеллектуальных информационных систем.

Об авторах

Федор Владимирович КРАСНОВ
NAUMEN
Россия

Доктор технических наук, эксперт департамента информационных технологий управления



Ирина Сергеевна СМАЗНЕВИЧ
NAUMEN
Россия

Бизнес-аналитик, департамент семантических систем



Елена Николаевна БАСКАКОВА
NAUMEN
Россия

Ведущий системный аналитик, департамент семантических систем



Список литературы

1. Merton R.K. The sociology of science: Theoretical and empirical investigations. University of Chicago press, 1973, 605 p.

2. Москалева О.В., Акоев М.А. Наукометрия: немного истории и современные российские реалии. Управление наукой: теория и практика, том 1, no. 1, 2019 г., стр. 135-148 (in Russian) / Moskaleva O.V., Akoev M.A. Scientomentrics: a little bit of history and modern Russian realities. Science Management: Theory and Practice, vol. 1, no. 1, pp. 135-148.

3. Зеленков Ю.А., Анисичкина Е.А. Динамика исследований в области интеллектуального анализа данных: тематический анализ публикаций за 20 лет. Бизнес-информатика, том 15, no. 1, 2021 г., стр. 30-46 (in Russian) / Zelenkov Yu.A., Anisichkina E.A. Trends in data mining research: A two-decade review using topic analysis. Business Informatics, vol. 15, no 1, 2021, pp. 30-46.

4. Emerson L., Rees M. T., MacKay B. Scaffolding academic integrity: Creating a learning context for teaching referencing skills. Journal of university teaching & learning practice, vol. 2, issue 3, 2005, pp. 17-30.

5. Gray K., Thompson C. et al. Web 2.0 authorship: Issues of referencing and citation for academic integrity. Internet and Higher Education. vol. 11, issue 2, 2008, pp. 112-118.

6. Pears R., Shields G. Cite them right: the essential reference guide. ‎Palgrave Macmillan, 8th edition, 2010, 112 p.

7. Arsyad S., Ramadhan S., Maisarah I. The rhetorical problems experienced by Indonesian lecturers in social sciences and humanities in writing research articles for international journals. The Asian Journal of Applied Linguistics, vol. 7, issue 1, 2020, pp. 116-129.

8. Aljuaid H., Iftikhar R. et al. Important citation identification using sentiment analysis of in-text citations. Telematics and Informatics, vol. 56, 2021, article no. 101492.

9. Prester J., Wagner G. et al. Classifying the ideational impact of information systems review articles: A content-enriched deep learning approach. Decision Support Systems, vol. 140, 2021, article no. 113432.

10. Varanasi K.K., Ghosal T. et al. Iitp-cuni@ 3c: Supervised approaches for citation classification (task a) and citation significance detection (task b). In Proc. of the Second Workshop on Scholarly Document Processing, 2021, pp. 140-145.

11. Färber M., Sampath A. Determining how citations are used in citation contexts. Lecture Notes in Computer Science, vol. 11799, 2019, pp. 380-383.

12. Fu J., Huang X., Liu P. Spanner: Named entity re-/recognition as span prediction. arXiv.2106.00641, 2021, 13 p.

13. Ziyadi M., Sun Y. et al. Example-based named entity recognition. arXiv.2008.10570, 2020, 15 p.

14. Li B. Named entity recognition in the style of object detection. arXiv.2101.11122, 2021, 9 p.

15. Wang X., Jiang Y. et al. Improving named entity recognition by external context retrieving and cooperative learning, arXiv.2105.03654, 2021, 13 p.

16. Fiok K., Karwowski W. et al. Comparing the quality and speed of sentence classification with modern language models. Applied Sciences, vol. 10, issue 10, 2020, article no. 3386.

17. Глазкова А.В. Тематическая классификация текстовых фрагментов с учетом их ближайшего контекста. Автоматика и телемеханика, вып. 12, 2020 г., стр. 153-172 / Glazkova A. V. Topical classification of text fragments accounting for their nearest context. Automation and Remote Control, vol. 81, issue 12, pp. 2262-2276.

18. John M., Jayasudha J.S. Enhancing Performance of Deep Learning Based Text Summarizer. International Journal of Applied Engineering Research, vol. 12, no. 24, 2017, pp. 15986-15993.

19. Akkasi A., Varoğlu E., Dimililer N. Balanced undersampling: a novel sentence-based undersampling method to improve recognition of named entities in chemical and biomedical text. Applied Intelligence, vol. 48, issue 8, 2018, pp. 1965-1978.

20. Luo Y., Feng H. et al A novel oversampling method based on SeqGAN for imbalanced text classification. In Proc. of the 2019 IEEE International Conference on Big Data (Big Data), 2019, pp. 2891-2894.

21. Li Y., Guo H. et al. Imbalanced text sentiment classification using universal and domain-specific knowledge. Knowledge-Based Systems, vol. 160, 2018, pp. 1-15.

22. Chawla N.V., Bowyer K.W.et al. SMOTE: synthetic minority over-sampling technique. Journal of Artificial Intelligence Research, vol. 16, 2002, pp. 321-357.

23. Taha A.Y., Tiun S. et al. Multilabel Over-sampling and Under-sampling with Class Alignment for Imbalanced Multilabel Text Classification. Journal of Information and Communication Technology, vol. 20, issue 3, pp. 423-456.

24. Gallant S.I. A practical approach for representing context and for performing word sense disambiguation using neural networks. Neural Computation, vol. 3, issue 3, 1991, pp. 293-309.

25. Huang E.H., Socher R. et al. Improving word representations via global context and multiple word prototypes. In Proc. of the 50th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2012, pp. 873-882.

26. Devlin J., Chang M.W. et al. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv.1810.04805, 2019, 16 p.

27. Brown T.B., Mann B. et al. Language models are few-shot learners. arXiv.2005.14165, 2020, 75 p.

28. Cohan A., Dernoncourt F. A discourse-aware attention model for abstractive summarization of long documents. arXiv.1804.05685, 2018, 7 p.

29. ExplainaBoard – Named Entity Recognition URL: http://explainaboard.nlpedia.ai/leaderboard/task-ner/, accessed 16.05.2022.


Рецензия

Для цитирования:


КРАСНОВ Ф.В., СМАЗНЕВИЧ И.С., БАСКАКОВА Е.Н. Стратегии семплирования текста для прогнозирования недостающих библиографических ссылок. Труды Института системного программирования РАН. 2022;34(2):77-88. https://doi.org/10.15514/ISPRAS-2022-34(2)-7

For citation:


KRASNOV F.V., SMAZNEVICH I.S., BASKAKOVA E.N. Text sampling strategies for predicting missing bibliographic links. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2022;34(2):77-88. (In Russ.) https://doi.org/10.15514/ISPRAS-2022-34(2)-7



Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2079-8156 (Print)
ISSN 2220-6426 (Online)