Preview

Труды Института системного программирования РАН

Расширенный поиск

Программа построения вполне интерпретируемых элементарных и неэлементарных квазилинейных регрессионных моделей

https://doi.org/10.15514/ISPRAS-2023-35(4)-7

Аннотация

Вполне интерпретируемая линейная регрессия удовлетворяет следующим условиям: знаки её коэффициентов соответствуют содержательному смыслу факторов; мультиколлинеарность незначительна; коэффициенты значимы; качество аппроксимации модели высокое. Ранее для построения таких моделей, оцениваемых с помощью метода наименьших квадратов, была разработана программа ВИнтер-1. В ней по заданным начальным параметрам автоматически формируется задача частично-булевого линейного программирования, в результате решения которой осуществляется отбор наиболее информативных регрессоров. Лежащий в основе этой программы математический аппарат со временем был существенно расширен: были разработаны неэлементарные линейные регрессии, для контроля мультиколлинеарности были предложены линейные ограничения на абсолютные величины интеркорреляций, появились предположения о возможности построения не только линейных, но и квазилинейных регрессий. Данная статья посвящена описанию разработанной второй версии программы построения вполне интерпретируемых регрессий ВИнтер-2. Программа ВИнтер-2 позволяет в зависимости от выбранных пользователем начальных параметров автоматически формулировать для решателя LPSolve задачи частично-булевого линейного программирования для построения как элементарных, так и неэлементарных вполне интерпретируемых квазилинейных регрессий. Предусмотрена возможность задания до девяти элементарных функций и контроля таких параметров, как число регрессоров в модели, число знаков в вещественных числах после запятой, абсолютные вклады переменных в общую детерминацию, число вхождений объясняющих переменных в модель и величины интеркорреляций. В процессе работы с программой также можно контролировать количество элементарно и неэлементарно преобразованных переменных, влияющих на скорость решения задачи частично-булевого линейного программирования. Программа ВИнтер-2 универсальна и может применяться для построения вполне интерпретируемых математических зависимостей в различных предметных областях.

Об авторе

Михаил Павлович БАЗИЛЕВСКИЙ
Иркутский государственный университет путей сообщения
Россия

Кандидат технических наук, доцент, доцент кафедры “Математика” Иркутского государственного университета путей сообщения. Сфера научных интересов: математическое моделирование, анализ данных, оптимизация, эконометрика, машинное обучение, искусственный интеллект.



Список литературы

1. Molnar C. Interpretable machine learning. Lulu.com, 2020.

2. Doshi-Velez F., Kim B. Towards a rigorous science of interpretable machine learning. arXiv preprint arXiv:1702.08608, 2017.

3. Montgomery D. C., Peck E. A., Vining G. G. Introduction to linear regression analysis. John Wiley & Sons, 2021.

4. Shrestha N. Detecting multicollinearity in regression analysis. American Journal of Applied Mathematics and Statistics, vol. 8, no. 2, 2020, pp. 39-42.

5. Базилевский М.П. Построение вполне интерпретируемых линейных регрессионных моделей с помощью метода последовательного повышения абсолютных вкладов переменных в общую детерминацию. Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии, ном. 2, 2022, стр. 5-16 / Bazilevskiy M.P. Construction of quite interpretable linear regression models using the method of successive increase the absolute contributions of variables to the general determination. Proceedings of Voronezh State University. Series: Systems Analysis and Information Technologies, no. 2, 2022, pp. 5-16. (in Russian).

6. Горбач А.Н., Цейтлин Н.А. Покупательское поведение: анализ спонтанных последовательностей и регрессионных моделей в маркетинговых исследованиях. Киев, Освiта УкраЇны, 2011, 220 с. / Gorbach A.N., Tseytlin N.A. Buying Behavior: Analysis of Spontaneous Sequences and Regression Models in Marketing Research. Kyiv, Education of Ukraine, 2011, 220 p. (in Russian).

7. Miller A. Subset selection in regression. CRC Press, 2002.

8. Себер Дж. Линейный регрессионный анализ. М., Издательство “Мир”, 1980, 456 с. / Seber Dzh. Linear Regression Analysis. Moscow, Mir Publishing House, 1980, 456 p. (in Russian).

9. Фёрстер Э., Рёнц Б. Методы корреляционного и регрессионного анализа. М., Финансы и статистика, 1983, 303 с. / Ferster E., Rents B. Methods of Correlation and Regression Analysis. Moscow, Finance and Statistics, 1983, 303 p. (in Russian).

10. Konno H., Yamamoto R. Choosing the best set of variables in regression analysis using integer programming. Journal of Global Optimization, 2009, vol. 44, pp. 273-282. DOI: 10.1007/s10898-008-9323-9.

11. Miyashiro R., Takano Y. Mixed integer second-order cone programming formulations for variable selection in linear regression. European Journal of Operational Research, 2015, vol. 247, pp. 721-731. DOI: 10.1016/j.ejor.2015.06.081.

12. Miyashiro R., Takano Y. Subset selection by Mallows’ Cp: A mixed integer programming approach. Expert Systems with Applications, 2015, vol. 42, pp. 325-331. DOI: 10.1016/j.eswa.2014.07.056.

13. Tamura R., Kobayashi K., Takano Y., Miyashiro R., Nakata K., Matsui T. Mixed integer quadratic optimization formulations for eliminating multicollinearity based on variance inflation factor. Journal of Global Optimization, 2019, vol. 73, pp. 431-446. DOI: 10.1007/s10898-018-0713-3.

14. Park Y.W., Klabjan D. Subset selection for multiple linear regression via optimization. Journal of Global Optimization, 2020, vol. 77, pp. 543-574. DOI: 10.1007/s10898-020-00876-1.

15. Takano Y., Miyashiro R. Best subset selection via cross-validation criterion. Top, 2020, vol. 28, no. 2, pp. 475-488. DOI: 10.1007/s11750-020-00538-1.

16. Bertsimas D., Li M.L. Scalable holistic linear regression. Operations Research Letters, 2020, vol. 48, no. 3, pp. 203-208. DOI: 10.1016/j.orl.2020.02.008.

17. Chung S., Park Y.W., Cheong T. A mathematical programming approach for integrated multiple linear regression subset selection and validation. Pattern Recognition, 2020, vol. 108. DOI: 10.1016/j.patcog.2020.107565.

18. Bertsimas D., Gurnee W. Learning sparse nonlinear dynamics via mixed-integer optimization. Nonlinear Dynamics, 2023, vol. 111, no. 7, pp. 6585-6604. DOI: 10.1007/s11071-022-08178-9.

19. Watanabe A., Tamura R., Takano Y., Miyashiro R. Branch-and-bound algorithm for optimal sparse canonical correlation analysis. Expert Systems with Applications, 2023, vol. 217, pp. 119530. DOI: 10.1016/j.eswa.2023.119530.

20. Базилевский М.П. Формализация процесса отбора информативных регрессоров в линейной регрессии в виде задачи частично-булевого линейного программирования с ограничениями на коэффициенты интеркорреляций. Современные наукоемкие технологии, ном. 8, 2023, стр. 10-14 / Bazilevskiy M.P. Formalization the subset selection process in linear regression as a mixed integer 0-1 linear programming problem with constraints on intercorrelation coefficients. Modern High Technologies, no. 8, 2023, pp. 10-14. (in Russian).

21. Базилевский М.П. Отбор информативных регрессоров с учётом мультиколлинеарности между ними в регрессионных моделях как задача частично-булевого линейного программирования. Моделирование, оптимизация и информационные технологии, том 6, ном. 2 (21), 2018, стр. 104-118 / Bazilevskiy M.P. Subset selection in regression models with considering multicollinearity as a task of mixed 0-1 integer linear programming. Modeling, Optimization and Information Technology, vol. 6, no. 2 (21), 2018, pp. 104-118. (in Russian).

22. Базилевский М.П. Отбор значимых по критерию Стьюдента информативных регрессоров в оцениваемых с помощью МНК регрессионных моделях как задача частично-булевого линейного программирования. Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии, ном. 3, 2021, стр. 5-16 / Bazilevskiy M.P. Selection of informative regressors significant by Student’s t-test in regression models estimated using OLS as a partial Boolean linear programming problem. Proceedings of Voronezh State University. Series: Systems Analysis and Information Technologies, no. 3, 2021, pp. 5-16. (in Russian).

23. Базилевский М.П. Метод построения неэлементарных линейных регрессий на основе аппарата математического программирования. Проблемы управления, ном. 4, 2022, стр. 3-14 / Bazilevskiy M.P. A method for constructing non-elementary linear regressions based on mathematical programming. Control Sciences, no. 4, 2022, pp. 3-14. (in Russian).

24. Базилевский М.П. Построение вполне интерпретируемых неэлементарных линейных регрессионных моделей. Вестник Югорского государственного университета, ном. 4 (67), 2022, стр. 105-114 / Bazilevskiy M.P. Construction of quite interpretable non-elementary linear regression models. Yugra State University Bulletin, no. 4 (67), 2022, pp. 105-114. (in Russian).

25. Базилевский М.П. Критерии нелинейности квазилинейных регрессионных моделей. Моделирование, оптимизация и информационные технологии, том 6, ном. 4 (23), 2018, стр. 185-195 / Bazilevskiy M.P. Nonlinear criteria of quasi-linear regression models. Modeling, Optimization and Information Technology, vol. 6, no. 4 (23), 2018, pp. 185-195. (in Russian).


Дополнительные файлы

1. Неозаглавлен
Тема
Тип Прочее
Посмотреть (626KB)    
Метаданные
2. Неозаглавлен
Тема
Тип Прочее
Посмотреть (80KB)    
Метаданные
3. Неозаглавлен
Тема
Тип Прочее
Посмотреть (23KB)    
Метаданные

Рецензия

Для цитирования:


БАЗИЛЕВСКИЙ М.П. Программа построения вполне интерпретируемых элементарных и неэлементарных квазилинейных регрессионных моделей. Труды Института системного программирования РАН. 2023;35(4):129-144. https://doi.org/10.15514/ISPRAS-2023-35(4)-7

For citation:


BAZILEVSKIY M.P. Program for Constructing Quite Interpretable Elementary and Non-elementary Quasi-linear Regression Models. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2023;35(4):129-144. (In Russ.) https://doi.org/10.15514/ISPRAS-2023-35(4)-7



Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2079-8156 (Print)
ISSN 2220-6426 (Online)