Том 32, № 4 (2020)

Использование Big Data в международном бизнесе

PDF (Rus)

7-20

Термин Big Data («Большие данные») вызывает много споров у специалистов, многие из которых полагают, что он означает только объемы накопленных данных, но не стоит забывать и о технической стороне: рассматриваемое направление включает в себя технологии вычисления, хранения, а также сервисы услуг. Big Data – термин, который обозначает технологии обработки неструктурированных и структурированных данных большого объема для получения понятных и полезных человеку итогов. В бизнесе Big Data используют для поддержки принятия решений руководителем (к примеру, на основании анализа финансовых показателей из учетной системы) или маркетологом (к примеру, на основании анализа предпочтений клиентов из социальных сетей). Сами по себе алгоритмы Больших данных появились при внедрении первых мэйнфреймов (высокопроизводительных серверов), которые обладают необходимыми ресурсами для оперативной обработки данных и пригодны для компьютерных вычислений и для последующего анализа данных. Поскольку число встраиваемых компьютеров увеличивается благодаря уменьшению цен на процессоры и повсеместному распространению Интернета, также увеличиваются и объемы передаваемых данных с последующей их обработкой (зачастую в режиме реального времени). Поэтому можно предположить, что в ближайшие годы будет повышаться значимость облачных вычислений и Интернета вещей. Следует отметить, что технология обработки Big Data сводится к трем основным направлениям, которые решают три типа задач, а именно, (1) перевод и хранение поступаемой информации в гигабайтах, терабайтах, петабайтах и т.д. данных для их обработки, хранения и применения на практике; (2) структурирование разрозненного контента: фотографий, текстов, аудио, видео и всех других видов данных; (3) анализ Больших данных и внедрение разных методов обработки неструктурированных данных, создание разных аналитических отчетов. В сущности, применение Больших данных подразумевает все направления работы с большими объемами самых разрозненных данных, постоянно обновляемых и разбросанных по различным источникам. Цель достаточно проста – наибольшая эффективность работы, внедрение новых продуктов и повышение конкурентоспособности. В данной статье рассматриваются особенности решения проблем использования Big Data в международном бизнесе.

Методика выявления центров компетенций авиационной науки на основе публикационной и патентной активности

Виктор Геннадьевич БЕЛЕНКОВ, Владимир Игоревич БУДЗКО, Дмитрий Алексеевич ДЕВЯТКИН, Анна Владимировна КАН, Иван Сергеевич МИХАЙЛИН, Илья Владимирович СОЧЕНКОВ, Илья Александрович ТИХОМИРОВ, Василий Сергеевич ШАПКИН

PDF (Rus)

21-40

Аннотация

Устойчивое развитие и повышение конкурентоспособности являются главными задачами управления научной организацией. Анализ компетенций обеспечивает детальное понимание имеющихся ресурсов при формировании стратегии развития, а их оценка – знание сильных сторон и рисков при ее реализации. Развитие компетенций неизбежно приводит к организационному закреплению ресурсов в подразделениях научной организации – центрах компетенций. Целью исследования является разработка методической базы для выявления и оценки центров компетенции в области авиастроения. Предложенная методика предполагает использование полнотекстовых средств поиска и анализа научно-технических документов для идентификации направлений исследований, технологий и аффилированных центров. Для получения категориальных оценок уровня развития центров компетенций предложен оригинальный подход, включающий аппроксимацию массы научно-технических документов с помощью s-кривых и их анализ с применением теории нечетких множеств. В статье предложена методика выявления и оценки центров научных компетенций авиационной науки и представлены результаты её апробации на примере 143 таких центров в области авиастроения в России. Разработанная методика позволяет использовать полнотекстовые поисково-аналитические инструменты для анализа компетенций, что обеспечивает сформирование детальной оценки имеющихся ресурсов при планировании развития научной организации в области авиастроения. В дальнейшем предполагается автоматизировать предложенную методику путем интеграции соответствующих модулей в состав разрабатываемой экспертной информационной системы по поиску, анализу и учету знаний в авиастроении.

Общие подходы к проектированию подсистемы доступа высокопроизводительных вычислительных систем

Сергей Юрьевич МОКШИН

PDF (Rus)

41-52

Аннотация

Создание высокопроизводительной вычислительной системы, предназначенной для решения задач численного моделирования различных физических процессов, является сложной и трудоемкой задачей. В статье рассматриваются основные подходы по проектированию подсистемы доступа такой высокопроизводительной вычислительной системы, позволяющие систематизировать и упростить процесс ее разработки. Проводится анализ основных факторов, оказывающих влияние на структуру и состав подсистемы доступа. Приводится пример методики расчета размерности подсистемы доступа.

Модель производительности графического конвейера для однопроходной схемы рендеринга динамических трехмерных сцен

Вячеслав Игоревич ГОНАХЧЯН

PDF (Rus)

53-72

Аннотация

В работе рассматривается однопроходная схема рендеринга динамических трехмерных сцен с использованием современных видеокарт (GPU) и графических интерфейсов. В рамках этой схемы используются следующие методы и техники: отсечение объектов с использованием методов пространственной декомпозиции и индексирования, аппаратные проверки видимости, фрагментация и кэширование командных буферов. Для выполнения этих методов требуются значительные вычислительные ресурсы, а объем работы на этапах графического конвейера зависит от их результатов. Поэтому важно сбалансированное использование ресурсов при конвейерной обработке и передаче графических данных. Предлагается модель производительности графического конвейера применительно к задачам рендеринга динамических трехмерных сцен, позволяющая оценивать требуемые ресурсы в зависимости от применяемых базовых методов и характеристик отображаемой сцены. В отличие от существующих методов и моделей, предлагаемая модель позволяет рассчитать затраты на составление буферов команд с использованием различных техник записи, затраты на отправку, выполнение, получение результатов аппаратных проверок видимости. Выводятся формулы для расчета временных затрат в зависимости от количества проверок видимости. Предлагается метод оценки количества аппаратных проверок видимости для эффективного выполнения рендеринга динамических сцен. Проводятся вычислительные эксперименты, показывающие релевантность предложенной модели и эффективность разработанного метода при отображении больших динамических сцен.

Эффективные методы и алгоритмы синтеза видео 360 градусов на основе кубической проекции виртуального окружения

Петр Юрьевич ТИМОХИН, Михаил Васильевич МИХАЙЛЮК, Евгений Михайлович ВОЖЕГОВ

PDF (Rus)

73-88

Аннотация

В статье рассматривается задача создания и воспроизведения панорамного видео с обзором 360 градусов, обеспечивающего погружение исследователя в виртуальную среду вне родительской системы виртуального окружения (СВО). Для решения этой задачи предлагается расширение метода проекции в кубическую карту, при котором разрешение карты определяется с учетом угла обзора камеры зрителя и разрешения экрана (Adequate Cubemap Projection, ACMP). В работе исследовано влияние ориентации камеры зрителя внутри куба на отношение «пиксел карты/пиксел экрана», определяющее качество визуализации панорамы, и предложен метод вычисления разрешения кубической карты для качественной визуализации панорамы при всех возможных ориентациях камеры. В работе рассмотрены эффективные метод и алгоритм создания ACMP-видео на GPU с помощью технологии рендеринга в текстуру, которые позволяют синтезировать панорамы c постоянной ориентацией или с привязкой к направлению взгляда наблюдателя. Также в исследовании предложены эффективные методы и алгоритмы воспроизведения ACMP-видео, основанные на визуализации видимых граней куба и адаптивной буферизации кадров. Полученные методы и алгоритмы реализованы в программном комплексе синтеза ACMP-видео (С++, OpenGL, FFmpeg), который включает в себя модуль захвата кадров (встраиваемый в СВО) и плеер. Разработанное решение было протестировано в системе «Виртуальная Земля» по обучению наблюдению объектов земной поверхности с орбиты Международной космической станции (МКС). С помощью модуля захвата было создано ACMP-видео полета вдоль участка подспутниковой трассы МКС. При воспроизведении данного видео обучаемый летит по орбите над виртуальной 3D поверхностью Земли и может исследовать ее, поворачивая камеру. Апробация комплекса подтвердила адекватность разработанных методов и алгоритмов поставленной задаче. Полученные научные и практические результаты позволяют расширить возможности и сферу применения СВО, систем научной визуализации, видеотренажеров и виртуальных лабораторий, эффективно обмениваться опытом между исследователями и др.

CASR: анализ coredump файлов в ОС Linux и составление отчётов об ошибках

Андрей Николаевич ФЕДОТОВ, Шамиль Фаимович КУРМАНГАЛЕЕВ

PDF (Rus)

89-96

Аннотация

Несмотря на то, что при разработке программного обеспечения используются различные технологии и подходы, позволяющие диагностировать ошибки на ранних этапах разработки и тестирования, часть ошибок обнаруживается во время эксплуатации. Для пользователя ошибки часто выглядят, как аварийное завершение программы во время работы. Для сбора отчётов об аварийных завершениях программ в операционную систему встраивается специальный компонент анализа. Такой компонент присутствует как в ОС Windows, так и в ОС на базе Linux, в частности в Ubuntu. Важным параметром является степень критичности найденной ошибки, причем данная информация полезна как разработчику дистрибутива, так и пользователю. В частности, пользователи, имея такую диагностику, могут принять организационно-технические меры до выхода исправления ошибки от разработчика программного обеспечения. В статье представлен CASR: инструмент анализа образа памяти в момент завершения процесса (coredump) и составления отчётов об ошибках. Инструмент позволяет проводить оценку критичности обнаруженного аварийного завершения путём анализа образа памяти, а также собирать необходимую информацию для разработчика, которая поможет исправить дефект. В качестве такой информации выступают версия дистрибутива ОС, версия пакета, карта памяти процесса, состояние регистров, значения переменных среды, стек вызовов, номер сигнала, который привёл к аварийному завершению, и т.д. Оценка критичности даёт возможность разработчику программного обеспечения исправить ошибки, которые являются наиболее опасными в первую очередь. CASR позволяет обнаружить файлы и сетевые соединения, которые были открыты в момент аварийного завершения. Эта информация поможет воспроизвести ошибку, а также принять меры пользователям и администраторам в случае атаки на систему. Инструмент предназначен для работы на ОС Linux, поддерживает архитектуры x86/64, armv7 и может поставляться в виде пакета для дистрибутивов на базе Debian. Инструмент был успешно протестирован на нескольких ошибках, сведения о которых были получены из открытых источниках.

Отладчик параллельных программ для ОС Linux

Алексей Борисович КИСЕЛЕВ, Сергей Николаевич КИСЕЛЕВ

PDF (Rus)

97-114

Аннотация

В статье представлен отладчик параллельных программ, написанных на языкe программирования Си/Си++ или Фортране, которые предназначены для выполнения на высокопроизводительных вычислительных системах. В работе раскрывается схема взаимодействия компонентов отладчика параллельных программ, представлен алгоритм обработки результатов профилирования программы с помощью встроенных средств профилирования. Описаны возможности графического интерфейса пользователя и отладчика в целом. В статье рассказано о развитии отладчика параллельных программ, в частности о реализации коммуникационной древовидной схемы соединения его компонентов между собой, о режиме неинтерактивной отладки, о поддержке графических ускорителей корпорации Nvidia.

Протокол сертификации целостности облачных вычислений

Евгений Сергеевич ШИШКИН, Евгений Сергеевич КИСЛИЦЫН

PDF (Rus)

115-132

Аннотация

В статье сформулирована задача сертификации целостности вычислений, проводимых стороной, которой мы не обязательно доверяем. Предложен интерактивный многопользовательский протокол решающий эту задачу при заданных ограничениях. По сравнению с ближайшим аналогом, предложенный протокол упрощает процедуру построения доказательства с O(nlogn) до O(n), а сложность коммуникации сводит к одному раунду при сопоставимой длине сертификата.

Метрики эффективности и производительности при использовании эволюционного алгоритма на грид-системах из персональных компьютеров

Николай Павлович ХРАПОВ

PDF (Rus)

133-140

Аннотация

Область применения систем добровольческих вычислений постоянно расширяется. Существует много научных работ по адаптации различных вычислительных алгоритмов к ГСПК. Темой представленной работы является эффективная адаптация эволюционного алгоритма к системам добровольческих вычислений. Рассматриваются причины потерь производительности, предлагаются критерии и метрики оценки качества работы алгоритма. Рассматриваемые метрики могут быть использованы для сравнительного анализа различных политик планирования заданий при проведении вычислений. Вводимые метрики могут быть посчитаны как на имитационных моделях, так и в процессе проведения практических вычислений.

Диагностика гипертрофий левых отделов сердца с помощью глубокой нейронной сети

Павел Константинович АНДРЕЕВ, Владислав Валерьевич АНАНЬЕВ, Владимир Алексеевич МАКАРОВ, Евгений Андреевич КАРПУЛЕВИЧ, Денис Юрьевич ТУРДАКОВ

PDF (Rus)

141-154

Аннотация

В настоящей работе представлены результаты применения сверточной нейронной сети для диагностики гипертрофий левых отделов сердца посредством анализа электрокардиограмм (ЭКГ) в 12 стандартных отведениях. В ходе исследования был собран и обработан новый уникальный набор данных, содержащий 64 тысячи записей ЭКГ. На основе сопутствующих записям заключений были сформированы метки принадлежности к двум рассматриваемым классам: гипертрофия левого желудочка и гипертрофия левого предсердия. Набор сигналов и выделенные метки были использованы для обучения глубокой сверточной нейронной сети с остаточными блоками, получившаяся модель способна детектировать гипертрофию левого желудочка с качеством по F-мере свыше 0.82 и гипертрофию левого предсердия с качеством свыше 0.78. Кроме того, был осуществлен поиск оптимальной архитектуры нейросети, произведена экспериментальная оценка эффекта от включения в модель метаданных пациентов и предобработки сигнала, а также сделан сравнительный анализ трудности детектирования гипертрофий левых отделов по отношению к двум другим часто встречающимся нарушениям сердечной активности – мерцательной аритмии и блокады левой ножки пучка Гиса.

Использование аппарата свёрточных нейронных сетей для стегоанализа цифровых изображений

Александр Александрович ПОЛУНИН, Элина Андреевна ЯНДАШЕВСКАЯ

PDF (Rus)

155-164

Аннотация

В статье дается обоснование актуальности задачи стегоанализа, как определения факта наличия скрытого канала в инфокоммуникационных системах, узлы которых обмениваются цифровыми изображениями. Рассматриваются вопросы применения аппарата свёрточных нейронных сетей для решения этой задачи. Предполагается, что вероятность правильной классификации изображений с помощью хорошо обученной свёрточной нейронной сети будет сопоставима с показателями статистических алгоритмов или RM-модели или даже окажется лучше них. Дается представление о принципах построения и возможностях свёрточных нейронных сетей в рамках их применимости к решению задачи стегоанализа. Для повышения оперативности и результативности процесса распознавания стегоконтейнеров предложен вариант модели классификации изображений для свёрточной нейронной сети, в которой используется комбинация нескольких свёрточных и полносвязных слоев. Разработана программная реализация варианта этой модели с возможностью обучения нейронной сети и оценивания качества классификации. Проведен анализ существующих программных продуктов, предназначенных для задачи определения факта использования стеганографии в цифровых изображениях. Обосновано преимущество классификаторов на основе нейронных сетей по сравнению со статистическими классификаторами. С использованием разработанной программной реализации проведено экспериментальное исследование модели классификации на наборах цифровых изображений, содержащихся в открытых источниках. В статье приведены результаты обучения нейронной сети, а также анализ сильных и слабых сторон выбранной модели.

Двухшаговый метод объединения новостей в сюжеты

Кирилл Андреевич СКОРНЯКОВ, Анна Сергеевна ЛАСКИНА, Денис Юрьевич ТУРДАКОВ

PDF (Rus)

165-174

Аннотация

Работа посвящена разработке метода выделения сюжетов в новостях на русском языке. Сюжетом мы считаем группу новостей про одно событие реального мира. Предлагается двухэтапная схема кластеризации, при которой результаты первого «грубого» шага уточняются с помощью бинарного классификатора на парах новостей. В рамках работы создан размеченный на принадлежность сюжетам корпус новостей на русском языке, доступный для скачивания. На этом наборе данных показывается, что предложенный метод превосходит существующие решения по основным внешним метрикам кластеризации.

Извлечение логической структуры из сканированных документов

Анастасия Олеговна БОГАТЕНКОВА, Илья Сергеевич КОЗЛОВ, Оксана Владимировна БЕЛЯЕВА, Андрей Игоревич ПЕРМИНОВ

PDF (Rus)

175-188

Аннотация

В статье предложен конвейер обработки сканированных документов, а также разработан метод извлечения структуры из них. Данный метод основан на многоклассовой классификации строк документа, в том числе классификации на заголовки и списки. Конвейер состоит из извлечения текста и рамок строк документов с помощью методов OCR, формирования признаков и обучения классификатора на данных признаках. Кроме того, размечен и доступен для изучения корпус документов, проведена экспериментальная проверка реализованного метода на данном корпусе и описаны возможности для дальнейшей работы и исследований.

Использование синтетических данных для тонкой настройки моделей сегментации документов

Оксана Владимировна БЕЛЯЕВА, Андрей Игоревич ПЕРМИНОВ, Илья Сергеевич КОЗЛОВ

PDF (Rus)

189-202

Аннотация

В рамках задачи автоматического анализа документов мы решаем задачу сегментации изображений документов DLA (Document Layout Analysis). Целью работы является сегментация изображений документов в условиях ограниченного набора реальных данных и использование для обучения искусственно созданных данных. В качестве данных рассматривается PDF-документы сканированных договоров, коммерческих предложений и технических заданий без текстового слоя. В работе мы обучаем известную высокоуровневую модель FasterRCNN сегментировать текстовые блоки, таблицы, печати и подписи на изображениях рассматриваемых данных. Работа направлена на генерацию синтетических данных схожих с реальными. Это обусловлено потребностью модели в большом наборе данных для обучения и высокой трудозатратностью их подготовки. В работе приведено описание этапа постобработки для устранения артефактов, полученных в результате сегментации. В работе приводится тестирование и сравнение качества модели, обученной на разных наборах данных (с/без синтетических данных, малом/большом наборе реальных данных, с/без этапа постобработки). В итоге мы показываем, что генерация синтетических данных и использование постобработки увеличивает качество модели при малом обучающем наборе реальных данных.

Использование доменно-состязательного обучения для распознавания текстовых капч

Денис Олегович КУЩУК, Максим Алексеевич РЫНДИН, Александр Константинович ЯЦКОВ, Максим Игоревич ВАРЛАМОВ

PDF (Rus)

203-216

Аннотация

Несмотря на появление более продвинутых вариантов публичных тестов Тьюринга, в настоящее время текстовая капча является достаточно распространённой, поэтому создание методов ее автоматического решения актуальны и сегодня. Современные алгоритмы успешно справляются с этой задачей, однако, обладают рядом ограничений, таких как: неспособность работать с изменяющейся длиной текста на изображении, медленное и сложное обучение. В данной работе представлен алгоритм атак на текстовые капчи, не требующий априорного знания длины текста на изображении. Экспериментально показано, что использование данного алгоритма совместно с методом состязательного обучения позволяет добиваться высокого качества на реальных данных, используя 200-500 размеченных примеров для обучения. Экспериментальное сравнение разработанного метода с современными аналогами показало, что при использовании одинакового числа реальных примеров для обучения наш алгоритм показывает сравнимое или более высокое качество, при этом он имеет более высокую скорость работы и обучения.

Разработка решателя iceFoam для моделирования процесса обледенения

Константин Борисович КОШЕЛЕВ, Валерия Геннадиевна МЕЛЬНИКОВА, Сергей Владимирович СТРИЖАК

PDF (Rus)

217-234

Аннотация

В настоящее время в РФ активно ведется освоение северных территорий. Вопросы изучения физических процессов обледенения являются актуальными, так как климатические условия оказывают влияние на поверхность исследуемых объектов (линии электропередач, жилые строения, энергетические установки, летательные аппараты), на безопасность людей и экологию. В облаках возможно появление и движение жидких капель. При исследовании двухфазных потоков, содержащих взвесь аэрозольных частиц (дисперсная фаза) в несущей среде (дисперсионная среда) в атмосфере важно правильно оценивать основные параметры, определяющие систему, и адекватно описывать реальный процесс при помощи сформулированной математической модели. Данная статья посвящена разработке нового решателя iceFoam в составе открытого пакета OpenFOAM v1912 для моделирования процесса обледенения при характерном размере частиц порядка 40 мкм, что соответствует Приложению C Авиационных правил АП-25. Для описания динамики жидких капель используется Эйлер-Лагранжев подход. В качестве термодинамической модели реализована модифицированная модель жидкой пленки по теории мелкой воды. В расчете используется две сетки: одна для моделирования внешнего газокапельного потока, другая, толщиной в одну ячейку, для расчета нарастания льда. При разработке исходного кода на языке программирования C++ использовалась технология наследования, т.е. создания базовых и производных классов. В результате был разработан параллельный решатель iceFoam для моделирования движения динамики жидких частиц и образования льда на поверхности исследуемого тела. Представлены результаты расчета для случая обтекания цилиндра и профиля крыла NACA 0012 с помощью метода URANS и и высокорейнольдсовой модели турбулентности Spalart-Allmaras. Приведены картины распределения толщины льда. Для расчета одного тестового примера было использовано от 8 до 32 вычислительных ядер на вычислительном кластере ИСП РАН.

Модели процессов, сопровождающих кристаллизацию переохлажденных капель

Иван Алексеевич АМЕЛЮШКИН, Максим Александрович КУДРОВ, Алексей Олегович МОРОЗОВ, Альберт Леонидович СТАСЕНКО, Андрей Сергеевич ЩЕГЛОВ

PDF (Rus)

235-244

Аннотация

Развит метод расчета взаимодействия переохлаждённых капель с твердым телом, покрытие которого имеет рельеф и обладает различной степенью гидрофобности. Сформулированы основные критерии соответствия результатов молекулярного моделирования физической реальности. Получены численные оценки параметров рельефа гидрофобной поверхности твердого тела в зависимости от безразмерных динамических параметров удара переохлажденных капель. На основании проведенных ранее экспериментальных исследований, теоретических оценок, аналитических и экспериментальных данных других исследователей в настоящей работе развиты математические модели особенностей кристаллизации переохлажденной метастабильной жидкости. Получены оценки параметров процессов, сопровождающих движение фронта кристаллизации в переохлажденных метастабильных каплях воды в приложении к проблеме обледенения летательных аппаратов.

Совершенные множества путей в полном графе коммутаторов SDN-сети

Игорь Борисович БУРДОНОВ, Евгений Максимович ВИНАРСКИЙ, Нина Владимировна ЕВТУШЕНКО, Александр Сергеевич КОСАЧЕВ

PDF (Rus)

245-260

Аннотация

В статье исследуется задача виртуализации сети на плоскости данных программно-конфигурируемой сети, моделируемой графом физических связей между узлами сети. Виртуальная сеть задается как множество упорядоченных пар хостов (отправитель, получатель), а реализуется множеством путей хост-хост, однозначно определяющим настройки коммутаторов. Множество путей совершенное, если любое подмножество связываемых им пар хостов связывается соответствующим подмножеством путей без возникновения бесконечного движения пакетов по циклу, без дублирующих путей, когда хост получает один и тот же пакет несколько раз, и без непредусмотренных путей, когда хост получает пакет, ему не предназначенный. Для случая, когда подграф, порождённый коммутаторами, является полным графом, устанавливаются достаточные условия существования наибольшего совершенного множества путей, связывающего все пары различных хостов. Предлагаются алгоритмы построения такого наибольшего совершенного множества и даются оценки их сложности. Приводятся результаты компьютерных экспериментов.

Временные причинно-упорядоченные процессы временных сетей Петри со «слабой» семантикой

Ирина Бонавентуровна ВИРБИЦКАЙТЕ, Алексей Юрьевич ЗУБАРЕВ

PDF (Eng)

261-284

Аннотация

В данной статье предлагается метод редукции пространства состояний непрерывно-временных сетей Петри (НВСП) – расширения сетей Петри, где каждому переходу ставится в соответствие временной интервал его срабатывания. Техники контроля времени и памяти определяют различные семантики для НВСП, которые влияют на разрешимость многих стандартных проблем анализа поведения НВСП. В общем случае, пространство состояний НВСП бесконечно и несчетно, и, следовательно, анализ их поведения довольно сложен. С целью разрешения данной проблемы выполняется дискретизация пространства состояний и определяется семантика частичного порядка для НВСП со «слабой» техникой продвижения времени (продвижение времени неограничено) и «промежуточной» техникой контроля памяти (с учетом промежуточных разметок при срабатывании сетевых переходов).

Логин
Пароль
	Запомнить меня

Войти

Труды Института системного программирования РАН

Использование куки-файлов