Preview

Труды Института системного программирования РАН

Расширенный поиск
Том 32, № 4 (2020)
Скачать выпуск PDF
7-20
Аннотация

Термин Big Data («Большие данные») вызывает много споров у специалистов, многие из которых полагают, что он означает только объемы накопленных данных, но не стоит забывать и о технической стороне: рассматриваемое направление включает в себя технологии вычисления, хранения, а также сервисы услуг. Big Data – термин, который обозначает технологии обработки неструктурированных и структурированных данных большого объема для получения понятных и полезных человеку итогов. В бизнесе Big Data используют для поддержки принятия решений руководителем (к примеру, на основании анализа финансовых показателей из учетной системы) или маркетологом (к примеру, на основании анализа предпочтений клиентов из социальных сетей). Сами по себе алгоритмы Больших данных появились при внедрении первых мэйнфреймов (высокопроизводительных серверов), которые обладают необходимыми ресурсами для оперативной обработки данных и пригодны для компьютерных вычислений и для последующего анализа данных. Поскольку число встраиваемых компьютеров увеличивается благодаря уменьшению цен на процессоры и повсеместному распространению Интернета, также увеличиваются и объемы передаваемых данных с последующей их обработкой (зачастую в режиме реального времени). Поэтому можно предположить, что в ближайшие годы будет повышаться значимость облачных вычислений и Интернета вещей. Следует отметить, что технология обработки Big Data сводится к трем основным направлениям, которые решают три типа задач, а именно, (1) перевод и хранение поступаемой информации в гигабайтах, терабайтах, петабайтах и т.д. данных для их обработки, хранения и применения на практике; (2) структурирование разрозненного контента: фотографий, текстов, аудио, видео и всех других видов данных; (3) анализ Больших данных и внедрение разных методов обработки неструктурированных данных, создание разных аналитических отчетов. В сущности, применение Больших данных подразумевает все направления работы с большими объемами самых разрозненных данных, постоянно обновляемых и разбросанных по различным источникам. Цель достаточно проста – наибольшая эффективность работы, внедрение новых продуктов и повышение конкурентоспособности. В данной статье рассматриваются особенности решения проблем использования Big Data в международном бизнесе.

21-40
Аннотация
Устойчивое развитие и повышение конкурентоспособности являются главными задачами управления научной организацией. Анализ компетенций обеспечивает детальное понимание имеющихся ресурсов при формировании стратегии развития, а их оценка – знание сильных сторон и рисков при ее реализации. Развитие компетенций неизбежно приводит к организационному закреплению ресурсов в подразделениях научной организации – центрах компетенций. Целью исследования является разработка методической базы для выявления и оценки центров компетенции в области авиастроения. Предложенная методика предполагает использование полнотекстовых средств поиска и анализа научно-технических документов для идентификации направлений исследований, технологий и аффилированных центров. Для получения категориальных оценок уровня развития центров компетенций предложен оригинальный подход, включающий аппроксимацию массы научно-технических документов с помощью s-кривых и их анализ с применением теории нечетких множеств. В статье предложена методика выявления и оценки центров научных компетенций авиационной науки и представлены результаты её апробации на примере 143 таких центров в области авиастроения в России. Разработанная методика позволяет использовать полнотекстовые поисково-аналитические инструменты для анализа компетенций, что обеспечивает сформирование детальной оценки имеющихся ресурсов при планировании развития научной организации в области авиастроения. В дальнейшем предполагается автоматизировать предложенную методику путем интеграции соответствующих модулей в состав разрабатываемой экспертной информационной системы по поиску, анализу и учету знаний в авиастроении.
41-52
Аннотация

Создание высокопроизводительной вычислительной системы, предназначенной для решения задач численного моделирования различных физических процессов, является сложной и трудоемкой задачей. В статье рассматриваются основные подходы по проектированию подсистемы доступа такой высокопроизводительной вычислительной системы, позволяющие систематизировать и упростить процесс ее разработки. Проводится анализ основных факторов, оказывающих влияние на структуру и состав подсистемы доступа. Приводится пример методики расчета размерности подсистемы доступа.

53-72
Аннотация
В работе рассматривается однопроходная схема рендеринга динамических трехмерных сцен с использованием современных видеокарт (GPU) и графических интерфейсов. В рамках этой схемы используются следующие методы и техники: отсечение объектов с использованием методов пространственной декомпозиции и индексирования, аппаратные проверки видимости, фрагментация и кэширование командных буферов. Для выполнения этих методов требуются значительные вычислительные ресурсы, а объем работы на этапах графического конвейера зависит от их результатов. Поэтому важно сбалансированное использование ресурсов при конвейерной обработке и передаче графических данных. Предлагается модель производительности графического конвейера применительно к задачам рендеринга динамических трехмерных сцен, позволяющая оценивать требуемые ресурсы в зависимости от применяемых базовых методов и характеристик отображаемой сцены. В отличие от существующих методов и моделей, предлагаемая модель позволяет рассчитать затраты на составление буферов команд с использованием различных техник записи, затраты на отправку, выполнение, получение результатов аппаратных проверок видимости. Выводятся формулы для расчета временных затрат в зависимости от количества проверок видимости. Предлагается метод оценки количества аппаратных проверок видимости для эффективного выполнения рендеринга динамических сцен. Проводятся вычислительные эксперименты, показывающие релевантность предложенной модели и эффективность разработанного метода при отображении больших динамических сцен.
73-88
Аннотация

В статье рассматривается задача создания и воспроизведения панорамного видео с обзором 360 градусов, обеспечивающего погружение исследователя в виртуальную среду вне родительской системы виртуального окружения (СВО). Для решения этой задачи предлагается расширение метода проекции в кубическую карту, при котором разрешение карты определяется с учетом угла обзора камеры зрителя и разрешения экрана (Adequate Cubemap Projection, ACMP). В работе исследовано влияние ориентации камеры зрителя внутри куба на отношение «пиксел карты/пиксел экрана», определя­ющее качество визуализации панорамы, и предложен метод вычисления разрешения кубической карты для качественной визуализации панорамы при всех возможных ориентациях камеры. В работе рассмотрены эффективные метод и алгоритм создания ACMP-видео на GPU с помощью технологии рендеринга в текстуру, которые позволяют синтезировать панорамы c постоянной ориентацией или с привязкой к направлению взгляда наблюдателя. Также в исследовании предложены эффективные методы и алго­ритмы воспроизведения ACMP-видео, основанные на визуализации видимых граней куба и адаптивной буферизации кадров. Полученные методы и алгоритмы реализованы в программном комплексе синтеза ACMP-видео (С++, OpenGL, FFmpeg), который включает в себя модуль захвата кадров (встраиваемый в СВО) и плеер. Разработанное решение было протестировано в системе «Виртуальная Земля» по обучению наблюдению объектов земной поверхности с орбиты Международной космической станции (МКС). С помощью модуля захвата было создано ACMP-видео полета вдоль участка подспутниковой трассы МКС. При воспроизведении данного видео обучаемый летит по орбите над виртуальной 3D поверхностью Земли и может исследовать ее, поворачивая камеру. Апробация комплекса подтвердила адекватность разработанных методов и алгоритмов поставленной задаче. Полученные научные и практические результаты позволяют расширить возможности и сферу применения СВО, систем научной визуализации, видеотренажеров и виртуальных лабораторий, эффективно обмениваться опытом между исследователями и др.

89-96
Аннотация
Несмотря на то, что при разработке программного обеспечения используются различные технологии и подходы, позволяющие диагностировать ошибки на ранних этапах разработки и тестирования, часть ошибок обнаруживается во время эксплуатации. Для пользователя ошибки часто выглядят, как аварийное завершение программы во время работы. Для сбора отчётов об аварийных завершениях программ в операционную систему встраивается специальный компонент анализа. Такой компонент присутствует как в ОС Windows, так и в ОС на базе Linux, в частности в Ubuntu. Важным параметром является степень критичности найденной ошибки, причем данная информация полезна как разработчику дистрибутива, так и пользователю. В частности, пользователи, имея такую диагностику, могут принять организационно-технические меры до выхода исправления ошибки от разработчика программного обеспечения. В статье представлен CASR: инструмент анализа образа памяти в момент завершения процесса (coredump) и составления отчётов об ошибках. Инструмент позволяет проводить оценку критичности обнаруженного аварийного завершения путём анализа образа памяти, а также собирать необходимую информацию для разработчика, которая поможет исправить дефект. В качестве такой информации выступают версия дистрибутива ОС, версия пакета, карта памяти процесса, состояние регистров, значения переменных среды, стек вызовов, номер сигнала, который привёл к аварийному завершению, и т.д. Оценка критичности даёт возможность разработчику программного обеспечения исправить ошибки, которые являются наиболее опасными в первую очередь. CASR позволяет обнаружить файлы и сетевые соединения, которые были открыты в момент аварийного завершения. Эта информация поможет воспроизвести ошибку, а также принять меры пользователям и администраторам в случае атаки на систему. Инструмент предназначен для работы на ОС Linux, поддерживает архитектуры x86/64, armv7 и может поставляться в виде пакета для дистрибутивов на базе Debian. Инструмент был успешно протестирован на нескольких ошибках, сведения о которых были получены из открытых источниках.
97-114
Аннотация

В статье представлен отладчик параллельных программ, написанных на языкe программирования Си/Си++ или Фортране, которые предназначены для выполнения на высокопроизводительных вычислительных системах. В работе раскрывается схема взаимодействия компонентов отладчика параллельных программ, представлен алгоритм обработки результатов профилирования программы с помощью встроенных средств профилирования. Описаны возможности графического интерфейса пользователя и отладчика в целом. В статье рассказано о развитии отладчика параллельных программ, в частности о реализации коммуникационной древовидной схемы соединения его компонентов между собой, о режиме неинтерактивной отладки, о поддержке графических ускорителей корпорации Nvidia.

115-132
Аннотация
В статье сформулирована задача сертификации целостности вычислений, проводимых стороной, которой мы не обязательно доверяем. Предложен интерактивный многопользовательский протокол решающий эту задачу при заданных ограничениях. По сравнению с ближайшим аналогом, предложенный протокол упрощает процедуру построения доказательства с O(nlogn) до O(n), а сложность коммуникации сводит к одному раунду при сопоставимой длине сертификата.
133-140
Аннотация
Область применения систем добровольческих вычислений постоянно расширяется. Существует много научных работ по адаптации различных вычислительных алгоритмов к ГСПК. Темой представленной работы является эффективная адаптация эволюционного алгоритма к системам добровольческих вычислений. Рассматриваются причины потерь производительности, предлагаются критерии и метрики оценки качества работы алгоритма. Рассматриваемые метрики могут быть использованы для сравнительного анализа различных политик планирования заданий при проведении вычислений. Вводимые метрики могут быть посчитаны как на имитационных моделях, так и в процессе проведения практических вычислений.
141-154
Аннотация

В настоящей работе представлены результаты применения сверточной нейронной сети для диагностики гипертрофий левых отделов сердца посредством анализа электрокардиограмм (ЭКГ) в 12 стандартных отведениях. В ходе исследования был собран и обработан новый уникальный набор данных, содержащий 64 тысячи записей ЭКГ. На основе сопутствующих записям заключений были сформированы метки принадлежности к двум рассматриваемым классам: гипертрофия левого желудочка и гипертрофия левого предсердия. Набор сигналов и выделенные метки были использованы для обучения глубокой сверточной нейронной сети с остаточными блоками, получившаяся модель способна детектировать гипертрофию левого желудочка с качеством по F-мере свыше 0.82 и гипертрофию левого предсердия с качеством свыше 0.78. Кроме того, был осуществлен поиск оптимальной архитектуры нейросети, произведена экспериментальная оценка эффекта от включения в модель метаданных пациентов и предобработки сигнала, а также сделан сравнительный анализ трудности детектирования гипертрофий левых отделов по отношению к двум другим часто встречающимся нарушениям сердечной активности – мерцательной аритмии и блокады левой ножки пучка Гиса.

155-164
Аннотация

В статье дается обоснование актуальности задачи стегоанализа, как определения факта наличия скрытого канала в инфокоммуникационных системах, узлы которых обмениваются цифровыми изображениями. Рассматриваются вопросы применения аппарата свёрточных нейронных сетей для решения этой задачи. Предполагается, что вероятность правильной классификации изображений с помощью хорошо обученной свёрточной нейронной сети будет сопоставима с показателями статистических алгоритмов или RM-модели или даже окажется лучше них. Дается представление о принципах построения и возможностях свёрточных нейронных сетей в рамках их применимости к решению задачи стегоанализа. Для повышения оперативности и результативности процесса распознавания стегоконтейнеров предложен вариант модели классификации изображений для свёрточной нейронной сети, в которой используется комбинация нескольких свёрточных и полносвязных слоев. Разработана программная реализация варианта этой модели с возможностью обучения нейронной сети и оценивания качества классификации. Проведен анализ существующих программных продуктов, предназначенных для задачи определения факта использования стеганографии в цифровых изображениях. Обосновано преимущество классификаторов на основе нейронных сетей по сравнению со статистическими классификаторами. С использованием разработанной программной реализации проведено экспериментальное исследование модели классификации на наборах цифровых изображений, содержащихся в открытых источниках. В статье приведены результаты обучения нейронной сети, а также анализ сильных и слабых сторон выбранной модели.

165-174
Аннотация

Работа посвящена разработке метода выделения сюжетов в новостях на русском языке. Сюжетом мы считаем группу новостей про одно событие реального мира. Предлагается двухэтапная схема кластеризации, при которой результаты первого «грубого» шага уточняются с помощью бинарного классификатора на парах новостей. В рамках работы создан размеченный на принадлежность сюжетам корпус новостей на русском языке, доступный для скачивания. На этом наборе данных показывается, что предложенный метод превосходит существующие решения по основным внешним метрикам кластеризации.

175-188
Аннотация

В статье предложен конвейер обработки сканированных документов, а также разработан метод извлечения структуры из них. Данный метод основан на многоклассовой классификации строк документа, в том числе классификации на заголовки и списки. Конвейер состоит из извлечения текста и рамок строк документов с помощью методов OCR, формирования признаков и обучения классификатора на данных признаках. Кроме того, размечен и доступен для изучения корпус документов, проведена экспериментальная проверка реализованного метода на данном корпусе и описаны возможности для дальнейшей работы и исследований.

189-202
Аннотация

В рамках задачи автоматического анализа документов мы решаем задачу сегментации изображений документов DLA (Document Layout Analysis). Целью работы является сегментация изображений документов в условиях ограниченного набора реальных данных и использование для обучения искусственно созданных данных. В качестве данных рассматривается PDF-документы сканированных договоров, коммерческих предложений и технических заданий без текстового слоя. В работе мы обучаем известную высокоуровневую модель FasterRCNN сегментировать текстовые блоки, таблицы, печати и подписи на изображениях рассматриваемых данных. Работа направлена на генерацию синтетических данных схожих с реальными. Это обусловлено потребностью модели в большом наборе данных для обучения и высокой трудозатратностью их подготовки. В работе приведено описание этапа постобработки для устранения артефактов, полученных в результате сегментации. В работе приводится тестирование и сравнение качества модели, обученной на разных наборах данных (с/без синтетических данных, малом/большом наборе реальных данных, с/без этапа постобработки). В итоге мы показываем, что генерация синтетических данных и использование постобработки увеличивает качество модели при малом обучающем наборе реальных данных.

203-216
Аннотация

Несмотря на появление более продвинутых вариантов публичных тестов Тьюринга, в настоящее время текстовая капча является достаточно распространённой, поэтому создание методов ее автоматического решения актуальны и сегодня. Современные алгоритмы успешно справляются с этой задачей, однако, обладают рядом ограничений, таких как: неспособность работать с изменяющейся длиной текста на изображении, медленное и сложное обучение. В данной работе представлен алгоритм атак на текстовые капчи, не требующий априорного знания длины текста на изображении. Экспериментально показано, что использование данного алгоритма совместно с методом состязательного обучения позволяет добиваться высокого качества на реальных данных, используя 200-500 размеченных примеров для обучения. Экспериментальное сравнение разработанного метода с современными аналогами показало, что при использовании одинакового числа реальных примеров для обучения наш алгоритм показывает сравнимое или более высокое качество, при этом он имеет более высокую скорость работы и обучения.

217-234
Аннотация

В настоящее время в РФ активно ведется освоение северных территорий. Вопросы изучения физических процессов обледенения являются актуальными, так как климатические условия оказывают влияние на поверхность исследуемых объектов (линии электропередач, жилые строения, энергетические установки, летательные аппараты), на безопасность людей и экологию. В облаках возможно появление и движение жидких капель. При исследовании двухфазных потоков, содержащих взвесь аэрозольных частиц (дисперсная фаза) в несущей среде (дисперсионная среда) в атмосфере важно правильно оценивать основные параметры, определяющие систему, и адекватно описывать реальный процесс при помощи сформулированной математической модели. Данная статья посвящена разработке нового решателя iceFoam в составе открытого пакета OpenFOAM v1912 для моделирования процесса обледенения при характерном размере частиц порядка 40 мкм, что соответствует Приложению C Авиационных правил АП-25. Для описания динамики жидких капель используется Эйлер-Лагранжев подход. В качестве термодинамической модели реализована модифицированная модель жидкой пленки по теории мелкой воды. В расчете используется две сетки: одна для моделирования внешнего газокапельного потока, другая, толщиной в одну ячейку, для расчета нарастания льда. При разработке исходного кода на языке программирования C++ использовалась технология наследования, т.е. создания базовых и производных классов. В результате был разработан параллельный решатель iceFoam для моделирования движения динамики жидких частиц и образования льда на поверхности исследуемого тела. Представлены результаты расчета для случая обтекания цилиндра и профиля крыла NACA 0012 с помощью метода URANS и и высокорейнольдсовой модели турбулентности Spalart-Allmaras. Приведены картины распределения толщины льда. Для расчета одного тестового примера было использовано от 8 до 32 вычислительных ядер на вычислительном кластере ИСП РАН.

235-244
Аннотация

Развит метод расчета взаимодействия переохлаждённых капель с твердым телом, покрытие которого имеет рельеф и обладает различной степенью гидрофобности. Сформулированы основные критерии соответствия результатов молекулярного моделирования физической реальности. Получены численные оценки параметров рельефа гидрофобной поверхности твердого тела в зависимости от безразмерных динамических параметров удара переохлажденных капель. На основании проведенных ранее экспериментальных исследований, теоретических оценок, аналитических и экспериментальных данных других исследователей в настоящей работе развиты математические модели особенностей кристаллизации переохлажденной метастабильной жидкости. Получены оценки параметров процессов, сопровождающих движение фронта кристаллизации в переохлажденных метастабильных каплях воды в приложении к проблеме обледенения летательных аппаратов.

245-260
Аннотация

В статье исследуется задача виртуализации сети на плоскости данных программно-конфигурируемой сети, моделируемой графом физических связей между узлами сети. Виртуальная сеть задается как множество упорядоченных пар хостов (отправитель, получатель), а реализуется множеством путей хост-хост, однозначно определяющим настройки коммутаторов. Множество путей совершенное, если любое подмножество связываемых им пар хостов связывается соответствующим подмножеством путей без возникновения бесконечного движения пакетов по циклу, без дублирующих путей, когда хост получает один и тот же пакет несколько раз, и без непредусмотренных путей, когда хост получает пакет, ему не предназначенный. Для случая, когда подграф, порождённый коммутаторами, является полным графом, устанавливаются достаточные условия существования наибольшего совершенного множества путей, связывающего все пары различных хостов. Предлагаются алгоритмы построения такого наибольшего совершенного множества и даются оценки их сложности. Приводятся результаты компьютерных экспериментов.

261-284
Аннотация

В данной статье предлагается метод редукции пространства состояний непрерывно-временных сетей Петри (НВСП) – расширения сетей Петри, где каждому переходу ставится в соответствие временной интервал его срабатывания. Техники контроля времени и памяти определяют различные семантики для НВСП, которые влияют на разрешимость многих стандартных проблем анализа поведения НВСП. В общем случае, пространство состояний НВСП бесконечно и несчетно, и, следовательно, анализ их поведения довольно сложен. С целью разрешения данной проблемы выполняется дискретизация пространства состояний и определяется семантика частичного порядка для НВСП со «слабой» техникой продвижения времени (продвижение времени неограничено) и «промежуточной» техникой контроля памяти (с учетом промежуточных разметок при срабатывании сетевых переходов).



Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2079-8156 (Print)
ISSN 2220-6426 (Online)