Термин Big Data («Большие данные») вызывает много споров у специалистов, многие из которых полагают, что он означает только объемы накопленных данных, но не стоит забывать и о технической стороне: рассматриваемое направление включает в себя технологии вычисления, хранения, а также сервисы услуг. Big Data – термин, который обозначает технологии обработки неструктурированных и структурированных данных большого объема для получения понятных и полезных человеку итогов. В бизнесе Big Data используют для поддержки принятия решений руководителем (к примеру, на основании анализа финансовых показателей из учетной системы) или маркетологом (к примеру, на основании анализа предпочтений клиентов из социальных сетей). Сами по себе алгоритмы Больших данных появились при внедрении первых мэйнфреймов (высокопроизводительных серверов), которые обладают необходимыми ресурсами для оперативной обработки данных и пригодны для компьютерных вычислений и для последующего анализа данных. Поскольку число встраиваемых компьютеров увеличивается благодаря уменьшению цен на процессоры и повсеместному распространению Интернета, также увеличиваются и объемы передаваемых данных с последующей их обработкой (зачастую в режиме реального времени). Поэтому можно предположить, что в ближайшие годы будет повышаться значимость облачных вычислений и Интернета вещей. Следует отметить, что технология обработки Big Data сводится к трем основным направлениям, которые решают три типа задач, а именно, (1) перевод и хранение поступаемой информации в гигабайтах, терабайтах, петабайтах и т.д. данных для их обработки, хранения и применения на практике; (2) структурирование разрозненного контента: фотографий, текстов, аудио, видео и всех других видов данных; (3) анализ Больших данных и внедрение разных методов обработки неструктурированных данных, создание разных аналитических отчетов. В сущности, применение Больших данных подразумевает все направления работы с большими объемами самых разрозненных данных, постоянно обновляемых и разбросанных по различным источникам. Цель достаточно проста – наибольшая эффективность работы, внедрение новых продуктов и повышение конкурентоспособности. В данной статье рассматриваются особенности решения проблем использования Big Data в международном бизнесе.
Создание высокопроизводительной вычислительной системы, предназначенной для решения задач численного моделирования различных физических процессов, является сложной и трудоемкой задачей. В статье рассматриваются основные подходы по проектированию подсистемы доступа такой высокопроизводительной вычислительной системы, позволяющие систематизировать и упростить процесс ее разработки. Проводится анализ основных факторов, оказывающих влияние на структуру и состав подсистемы доступа. Приводится пример методики расчета размерности подсистемы доступа.
В статье рассматривается задача создания и воспроизведения панорамного видео с обзором 360 градусов, обеспечивающего погружение исследователя в виртуальную среду вне родительской системы виртуального окружения (СВО). Для решения этой задачи предлагается расширение метода проекции в кубическую карту, при котором разрешение карты определяется с учетом угла обзора камеры зрителя и разрешения экрана (Adequate Cubemap Projection, ACMP). В работе исследовано влияние ориентации камеры зрителя внутри куба на отношение «пиксел карты/пиксел экрана», определяющее качество визуализации панорамы, и предложен метод вычисления разрешения кубической карты для качественной визуализации панорамы при всех возможных ориентациях камеры. В работе рассмотрены эффективные метод и алгоритм создания ACMP-видео на GPU с помощью технологии рендеринга в текстуру, которые позволяют синтезировать панорамы c постоянной ориентацией или с привязкой к направлению взгляда наблюдателя. Также в исследовании предложены эффективные методы и алгоритмы воспроизведения ACMP-видео, основанные на визуализации видимых граней куба и адаптивной буферизации кадров. Полученные методы и алгоритмы реализованы в программном комплексе синтеза ACMP-видео (С++, OpenGL, FFmpeg), который включает в себя модуль захвата кадров (встраиваемый в СВО) и плеер. Разработанное решение было протестировано в системе «Виртуальная Земля» по обучению наблюдению объектов земной поверхности с орбиты Международной космической станции (МКС). С помощью модуля захвата было создано ACMP-видео полета вдоль участка подспутниковой трассы МКС. При воспроизведении данного видео обучаемый летит по орбите над виртуальной 3D поверхностью Земли и может исследовать ее, поворачивая камеру. Апробация комплекса подтвердила адекватность разработанных методов и алгоритмов поставленной задаче. Полученные научные и практические результаты позволяют расширить возможности и сферу применения СВО, систем научной визуализации, видеотренажеров и виртуальных лабораторий, эффективно обмениваться опытом между исследователями и др.
В статье представлен отладчик параллельных программ, написанных на языкe программирования Си/Си++ или Фортране, которые предназначены для выполнения на высокопроизводительных вычислительных системах. В работе раскрывается схема взаимодействия компонентов отладчика параллельных программ, представлен алгоритм обработки результатов профилирования программы с помощью встроенных средств профилирования. Описаны возможности графического интерфейса пользователя и отладчика в целом. В статье рассказано о развитии отладчика параллельных программ, в частности о реализации коммуникационной древовидной схемы соединения его компонентов между собой, о режиме неинтерактивной отладки, о поддержке графических ускорителей корпорации Nvidia.
В настоящей работе представлены результаты применения сверточной нейронной сети для диагностики гипертрофий левых отделов сердца посредством анализа электрокардиограмм (ЭКГ) в 12 стандартных отведениях. В ходе исследования был собран и обработан новый уникальный набор данных, содержащий 64 тысячи записей ЭКГ. На основе сопутствующих записям заключений были сформированы метки принадлежности к двум рассматриваемым классам: гипертрофия левого желудочка и гипертрофия левого предсердия. Набор сигналов и выделенные метки были использованы для обучения глубокой сверточной нейронной сети с остаточными блоками, получившаяся модель способна детектировать гипертрофию левого желудочка с качеством по F-мере свыше 0.82 и гипертрофию левого предсердия с качеством свыше 0.78. Кроме того, был осуществлен поиск оптимальной архитектуры нейросети, произведена экспериментальная оценка эффекта от включения в модель метаданных пациентов и предобработки сигнала, а также сделан сравнительный анализ трудности детектирования гипертрофий левых отделов по отношению к двум другим часто встречающимся нарушениям сердечной активности – мерцательной аритмии и блокады левой ножки пучка Гиса.
В статье дается обоснование актуальности задачи стегоанализа, как определения факта наличия скрытого канала в инфокоммуникационных системах, узлы которых обмениваются цифровыми изображениями. Рассматриваются вопросы применения аппарата свёрточных нейронных сетей для решения этой задачи. Предполагается, что вероятность правильной классификации изображений с помощью хорошо обученной свёрточной нейронной сети будет сопоставима с показателями статистических алгоритмов или RM-модели или даже окажется лучше них. Дается представление о принципах построения и возможностях свёрточных нейронных сетей в рамках их применимости к решению задачи стегоанализа. Для повышения оперативности и результативности процесса распознавания стегоконтейнеров предложен вариант модели классификации изображений для свёрточной нейронной сети, в которой используется комбинация нескольких свёрточных и полносвязных слоев. Разработана программная реализация варианта этой модели с возможностью обучения нейронной сети и оценивания качества классификации. Проведен анализ существующих программных продуктов, предназначенных для задачи определения факта использования стеганографии в цифровых изображениях. Обосновано преимущество классификаторов на основе нейронных сетей по сравнению со статистическими классификаторами. С использованием разработанной программной реализации проведено экспериментальное исследование модели классификации на наборах цифровых изображений, содержащихся в открытых источниках. В статье приведены результаты обучения нейронной сети, а также анализ сильных и слабых сторон выбранной модели.
Работа посвящена разработке метода выделения сюжетов в новостях на русском языке. Сюжетом мы считаем группу новостей про одно событие реального мира. Предлагается двухэтапная схема кластеризации, при которой результаты первого «грубого» шага уточняются с помощью бинарного классификатора на парах новостей. В рамках работы создан размеченный на принадлежность сюжетам корпус новостей на русском языке, доступный для скачивания. На этом наборе данных показывается, что предложенный метод превосходит существующие решения по основным внешним метрикам кластеризации.
В статье предложен конвейер обработки сканированных документов, а также разработан метод извлечения структуры из них. Данный метод основан на многоклассовой классификации строк документа, в том числе классификации на заголовки и списки. Конвейер состоит из извлечения текста и рамок строк документов с помощью методов OCR, формирования признаков и обучения классификатора на данных признаках. Кроме того, размечен и доступен для изучения корпус документов, проведена экспериментальная проверка реализованного метода на данном корпусе и описаны возможности для дальнейшей работы и исследований.
В рамках задачи автоматического анализа документов мы решаем задачу сегментации изображений документов DLA (Document Layout Analysis). Целью работы является сегментация изображений документов в условиях ограниченного набора реальных данных и использование для обучения искусственно созданных данных. В качестве данных рассматривается PDF-документы сканированных договоров, коммерческих предложений и технических заданий без текстового слоя. В работе мы обучаем известную высокоуровневую модель FasterRCNN сегментировать текстовые блоки, таблицы, печати и подписи на изображениях рассматриваемых данных. Работа направлена на генерацию синтетических данных схожих с реальными. Это обусловлено потребностью модели в большом наборе данных для обучения и высокой трудозатратностью их подготовки. В работе приведено описание этапа постобработки для устранения артефактов, полученных в результате сегментации. В работе приводится тестирование и сравнение качества модели, обученной на разных наборах данных (с/без синтетических данных, малом/большом наборе реальных данных, с/без этапа постобработки). В итоге мы показываем, что генерация синтетических данных и использование постобработки увеличивает качество модели при малом обучающем наборе реальных данных.
Несмотря на появление более продвинутых вариантов публичных тестов Тьюринга, в настоящее время текстовая капча является достаточно распространённой, поэтому создание методов ее автоматического решения актуальны и сегодня. Современные алгоритмы успешно справляются с этой задачей, однако, обладают рядом ограничений, таких как: неспособность работать с изменяющейся длиной текста на изображении, медленное и сложное обучение. В данной работе представлен алгоритм атак на текстовые капчи, не требующий априорного знания длины текста на изображении. Экспериментально показано, что использование данного алгоритма совместно с методом состязательного обучения позволяет добиваться высокого качества на реальных данных, используя 200-500 размеченных примеров для обучения. Экспериментальное сравнение разработанного метода с современными аналогами показало, что при использовании одинакового числа реальных примеров для обучения наш алгоритм показывает сравнимое или более высокое качество, при этом он имеет более высокую скорость работы и обучения.
В настоящее время в РФ активно ведется освоение северных территорий. Вопросы изучения физических процессов обледенения являются актуальными, так как климатические условия оказывают влияние на поверхность исследуемых объектов (линии электропередач, жилые строения, энергетические установки, летательные аппараты), на безопасность людей и экологию. В облаках возможно появление и движение жидких капель. При исследовании двухфазных потоков, содержащих взвесь аэрозольных частиц (дисперсная фаза) в несущей среде (дисперсионная среда) в атмосфере важно правильно оценивать основные параметры, определяющие систему, и адекватно описывать реальный процесс при помощи сформулированной математической модели. Данная статья посвящена разработке нового решателя iceFoam в составе открытого пакета OpenFOAM v1912 для моделирования процесса обледенения при характерном размере частиц порядка 40 мкм, что соответствует Приложению C Авиационных правил АП-25. Для описания динамики жидких капель используется Эйлер-Лагранжев подход. В качестве термодинамической модели реализована модифицированная модель жидкой пленки по теории мелкой воды. В расчете используется две сетки: одна для моделирования внешнего газокапельного потока, другая, толщиной в одну ячейку, для расчета нарастания льда. При разработке исходного кода на языке программирования C++ использовалась технология наследования, т.е. создания базовых и производных классов. В результате был разработан параллельный решатель iceFoam для моделирования движения динамики жидких частиц и образования льда на поверхности исследуемого тела. Представлены результаты расчета для случая обтекания цилиндра и профиля крыла NACA 0012 с помощью метода URANS и и высокорейнольдсовой модели турбулентности Spalart-Allmaras. Приведены картины распределения толщины льда. Для расчета одного тестового примера было использовано от 8 до 32 вычислительных ядер на вычислительном кластере ИСП РАН.
Развит метод расчета взаимодействия переохлаждённых капель с твердым телом, покрытие которого имеет рельеф и обладает различной степенью гидрофобности. Сформулированы основные критерии соответствия результатов молекулярного моделирования физической реальности. Получены численные оценки параметров рельефа гидрофобной поверхности твердого тела в зависимости от безразмерных динамических параметров удара переохлажденных капель. На основании проведенных ранее экспериментальных исследований, теоретических оценок, аналитических и экспериментальных данных других исследователей в настоящей работе развиты математические модели особенностей кристаллизации переохлажденной метастабильной жидкости. Получены оценки параметров процессов, сопровождающих движение фронта кристаллизации в переохлажденных метастабильных каплях воды в приложении к проблеме обледенения летательных аппаратов.
В статье исследуется задача виртуализации сети на плоскости данных программно-конфигурируемой сети, моделируемой графом физических связей между узлами сети. Виртуальная сеть задается как множество упорядоченных пар хостов (отправитель, получатель), а реализуется множеством путей хост-хост, однозначно определяющим настройки коммутаторов. Множество путей совершенное, если любое подмножество связываемых им пар хостов связывается соответствующим подмножеством путей без возникновения бесконечного движения пакетов по циклу, без дублирующих путей, когда хост получает один и тот же пакет несколько раз, и без непредусмотренных путей, когда хост получает пакет, ему не предназначенный. Для случая, когда подграф, порождённый коммутаторами, является полным графом, устанавливаются достаточные условия существования наибольшего совершенного множества путей, связывающего все пары различных хостов. Предлагаются алгоритмы построения такого наибольшего совершенного множества и даются оценки их сложности. Приводятся результаты компьютерных экспериментов.
В данной статье предлагается метод редукции пространства состояний непрерывно-временных сетей Петри (НВСП) – расширения сетей Петри, где каждому переходу ставится в соответствие временной интервал его срабатывания. Техники контроля времени и памяти определяют различные семантики для НВСП, которые влияют на разрешимость многих стандартных проблем анализа поведения НВСП. В общем случае, пространство состояний НВСП бесконечно и несчетно, и, следовательно, анализ их поведения довольно сложен. С целью разрешения данной проблемы выполняется дискретизация пространства состояний и определяется семантика частичного порядка для НВСП со «слабой» техникой продвижения времени (продвижение времени неограничено) и «промежуточной» техникой контроля памяти (с учетом промежуточных разметок при срабатывании сетевых переходов).
ISSN 2220-6426 (Online)