Решение

RAY – является уникальным самостоятельным решением класса Big Data Discovery, основанным на авторской концепции реализации программного алгоритма, позволяющего превзойти по многим параметрам программные комплексы, использующие инструменты Big Data.

Big Data

Использует методы обучения без учителя (unsupervised learning) для анализа структры данных и обнаружения аномалий (anomaly detection), а также ведения интерактивных расследований (interactive investigation).

Решение RAY обеспечивает потребности: коммерческого сектора, крупных корпораций, госсектора, средних и малых предприятий.

Решение RAY:
- Обеспечивает обнаружение (anomaly detection), отбор (регистрацию), фильтрацию, удаление, маркирование аномалий данных (data anomalies) и редких событий (rare instances). Аномалии обнаруживаются: универсальными инструментами фильтрации, сравнением с эталоном (reference model), другими методами машинного обучения.
- Обнаруживает структурные и параметрические (статистические) аномалии, а также поведенческие аномалии в паттернах (patterns) поведенческих реакций и последовательностях стереотипических действий общностей и систем, состоящих из взаимодействующих объектов.
- Обеспечивает потребности в предиктивной аналитике (predictive analytics) в частности для построения скоринговых (scoring) моделей, обнаружения событий (events detection).
- Может применяться в компьютерных многопроцессорных системах сбора и обработки данных.
- Представляет собой автоматизированное-рабочее место оператора-аналитика компьютерных систем.
- Просто в использовании и развертывание на информационных ресурсах заказчиков.

Под большими данными (Big Data) будем понимать – абсолютную сумму данных, которую можно обработать при помощи всех имеющихся вычислительных компьютерных систем плюс один байт, т.е. большие данные не имеют определенного числового выражения, а являются математической абстракцией, которая показывает, что не весь имеющийся объем данных возможно обработать, всегда существует некоторое число данных, которое не обработано вычислительными средствами и может содержать крайне важную информацию для принятия решения, например, «черного лебедя», иначе – выборка данных вероятно нерепрезентативна. При наблюдении за большими данными все они будут составлять генеральную совокупность.

Однако в реальном мире имеет место эффект "наблюдателя смотрящего в своё окно", т.е. наблюдатель может оценивать мир только по тем данным, которые получает из своего окна. Разве мы вправе отказать ему в суждении об окружающем мире? Можно предположить, что только ему доступно уникальное наблюдение, которое нельзя получить ни какому другому наблюдателю из имеющихся в его распоряжении окон-наблюдения. Поэтому будем понимать под генеральной совокупностью с одной стороны все большие данные (Big Data), с другой стороны все доступные для наблюдения данные. Также сделаем предположение о различной физической природе окон-наблюдения.

В задачах статистического анализа (обнаружения, распознавания, идентификации, имитационном моделировании) в экономике возникают проблемы восстановления законов распределения генеральной совокупности по ограниченному объему наблюдений в условиях высокой априорной неопределенности. Известные методы решения этой задачи можно разделить на два наиболее распространенных подхода, основанных на:
- выборе аппроксимирующей функции из существующих параметрических распределений по внешнему виду гистограмм или выборочных распределений с последующей проверкой гипотез классическими методами.
- методе моментов, который является одним из общих походов в математической статистике для нахождения оценок неизвестных параметров распределений.
Последний подход применим к параметрическим распределениям. Когда исследуемые распределения не заданны параметрически, идентификация распределений по выборочным данным остается проблематичной.

Вероятностные распределения характеристик большинства изучаемых объектов реальности (экономике и социальной сфере и т. п.) в задачах распознавания, обнаружения, идентификации не всегда укладываются в классы хорошо изученных распределений: нормальное, равномерное, экспоненциальное, логнормальное, Релея и т.д., а также широкое разнообразие вероятностных моделей в указанных задачах, в условиях повышения требований к классу решения задач прикладной статистики востребовало расширение существующей практики использования моментов. Сущность нашего метода заключается в приведении всех распределений к интервалу [0, 1] с помощью сдвиговой и масштабной операций. Изучение свойств генеральной совокупности в нормированном пространстве [0, 1] позволяет выявить ее структурные свойства. Метод включает процедуру оптимального обнаружения и исключения аномальных наблюдений из совокупности экспериментальных данных, оптимальность достигается путем максимизации близости параметра однородной совокупности и среднего значения цензурированной выборки, а также для случайных процессов с изменяющимися во времени вероятностными свойствами решается задача обнаружения «разладки».

Более подробно с применяемым методом возможно ознакомиться в следующих работах:
- Уразбахтин А.И. Методы повышения качества первичной обработки экспериментальных данных в задачах управления социально-экономическими системами. Специальность 05.13.10 управление в социальных и экономических системах. Диссертация на соискание ученой степени кандидата технических наук. КГТУ. Курск, 2007, 157 с.
- Сазонов С.Ю. Модифицированный двухэтапный алгоритм идентификации вероятностных моделей социально-экономических объектов / С.Ю. Сазонов, А.И. Уразбахтин // Материалы международной конференции и Российской научной школы. М.: Сов. Радио, часть 7, Том 2 2004. С.109-111.
- Уразбахтин А.И. Алгоритм проверки однородности выборки и ее репрезентативность исследуемому случайному процессу / А.И. Уразбахтин, И.Г. Уразбахтин // Инфокоммуникационные технологии. 2006. № 3 С. 10-14.
- Уразбахтин А.И. Алгоритм определения параметров однородных генеральных совокупностей по репрезентативному ограниченному объему выборки из них / А.И. Уразбахтин, Р.А. Уразбахтин // Инфокоммуникационные технологии. 2006. № 4 С. 31-37.
- Уразбахтин А.И. Свойства моментов приведенных распределений / А.И. Уразбахтин, И.Г. Уразбахтин // Телекоммуникации. 2003. № 10. С. 7-11.
- Уразбахтин А.И. Свойства распределений случайных величин, заданных в ограниченном интервале / А.И. Уразбахтин, Р.А. Уразбахтин // Телекоммуникационные технологии. 2006. № 4 С. 31-37.
- Уразбахтин А.И. Об информативности коэффициентов вариации при решении прикладных статистических задач / А.И. Уразбахтин // Матер. конф. и Россий-ской науч. шк. М.: Сов. Радио, 2006. т.1. ч.3. С. 112-117.
- Уразбахтин А.И. Программная реализация алгоритмов проверки однородности выборки и определения параметров однородных генеральных совокупностей / А.И. Уразбахтин, Р.А. Уразбахтин, В.Б. Журавлев // Матер. между-нар. конф. и Российской науч. шк. М.: Сов. Радио, 2006. т.2 ч.3. С. 84-93.
- Уразбахтин И.Г. Планирование последовательной процедуры по многим критериям / И.Г. Уразбахтин, Дегтярева Е. // Россия на пороге третьего тысячелетия: единство в многообразии: матер. к междунар. симпозиуму. Курск, 1995. ч.2. С. 67-72.
- Уразбахтин И.Г. Структура построения и исследования моделей сложных систем / И.Г. Уразбахтин, Т.К. Нежметдинов, Г.М. Полищук // Прием и обработка информации в сложных информационных системах: Сб. Вып. 16. Казань: КГУ, 1987. с.
- Уразбахтин И.Г. Применение рабочих характеристик в задачах классификации ограниченного объема наблюдений / И.Г. Уразбахтин // Прием и обработка информации в сложных информационных системах: Сб. Вып. 16. Казань: КГУ, 1987. с.
- Уразбахтин И.Г. Структурные методы оценивания близости законов распределения на основе анализа рабочих характеристик / И.Г. Уразбахтин // Прием и обработка информации в сложных информационных системах: Сб. Вып. 16. Казань: КГУ, 1987. с.
- Уразбахтин И.Г. Применение рабочих характеристик в задачах классификации ограниченного объема наблюдений / И.Г. Уразбахтин // Прием и обработка информации в сложных информационных системах: Сб. Вып. 16. Казань: КГУ, 1987. с.
- Уразбахтин И.Г. Структурные методы оценивания близости законов распределения на основе анализа рабочих характеристик / И.Г. Уразбахтин // Прием и обработка информации в сложных информационных системах: Сб. Вып. 16. Казань: КГУ, 1987. с.
- Уразбахтин И.Г. Характеристики связности линейных непараметрических статистик /И.Г. Уразбахтин // Прием и обработка информации в сложных информационных системах: Сб. Вып. 18. Казань: КГУ, 1990. с.
- Уразбахтин И.Г. Основы идентификации в социально-экономических процессах / И.Г. Уразбахтин, Л.Н. Уколова. Курск, 1998, 180 с.
- Уразбахтин И.Г. Меры рассогласования квантильных функций / И.Г. Уразбахтин, Л.Н. Уколова, Ф.Р. Аминеддин //Современные проблемы естественных наук: сб. науч. тр. ГТИ, Курский объединенный центр РАМ, РАЕН, МАИ, КГТУ, КГМУ. Курск, 1998. С. 230-233.
- Urazbakhtin I.G. Identification of the distribution by the method of reduced law / I.G. Urazbakhtin, L.N. Ukolova, F.R. Amineddin // The Egyptian statistical journal Institute of statistical, 1999. № 2, с.
- Уразбахтин И.Г. Меры рассогласования законов распределений вероятностей и их концептуальные модели / И.Г. Уразбахтин, Л.Н. Уколова, Ф.Р. Аминеддин // Известия, науч. изд. № 2. КГТУ, 1998. с. 46-55.

Область применения метода, например для:
- Выявления структурных признаков фрода (fraud), например, сравнением с известным, ранее добытым эталоном фрода.
- Выявления фрода путем наблюдения (как правило длительного) за всеми известными "честными" объектами и разделения "честных" объектов и фрода, например, методами кластеризации и фильтрации, т.е. методом исключения.
- Выявления фрода математическим методом, т.е. прямым вычислением.
- Выявления фрода комбинированным методом.

Полезные знания при выборе решения:
- Нейросети (как и все классификаторы) хороши только для однородных и репрезентативных данных, акцент на нейросетях сделан по причине (легкой) доступности "open source" библиотек с очень мощными алгоритмами, которые стали активно применять по поводу и без. По-простому - если данные неоднородны и нерепрезентативны, то нейросеть Вас обманет и Вы этого не заметите, а далее обучиться на ложном опыте.
- Ранжирование - это крайне эффективный и практически полезный лженаучный инструмент, применение которого возможно в случаях, где наука пока бессильна. В практических задачах информационно-аналитической обработки данных применение ранжирования недопустимо, так как прямым образом противоречит теории информации. По-простому - если Вы ранжируете, значит "промахнулись" с законом распределения.
- Главным современным трендом бизнес-(digital)-аналитики является её усложнение, факты больше не в моде, перспективно только то, что позволяет предсказывать будущее и им управлять, однако аналитики: бизнес и системные, архитекторы (системные) получают оплату своего труда в 2-3 раза меньше программистов или менеждеров по продажам, реализующих их "планы", вывод: "вангование" не в почете у работодателей и данная тенденция не измениться до тех пор пока аналитики не будут пользоваться такими специальными средствами, которые позволят делать понастоящему ценные, незаменимые в бизнесе выводы, а лучше сразу выдавать типовые решения прямо увеличивающие прибыль. Идея искать такие специальные средства среди "open source" решений безусловна перспективна, например, как одна из задач исследования ИТ-рынка.
- Бойтесь тех кто: "строит репрезентативные выборки из исходного массива данных", "создает репрезентативную выборку из гигантских объемов первичных данных", "обеспечивает целостной и полезной информацией (репрезентативным набором данных)", или кому: "прежде приходилось полагаться на так называемую репрезентативную выборку или подмножество информации, а сейчас на обработку информационного массива целиком для получения более достоверных результатов анализа", а также используют "понятия", например, "полноты и объективности информации".
- Большинство конкурирующих решений Big Data позволяют сделать покупателю обоснованное (контекстно-зависимое) предложение, но не могут его заставить искать и пробовать новый товар.
- Большинство конкурирующих решений Business Intelligence не учитывают, что покупатель и продавец находятся в состоянии динамической (дифференциальной) игры с несопадающими интересами сторон.
- Наше решение устраняет оба этих недостатка, а также интерпретирует структуру хаотических динамических систем с целью выявления в их составе объектов с признаком "эффекта бабочки", направления связей таких объектов и дискурса связей, делает прилет "черных лебедей" наблюдаемым, а "управляемый хаос" управляемым.
- Мы проводим самостоятельные исследования в различных прикладных областях науки о данных (data science).
- Мы предоставляем услуги по анализу данных (data analysis), разрабатываем методики обработки, хранения, представления данных.

Преимущества RAY:
- Вся информация хранится на территории РФ.
- По большинству ключевых параметров превосходит аналоги.
- Устраняет либо сводит к минимуму эффект «проклятия больших данных».
- Предоставляет широкие возможности наглядной визуализации и интерпретации данных.
- Аналитик не располагает копией базы данных (база данных остается у владельца данных).
- Исключает возможность редактирования аналитиком данных для «подгонки» результата.
- Использует более совершенные алгоритмы кластерного анализа.
- Обеспечивает обработку больших массивов данных на малых вычислительных мощностях.

RAY

Является инструментом анализа структуры данных и обеспечивает: ввод данных от множества источников данных (в общем случае, баз данных и неструктурированных списков) в виде потока векторов связей объектов, связывание (смешивание) данных, вычисление кластеров данных, визуализацию, обнаружение объектов, анализ всех связей объектов, и всех связей объектов с ним взаимодействующих, поиск аномалий в данных, проведение расследований в отношении объектов, ведение их досье, поиск, отбор, исключение, удаление объектов, наблюдение за изменениями в схемах взаимодействия объектов, использует методы обучения без учителя для вычисления связей объектов, не содержит в своем составе вмененных шаблонов или методик поиска аномалий, а имеет универсальные инструменты, обеспечивающие их поиск.

RAY

RAY предназначен для административных, коммерческих, финансовых, управленческих, надзорных и прогностических целей.

RAY обеспечивает оценку взаимосвязей (взаимных сопряженностей), тем самам, например, сокращает количество регрессоров, точнее делает их выбор более обоснованным, еще точнее обеспечивает динамическую ротацию списка регрессоров в зависимости от изменения состояния исследуемой системы, что позволяет совершенствовать критерии оценки качества уравнений регрессий.

Тактико-технические характеристики программного комплекса "RAY Imaqliq (Keginee)"

Параметр Значение
Количество отображаемых связей Объектов ≤ 1 000 000
Количество отображаемых Объектов ≤ 1 000 000
Время вычисления 50 000 связей, секунд ≤ 3
Время вычисления 1 000 000 связей, секунд ≤ 60
Вычисление новых и обновление связей Объектов +
Вычисление кластеров +
Вычисление сообществ в кластерах +
Визуализация графа кластеров +
Цветовая градация связей Объектов +
Цветовая градация точек в зависимости от величины дискурса +
Отображение связи-жгута +
Отображение досье Объектов +
Отображение меток Объектов +
Отображение меток связей +
Удаление Объектов, в том числе с захватом региона +
Масштабирование и перемещение по графу кластеров +
Маркирование связей Объекта на заданную глубину слоев 5
Фильтрация Объектов по дискурсу и количеству связанных Объектов +
Формирование таблиц отбора, исключения, удаления и их экспорт +
ОС Windows, Linux
Архитектура х86, х64
Framework Qt
Язык программирования C++
Лицензия простая несключительная

Тактико-технические характеристики программного комплекса "RAY PRO 1x"

Параметр Значение
Количество вычисляемых уникальных связей Объектов для 4, 8, 16, 32, 64, 128 Гб оперативной памяти компьютерной системы, млн. ≤ 2,5, 5, 10, 20, 40, 80
Количество уникальных Объектов для 4, 8, 16, 32, 64, 128 Гб оперативной памяти компьютерной системы, млн. ≤ 2,5, 5, 10, 20, 40, 80
Количество отображаемых уникальных связей Объектов для 4, 8, 16, 32, 64, 128 Гб оперативной памяти компьютерной системы, млн. ≤ 2,5, 5, 10, 20, 40, 80
Время вычисления связей, секунд ≤ 3, 6, 12, 24, 48, 96 (+/- 3)
Расслоение во временной области +
Расслоение в пространственной области +
Расслоение по дискурсу +
Расслоение в Объектной области +
Разделение Объектов на классы на входе и выходе
Метод обучения без учителя (самообучения) кластерный каскадный
Входной обнаружитель Объектов параллельный, каскадный коррелятор
Обнаружение кластеров k-means++
Классификация сообществ в кластерах c-means
Выходной классификатор Объектов цепь Маркова
Визуализация графа кластеров +
Автозахват и сопровождение динамического Объекта +
Сравнение с эталоном связь, связи, кластер, сообщество, граф кластеров
Хранение эталона +
Маркирование эталона при отображении +
Цветовая градация связей Объектов прямая, обратная, дуплексная, особая, эталонная
Отображение досье Объектов +
Отображение меток Объектов +
Отображение меток связей +
Формирование таблиц отбора, исключения, удаления и их экспорт +
ОС Windows, Linux
Архитектура х86, х64
Лицензия простая несключительная

Отдельные особенности RAY:
- Заявленные параметры приведены для уникальных связей Объектов, в независмости от направления (уникальные связи Объектов - это любая пара Объектов, которая встречается в данных только один раз; связи Объектов - это любая пара Объектов, которая встречается в данных сколько угодно раз).
- Количество связей Объектов ограничено только размерами дискового пространства.
- Скорость ввода связей Объектов в RAY PRO равна Lim (скорость считывания данных с диска ЭВМ минус 1%).
- Если данные представлены не в формате RAY, то их необходимо подвергнуть процедуре синтаксического анализа - "распарсить" (parsing).
- Время синтаксического анализа данных не учитывается в параметрах быстродействия, приведенных выше.
- Формат входных данных запатентован.
- Для описания Объектов используется досье, формат досье запатентован.
- Формат pandas series и dataframe не поддерживается. Данные в форматах pandas series и dataframe ввести можно, преобразовав в формат RAY.
- Модификации программного комплекса "RAY PRO": 1x, 2x, 3x, 4x.
- Прямой ввод (прямая обработка) видео или последовательности изображений невозможна.
- Получить детальное описание, РЭ, ТУ, презентации, демо-версии, узнать цену, купить, можно только связавшись с нами по почте.

Области применения:
- Бизнес-инженеринг: математический расчет бизнеса и сценария (бизнес-плана) его реализации: инвестиции - реализация - извлечение прибыли - модификация или выход, в наиболее эффективных нишах, сформировавшихся в текущей экономической ситуации.
- Маркетинг: формирование тренда для имеющего рынка сбыта, разработка плана преодоления стагнационных процессов.
- Банковская деятельность: весь спектр задач службы внутреннего аудита и безопасности.
- Торговые сети - геолокационная аналитика, рекомендательные системы, прогнозирование спроса и управление запасами, A/B тестирование, сегментация покупателей, персональные предложения, анализ рыночной корзины, оптимизация цепей поставок, борьба с мошенничеством.
- Корпорации, реинжиниринг, финмониторинг и сбережение ресурсов.
- Контекстная реклама, таргетинг.
- Выборы, пиар, пропаганда, социология.
- Информационная безопасность, кибербезопасность (syber securety), реверс-инжиниринг.
- Мобильные операторы и интернет-провайдеры: СОРМ, биллинг.
- Расследование деятельности оффшорных компаний, финансовых пирамид, микро-финансовых организаций.
- Расследование преступлений в сфере компьютерной информации, международных преступлений в сфере информационных технологий, противоправных действий в информационно- телекоммуникационных сетях, включая сеть Интернет.
- Расследование преступлений экономической и коррупционной направленности, в том числе совершенными организованными группами, преступными сообществами (преступными организациями), носящими транснациональный или межрегиональный характер, либо вызывающими большой общественный резонанс, выявление схем легализации (отмывания) доходов, полученных преступным путем, расследование в сфере внешнеэкономической деятельности.
- Розыск обвиняемых, осужденных и лиц, пропавших без вести.
- Оперативно-розыскная деятельность.
- Медицина: борьба с эпидемиями, статистические исследования.
- Электронная кадровая служба (HR).
- Промышленный дизайн - определение уникальных характеристик новых продуктов.
- Вежливые задачи.


Рекомендуемые параметры ЭВМ для работы c RAY PRO

Параметр Значение
Центральный процессор Intel i7, Xeon
Оперативная память 32 Гб DDR-4
Жесткий диск SSD 1 Тб
Порты ввода-вывода Gigabit Ethernet
Монитор - диагональ экрана 32"
Видеокарта NVIDIA Quadro М6000
Системная шина PCI-E 3.0

О НАС

Наша цель сделать мир безопаснее
Мы поддерживаем усилия отечественных разработчиков программного обеспечения
RAY использует запатентованную технологию и имеет свидетельство о регистрации программы для ЭВМ

Наши партнеры:


Мы являемся холдингом, в состав которого входит Торговый дом "РЭЙ"
Торговому дому "РЭЙ" делегированы представительские функции и право продажи программного обеспечения

КОНТАКТЫ

Адрес:
305007, Российская Федерация, город Курск, улица Монастырская Балка дом 2, офис 21
Электронная почта: cyberdynamics@yandex.ru

Адрес Торгового дома "РЭЙ":
129110, Российская Федерация, город Москва, улица Гиляровского, дом 57, строение 1, помещение I, комната 22

Рейтинг@Mail.ru