Статья Раскрытие киберпреступников: гибридный подход глубокого обучения для атрибуции на основе поведения

admin · 17.07.2024

Содержание

Abstract
1. Introduction
2. Related Works
3. Background
3.1 Transformer Architecture
3.2 Convolutional Neural Networks
3.3 Residual Connections
3.4 Regularization Techniques
3.5 Hyperparameter Tuning
3.6 Cross Validation
3.7 Metrics for Evaluation
4. Dataset
5. Methodology
5.1 Standardized Command Language (SCL)
5.2 Architecture
5.3 Data Preparation
6. Experiments
6.1 Experimental Environment
6.2 Hyperparameter Tuning
6.3 Cross Validation
7. Results
References

Краткое описание каждого раздела

Abstract: Аннотация и ключевые результаты исследования.
1. Introduction: Введение в тему исследования, цель и задачи.
2. Related Works: Обзор связанных работ и существующих методов.
3. Background: Теоретические основы и технические аспекты, включая архитектуру трансформеров и сверточных нейронных сетей.
4. Dataset: Описание использованного набора данных.
5. Methodology: Методы и подходы, использованные в исследовании.
6. Experiments: Описание экспериментальной среды и результатов настройки гиперпараметров.
7. Results: Итоговые результаты экспериментов и их интерпретация.
References: Список использованной литературы и источников.

### Аннотация (Abstract)

В данной работе мы используем методы обработки естественного языка и алгоритмы машинного обучения для профилирования угрозовых акторов на основе их поведенческих подписей с целью установления мягкой атрибуции. Наш уникальный набор данных включает различные акторы и команды, которые они выполнили, с значительной долей использования платформы Cobalt Strike в период с августа 2020 по октябрь 2022 года. Мы реализовали гибридную архитектуру глубокого обучения, объединяющую трансформеры и сверточные нейронные сети, чтобы извлечь глобальную и локальную контекстуальную информацию в последовательности команд, что предоставляет детализированный вид на поведенческие паттерны угрозовых акторов. Мы оценили нашу гибридную архитектуру по сравнению с предобученными моделями на основе трансформеров, такими как BERT, RoBERTa, SecureBERT и DarkBERT, используя наши наборы данных с высокой, средней и низкой частотой встречаемости. Гибридная архитектура достигла F1-оценки 95.11% и точности 95.13% на наборе данных с высокой частотой встречаемости, F1-оценки 93.60% и точности 93.77% на наборе данных со средней частотой встречаемости, и F1-оценки 88.95% и точности 89.25% на наборе данных с низкой частотой встречаемости. Наш подход имеет потенциал существенно сократить рабочую нагрузку специалистов по инцидентам, которые обрабатывают собранные данные кибербезопасности для выявления паттернов .

Введение (Introduction)

Значимость атрибуции киберугроз

Атрибуция киберугрозовых акторов (CTA) является критическим аспектом киберугрозовой разведки (CTI) и цифровой криминалистики, а также исследований инцидентного реагирования. Это процесс идентификации ответственной стороны или актера за определенную кибератаку. Важность атрибуции заключается в определении источника прошлых атак и возможности проведения предсказательных анализов для потенциальных будущих атак. Один из аспектов атрибуции CTA, который повышает ее точность и значимость, — это включение поведенческих подписей и профилирования угрозовых акторов.

Поведенческие подписи и профилирование угрозовых акторов

Поведенческие подписи относятся к уникальным паттернам активности, которые можно ассоциировать с конкретным угрозовым актором. С другой стороны, профилирование угрозовых акторов включает создание комплексных профилей киберпреступников на основе ряда атрибутов, включая, но не ограничиваясь, их поведенческие подписи, используемые инструменты, тактики, техники и процедуры (TTPs). Профилирование не только идентифицирует акторов, но и устанавливает окончательные руководящие принципы для атрибуции.

Основные проблемы и вызовы

Одной из основных проблем с атрибуцией киберпреступников и цифровой криминалистикой является качество данных киберугрозовой разведки. Многие аналитики считают, что потоки данных киберугрозовой разведки могут быть разного качества. Иногда им может не хватать богатства данных, что означает, что они могут не содержать достаточно детализированной информации для установления надежных поведенческих подписей или построения комплексных профилей. В результате аналитики должны прилагать значительные усилия для обработки и анализа собранной информации, часто перебирая редкие и шумные данные для выявления ключевых индикаторов атрибуции. Следовательно, интеграция поведенческих подписей и профилирования угрозовых акторов может обогатить процесс атрибуции и сделать его более эффективным и действенным.

Важность автоматизированного подхода

Критическим вызовом в исследованиях CTI является необходимость профессионального и автоматизированного подхода к назначению угрозы конкретному актеру или группе, используя команды, выполненные этим угрозовым актером, в качестве основы. Эксперты по цифровой криминалистике могут значительно выиграть от атрибуции угроз конкретным акторам на основе анализа команд. Изучая уникальные команды и последовательности, которые использует угрозовой актер, эксперты могут выявить уникальные поведенческие паттерны, которые действуют как цифровые отпечатки пальцев. Это облегчает и ускоряет расследования, предоставляя информацию для идентификации нападающих.

Цель и структура работы

Цель данной работы — заполнить этот пробел, предоставив атрибуцию CTA на основе последовательностей команд, которые они выполнили. Наша методология подчеркивает важность мягкой атрибуции, так как она позволяет профилировать и классифицировать угрозовых акторов на основе наблюдаемых поведенческих паттернов без необходимости в конкретных доказательствах, требуемых для жесткой атрибуции. Такой подход особенно эффективен в условиях, когда прямые доказательства могут быть недоступны, а нападающие часто используют сложные методы, чтобы скрыть свою идентичность.

Заключение

Наша работа подчеркивает силу и потенциал методов обработки естественного языка (NLP) и архитектур глубокого обучения в решении сложных задач цифровой криминалистики. Наше исследование представляет собой важный шаг вперед к эпохе, когда автоматизированные интеллектуальные системы играют центральную роль в укреплении нашей инфраструктуры кибербезопасности и упрощении задач цифровой криминалистики, а также в решении проблем инцидентного реагирования, вводя новый метод атрибуции CTA. Путь вперед наполнен многообещающими возможностями для инновационных и передовых исследований в области киберзащиты и киберугрозовой разведки.

Связанные Работы (Related Works)

Традиционные методы атрибуции киберугроз

В традиционных подходах к атрибуции киберугроз наиболее распространенным методом является ручной анализ. Наше исследование является первым, предлагающим атрибуцию CTA на основе последовательности команд, выполненных актерами, с использованием различных методов обработки естественного языка (NLP) и машинного обучения. Тем не менее, было несколько попыток атрибуции угрозовых акторов с использованием методов машинного и глубокого обучения, основанных на поведении акторов.

Подходы к анализу вредоносного ПО

Недавние исследования предложили идею поиска сходств между вредоносным ПО, что позволяет деанонимизировать CTA на основе исходного кода и поведения вредоносного ПО. Розенблюм и др. развернули идею атрибуции авторства бинарных программ на основе стилистических сходств авторов между программами с использованием методов машинного обучения.

Анализ отчетов CTI

Нур и др. провели исследование, используя методы NLP и машинного обучения для анализа отчетов CTI. Их основной целью было выявление и профилирование CTA, нацеленных на FinTech, на основе специфических паттернов их атак. Для этого они применили технику NLP, известную как распределительная семантика. Они обучили и оценили различные модели машинного и глубокого обучения, используя эти общедоступные отчеты CTI. Примечательно, что разработанная ими модель глубокого обучения достигла точности 94%.

Иршад и Сиддики также сосредоточились на атрибуции киберугрозовых акторов, используя методы NLP и машинного обучения для анализа неструктурированных отчетов CTI. С учетом того, что кибератаки часто используют маскировку и обман для сокрытия своей идентичности, исследователи стремились разработать автоматизированную систему для извлечения признаков из этих отчетов для профилирования и атрибуции атак. Эти признаки включают тактики, техники, инструменты, вредоносное ПО и информацию о целях. Они использовали модель встраивания, называемую "Attack2vec", обученную на доменно-специфических встраиваниях. Различные алгоритмы машинного обучения, такие как дерево решений, случайный лес и метод опорных векторов, использовались для классификации. Модель достигла точности 96%.

Перри, Шапира и Пузис предложили метод атрибуции атак, включающий текстовый анализ отчетов CTI, используя методы NLP и машинного обучения. Исследователи разработали уникальный алгоритм представления текста, способный захватывать контекстную информацию. Их подход использует представление текстов векторного пространства, полученное из комбинации размеченных отчетов и обширного корпуса литературы по безопасности. На основе предыдущего исследования Пузис и Ангаппан провели новое исследование, посвященное атрибуции угрозовых акторов на основе аналогичных отчетов CTI. В отличие от традиционных методов машинного обучения, которые сосредоточены на анализе образцов вредоносного ПО, это исследование предлагает архитектуру глубокого обучения для задачи атрибуции.

Гибридная архитектура глубокого обучения

В нашем исследовании мы использовали архитектуры NLP, такие как трансформер, которые обучаются на последовательности токенов для создания модели машинного обучения. Эти методы учатся на позициях токенов и могут понимать скрытые отношения между этими токенами. Понимание отношений между последовательностью команд и их связями способствует процессу атрибуции, так как выявляет их скрытые особенности. Мы также использовали различные методы глубокого обучения, объединяя возможности архитектуры трансформеров со сверточными нейронными сетями (CNN). В данном исследовании представлена уникальная гибридная архитектура глубокого обучения, интегрирующая различные методы, специально разработанные для сложной задачи атрибуции угрозовых акторов. Мы сравнили нашу гибридную архитектуру глубокого обучения с известными предобученными моделями, такими как BERT, RoBERTa, SecureBERT и DarkBERT.

Основные достижения нашего исследования включают:

Предложение первого исследования, посвященного анализу и атрибуции вредоносных команд, выполненных угрозовыми акторами на скомпрометированных машинах, что обычно является неэффективным и трудоемким процессом для специалистов по цифровой криминалистике или инцидентному реагированию.
Создание Конвертера стандартизированного командного языка (SCLC), который преобразует необработанные команды в стандартизированный язык для улучшения эффективности и точности архитектур NLP и уменьшения переобучения.
Разработка гибридной архитектуры глубокого обучения для атрибуции угрозовых акторов, превосходящей существующие предобученные модели на основе трансформеров, такие как BERT, RoBERTa, SecureBERT и DarkBERT. Гибридная архитектура достигла F1-оценки 95.11% и точности 95.13% на наборе данных с высокой частотой встречаемости, F1-оценки 93.60% и точности 93.77% на наборе данных со средней частотой встречаемости и F1-оценки 88.95% и точности 89.25% на наборе данных с низкой частотой встречаемости.

Основы (Background)

Этот раздел посвящен предоставлению фундамента основных концепций и более всестороннему пониманию контекста нашего исследования, подчеркивая специфические вызовы и соображения в рамках исследований атрибуции киберугроз.

3.1 Архитектура трансформеров

Архитектура трансформеров была впервые предложена Васвани и др. [29]. Она отличается от предыдущих техник обработки естественного языка (NLP) тем, что намного лучше справляется с дальними зависимостями. Трансформер использует механизм внимания, который помогает модели создавать глобальные зависимости между входными и выходными данными. Эта архитектура состоит из двух основных компонентов: кодировщика и декодировщика, и оба эти компонента имеют механизмы самовнимания и позиционно-зависимых прямых распространений. Механизм самовнимания заменяет идею рекуррентности, которая использовалась в предыдущих архитектурах NLP, таких как LSTM [9]. Этот механизм позволяет модели решать проблему дальних зависимостей, взвешивая важность различных входов для генерации каждого выхода в последовательности. Кроме того, в архитектуре трансформеров используется механизм позиционного кодирования, так как, в отличие от предыдущих архитектур NLP, трансформеры не имеют рекуррентного механизма, который позволяет учитывать порядок последовательности, что является ключевым аспектом задач NLP. Позиционное кодирование предоставляет архитектуре трансформеров информацию о последовательности, добавляя уникальный сигнал к каждому входному токену, представляющему его позицию в последовательности. Это позволяет архитектуре учиться и обобщать позиционные отношения между токенами.

В этом исследовании трансформеры могут помочь выявить киберугрозовых акторов на основе команд, используемых злоумышленниками. Последовательности команд, выполненные актерами, часто содержат длинные зависимости, где значение команды может быть обусловлено командой, выполненной давно. Поэтому архитектура трансформеров используется в нашей гибридной архитектуре глубокого обучения. Архитектура трансформеров также использовалась для обучения более крупных языковых моделей, таких как BERT [4], RoBERTa [14], SecureBERT [1] и DarkBERT [11]. Эти модели использовались в качестве базовых для конкретных задач, так как они были обучены на большом корпусе текстов. Использование этих предобученных моделей на основе трансформеров в специфической задаче требует дообучения модели с новым набором данных для конкретной доменной задачи. В нашем случае этим набором данных являются последовательности команд киберугрозовых акторов.

3.2 Сверточные нейронные сети

Сверточные нейронные сети (CNN) [13] — это алгоритм глубокого обучения, используемый в первую очередь для обработки структурированных сеточных данных. CNN оказались наиболее влиятельными в приложениях для распознавания изображений и видео. Основным компонентом этой архитектуры является операция свертки, которая позволяет модели учить пространственные иерархии признаков. Например, признаки на ранних слоях могут быть краями и текстурами, а на поздних слоях — частями объектов.

Для анализа последовательностей команд киберугрозовых акторов мы используем одномерные сверточные нейронные сети (Conv1D). Этот подход захватывает локальные и контекстуальные признаки из последовательностей команд, скользя фильтрами по тексту. Используя фильтры разных размеров, соответствующие различным анализам n-грамм, сеть становится более способной извлекать разнообразные семантические и синтаксические признаки, которые указывают на поведение киберугрозового актора. В нашем случае команды киберугрозовых акторов могут считаться текстом. Следовательно, эти последовательности могут иметь паттерны, которые могут дать представление о характеристиках поведения киберугрозового актора, и Conv1D может извлечь эти паттерны.

3.3 Резервные соединения

Резервные соединения, введенные Хе и др. [7], реализованы путем добавления выхода более раннего слоя к выходу более позднего слоя, пропуская несколько слоев. Это ценно, потому что снижает проблему "исчезающих градиентов", которая обычно возникает при обучении сложных моделей. Проблема исчезающих градиентов заключается в том, что градиенты становятся очень малыми на более глубоких слоях обучаемой модели, что может замедлить процесс обучения. Резервные соединения решают эту проблему, позволяя градиентам течь от более ранних слоев к более поздним, улучшая эффективность обучения даже в очень глубоких сетях.

3.4 Техники регуляризации

Переобучение — это общая проблема, которую необходимо решать, когда модель слишком хорошо учится на обучающих данных и плохо работает на невидимых данных. Эту проблему можно смягчить с помощью техник регуляризации, таких как дропаут [26] и убывание весов [15].

Дропаут — это техника регуляризации, которая случайным образом устанавливает часть входных элементов в 0, что помогает предотвратить переобучение, приводя к общей и устойчивой модели. Кроме того, пространственный дропаут [27] — это специфический тип дропаута, используемый в CNN, который сохраняет пространственную когерентность входных данных, что позволяет модели учить пространственно локальные признаки. В нашем случае пространственный дропаут может быть полезен, так как он более способен помочь архитектуре захватывать значимые локализованные признаки. Например, пиксели на изображении могут формировать значимые паттерны в локальном контексте, такие как края, текстуры и формы. Аналогично, локальные паттерны могут иметь значительное значение в последовательностях команд, такие как флаги команд, аргументы и их последовательный порядок. Кроме того, убывание весов — это еще одна техника для смягчения проблемы переобучения. Этот метод предотвращает достижение большими значениями весов модели, что может привести к переобучению, добавляя штрафной термин к функции потерь.

3.5 Настройка гиперпараметров

Гиперпараметры — это параметры, устанавливаемые перед обучением модели, которые изменяют ее работу. Например, они включают долю дропаута, убывание весов, скорость обучения, количество эпох, которые модель должна пройти, и многие другие. Процесс выбора гиперпараметров важен, так как он существенно влияет на модель.

3.6 Кросс-валидация

Техника кросс-валидации используется для оценки эффективности и устойчивости модели. Сначала мы делим набор данных на : поднаборов. Один из этих поднаборов используется для валидации, а остальные : − 1 поднаборов — для обучения модели. Этот процесс повторяется : раз, каждый раз обновляя поднабор, используемый в качестве валидационного набора, и обучающий набор как остальные. В итоге : результатов усредняются для получения более устойчивой метрики. Кроме того, рассчитывается стандартное отклонение производительности по : частям, где низкое стандартное отклонение указывает на то, что модель устойчива и последовательно работает на разных подмножествах данных.

3.7 Метрики для оценки

Мы используем две метрики для оценки нашей модели: точность и взвешенную F1-оценку. Точность просто измеряет долю правильно классифицированных экземпляров.

F1-оценка — полезная метрика при работе с несбалансированными классами. Это гармоническое среднее точности и полноты, которые рассчитываются на основе истинных положительных, ложных положительных и ложных отрицательных значений.

Для многоклассовых задач, таких как наша с более чем 2 киберугрозовыми акторами, мы рассчитываем взвешенное среднее F1-оценок.

Набор данных (Dataset)

Источник и содержание данных

Компания PRODAFT предоставила частные данные разведки угроз, собранные с августа 2020 года по октябрь 2022 года. Команды, выполненные злоумышленниками, были зафиксированы PRODAFT с использованием различных частных серверов-ловушек, расположенных в Китае, Европе и США. Целью является уменьшение рабочей нагрузки аналитиков по кибербезопасности и содействие прогрессу в области разведки киберугроз.

Набор данных включает несколько атакующих фреймворков, таких как Cobalt Strike. Исходная форма данных состоит из списков команд, выполненных CTA, вместе с точным временем их выполнения. Данные уже сгруппированы по уникальным идентификаторам CTA, таким образом, данные помечены псевдонимами CTA. Например, таблица 1 показывает пример структуры команды и ее содержимого. Данные JSON о выполнении команд состоят из двух полей, а именно данных и временной метки. Поле данных содержит информацию и команды, выполненные CTA. С другой стороны, поле временной метки предназначено для хранения данных о времени UNIX.

Разнообразие и размер данных

Набор данных в основном содержит 34 CTA с более чем 5000 командами. Количество последовательностей команд в наборе данных для каждого CTA не является единообразным, то есть, в то время как у CTA#1 есть 1500 команд, у CTA#25 всего 21 последовательность команд, как показано на рисунке 1. Только один использует настраиваемое вредоносное ПО под названием SocGholish, а остальные злоумышленники используют Cobalt Strike для выполнения команд. Разнообразие вредоносного ПО обусловлено тем, что мы хотели продемонстрировать, что наша архитектура может предсказывать злоумышленников, использующих различное вредоносное ПО, и может также предсказывать различных злоумышленников, даже если они используют одно и то же вредоносное ПО. Три самых важных CTA в нашем наборе данных принадлежат различным известным группам злоумышленников. Их детали можно увидеть в таблице 2; принадлежность остальных CTA неизвестна, но известно, что они различны.

Пример данных команды

Детали важнейших CTA

Схема Конвертера Стандартизированного Языка Команд (SCLC) включает преобразование неструктурированных и разнообразных командных данных в универсальный формат, который соответствует определенным синтаксису и семантике, определенным SCL, например, преобразование разных синтаксисов файловых путей в универсальный. Создание такого языка обеспечивает более точную, масштабируемую и единообразную среду для обработки языков, повышая общую эффективность и точность нашей архитектуры NLP. Как показано на рисунке 2, сырая команда должна пройти через четыре этапа, прежде чем стать обработанной командой.

Методология (Methodology)

5.1 Конвертер стандартизированного командного языка (SCL)

Переобучение — это явление, описывающее, когда разработанная модель машинного обучения хорошо работает на наборе данных, использованном для обучения модели, но плохо работает на наборе данных, который модель ранее не видела. Например, киберпреступники могут использовать крайне специфические имена файлов, IP-адреса, URL-адреса и даты. Это может привести к тому, что наша модель машинного обучения будет изучать эти конкретные характеристики, а не характеристики, представляющие поведенческие и процессуальные особенности угрозового актора. Команды должны быть преобразованы в более общую форму, чтобы предотвратить эту проблему. Поэтому в этом исследовании был создан промежуточный компонент для преобразования каждой команды в более общую форму.

Конвертер стандартизированного командного языка (SCLC) призван упростить необработанные команды в стандартизированный командный язык (SCL), специально созданный для стандартизации командных данных. SCLC включает преобразование неструктурированных и разнообразных командных данных в универсальный формат, соответствующий определённому синтаксису и семантике, определённым SCL, например, преобразование различных синтаксисов файловых путей в универсальный. Создание такого языка обеспечивает более точную, масштабируемую и единообразную среду для обработки языка, повышая общую эффективность и точность нашей архитектуры NLP. Как показано на рисунке 2, сырая команда должна пройти через четыре этапа, прежде чем стать обработанной командой.

5.1.1 Шаг обобщения данных SCLC

Первое место, где SCLC обрабатывает сырые данные. Мотивация этого шага заключается в создании общей карты команд, так как различные вредоносные ПО, используемые CTA, работают в различных средах и почти совершенно различными способами. Поэтому мы вручную проверили общие и похожие команды, чтобы создать карту для похожих команд в единую команду. Более того, все пути файлов, домены, имена пользователей и индикаторы для CTA скрываются SCLC.

5.1.2 Шаг генерации временных характеристик SCLC

Данные включают временную метку выполнения команды, так что можно легко определить количество секунд между двумя последовательными командами. Затем мы рассчитываем прошедшие секунды для каждой последовательной команды и вставляем их как команду между ними. Таким образом, мы имитируем время ожидания между словами, которые автор пишет в своей книге, или, в нашем случае, процесс мышления угрозового актора перед выполнением любой команды.

5.1.3 Шаг анализа шума SCLC

На этом этапе любые последовательности выполнения команд, содержащие более 32 команд, разделяются на последовательности с 32 командами. Основная причина разделения заключается в подготовке унифицированной структуры последовательностей выполнения команд, другими словами, для обработки несбалансированного распределения команд в последовательностях выполнения команд. Кроме того, без какого-либо разделения обучение модели становится неосуществимым, и последствия разделения незначительны.

5.2 Архитектура

В этом исследовании мы используем гибридную структуру глубокого обучения, которая объединяет возможности трансформеров и CNN для атрибуции CTA. Наша архитектура разработана для захвата глобальной и локальной контекстуальной информации в последовательности команд. Это важно, поскольку значимость определённых терминов в командах может существенно измениться в зависимости от более широкого, глобального контекста. Например, определённая команда, используемая в одном контексте, может не помочь нам атрибутировать CTA. Однако при анализе связи между другими командами эта конкретная команда может указывать на уникальные операционные паттерны определённого CTA. Такое понимание требует гибридной архитектуры, которая может понимать как непосредственное окружение термина (локальный контекст), так и более широкую последовательность команд (глобальный контекст).

5.3 Подготовка данных

Мы преобразуем заданную последовательность команд в числовые токены, чтобы наша архитектура NLP могла понимать и учиться на этих командах. Как видно на рисунке 4, каждое уникальное слово в командах извлекается и сопоставляется с числом, а затем мы заменяем каждое слово в обработанных данных соответствующим числом. Например, команда на рисунке 4 показывает, что команда execute_cmd интерпретируется как число 2512. Кроме того, чтобы сделать все наши последовательности одинаковой длины, мы фиксируем максимальную длину последовательности в оптимальное количество токенов (в нашем случае 256) и дополняем более короткие последовательности до максимальной длины, добавляя произвольные токены. После завершения токенизации наши данные полностью представлены численно.

Эксперименты (Experiments)

6.1 Экспериментальная среда

Для создания нашей экспериментальной среды мы использовали библиотеку глубокого обучения PyTorch [18]. Кроме того, наше исследование использовало несколько предобученных моделей на основе трансформеров, а именно BERT, RoBERTa, SecureBERT и DarkBERT. Эти модели реализованы с использованием библиотеки Transformers от Hugging Face.

Наш набор данных состоит из последовательностей команд 34 угрозовых акторов. Однако размер данных о CTA не является равномерным. Для обработки дисбаланса в размерах наборов данных мы разделили CTA на три категории: большой объем, средний объем и малый объем. Эксперименты проводятся на этих наборах данных разного размера, используя все упомянутые модели глубокого обучения, чтобы обеспечить комплексную оценку. Затем, как было объяснено ранее, набор данных делится на обучающий набор, который составляет 70% данных, валидационный набор, составляющий 15%, и тестовый набор, составляющий оставшиеся 15%.

6.2 Настройка гиперпараметров

Для предобученных моделей на основе трансформеров гиперпараметры, подлежащие настройке, включают скорость обучения, количество эпох обучения модели и убывание веса. Более того, для нашей гибридной архитектуры гиперпараметры, подлежащие настройке, включают долю дропаута, количество эпох, скрытый размер, размер ядра, скорость обучения, фильтры, головки и слои, которые настраиваются в фазе настройки гиперпараметров.

Мы провели обширный процесс настройки гиперпараметров для оптимизации производительности наших моделей, и наилучшее сочетание гиперпараметров было выбрано с учетом F1-оценки валидации. Наилучший набор гиперпараметров и его метрики для предобученных моделей на основе трансформеров можно увидеть в таблице 5.

Результаты настройки гиперпараметров для предобученных трансформеров:

6.3 Кросс-валидация

Эксперименты, проведенные на наборах данных разного размера, указывают на корреляцию между количеством последовательностей команд в каждом CTA и производительностью моделей глубокого обучения. В частности, мы наблюдаем:

Набор данных с большим объемом: Модели достигают значительно лучших результатов, с более высокой точностью и F1-оценками. Большой размер набора данных позволяет моделям учить сложные паттерны и эффективно обобщать.
Набор данных со средним объемом: Наблюдается умеренное снижение метрик производительности, модели сталкиваются с некоторыми ограничениями при захвате поведения CTA с меньшим количеством примеров последовательностей команд.
Набор данных с малым объемом: Модели показывают более низкую производительность, включая более низкую точность и F1-оценки. Это, вероятно, связано с недостаточным объемом данных, что препятствует модели хорошо учить паттерны в CTA с меньшим количеством примеров последовательностей команд.

Рисунок 9 отображает связь между размерами наборов данных и метриками производительности. Эти результаты подчеркивают важность размера набора данных для эффективной модели, которая обнаруживает CTA. Тем не менее, следует отметить, что гибридная архитектура демонстрирует относительно хорошие результаты во всех условиях набора данных. Это показывает способность архитектуры учить важные особенности CTA из их последовательностей команд и лучше обобщать в условиях нехватки данных. Эта устойчивость к недостатку данных делает гибридную архитектуру гораздо более важной, поскольку метки данных часто трудно получить в реальных приложениях.

Результаты (Results)

В этом разделе мы подробно рассмотрим результаты, полученные в ходе всесторонней оценки нашей гибридной архитектуры глубокого обучения. Производительность сравнивается с несколькими установленными моделями на основе предобученных трансформеров.

Результаты экспериментов

Таблица 8 отображает успех гибридной архитектуры на тестовом наборе данных по всем условиям набора данных после различных экспериментальных итераций. Включая многочисленные запуски настройки гиперпараметров и 10-кратную кросс-валидацию, что гарантирует надежность каждой модели, были достигнуты оптимальные настройки для каждой модели. Затем модели оценивались с использованием тестовой точности и F1 метрик, обеспечивая целостный обзор их производительности по всем классам нашей задачи многоклассовой классификации.

Эти результаты предполагают, что наша гибридная архитектура глубокого обучения является наиболее эффективной моделью среди других предобученных моделей, которые были протестированы, как с точки зрения точности, так и F1-оценки.

Тестовые результаты моделей

Анализ матриц путаницы

Матрицы путаницы для разных условий набора данных предоставляют ценные инсайты в производительность модели, отображая точность обнаружения архитектуры для каждого CTA. Матрицы путаницы для гибридной архитектуры показаны на рисунках 5, 6 и 7 для наборов данных с большим, средним и малым объемом соответственно. Следует отметить, что количество последовательностей команд для каждого CTA отсортировано по убыванию. Например, CTA#1 имеет наибольшее количество команд.

Как видно на рисунке 5 для набора данных с большим объемом, гибридная архитектура демонстрирует хорошую производительность по почти всем CTA. Высокие значения по диагонали указывают на то, что модель эффективно классифицирует экземпляры для каждого класса. На рисунке 6 для набора данных со средним объемом наблюдается относительно сбалансированная производительность. Хотя элементы диагонали сильны, указывая на хорошую классификацию, есть возможность для улучшения, например, для CTA #6. Набор данных с малым объемом, показанный на рисунке 7, демонстрирует более сложный сценарий. Хотя модель хорошо работает для большинства CTA, наблюдается, что модель испытывает трудности с CTA с меньшим количеством последовательностей команд.

Эти результаты подчеркивают важность размера набора данных для эффективной модели, которая обнаруживает CTA. Тем не менее, следует отметить, что гибридная архитектура демонстрирует относительно хорошие результаты во всех условиях набора данных. Это показывает способность архитектуры учить важные особенности CTA из их последовательностей команд и лучше обобщать в условиях нехватки данных. Эта устойчивость к нехватке данных делает гибридную архитектуру гораздо более важной, поскольку метки данных часто трудно получить в реальных приложениях.

Ограничения и будущие исследования (Limitations and Future Work)

Ограничения

Важно признать, что в киберпространстве злоумышленники постоянно изменяют свой стиль, чтобы скрыть свои подписи и характеристики, или даже используют открытые фреймворки, чтобы затеряться в шуме. До сих пор неясно, сможет ли эта модель предсказывать с высокой точностью, если Evil Corp переключится на другое вредоносное ПО, но в данной области исследования еще многое предстоит изучить.

Также важно понимать, что процесс атрибуции угрозового актора не зависит исключительно от последовательности команд, которые выполняет актер. Существует множество черт и методов, которые следует учитывать при атрибуции, что означает, что наша модель не должна быть единственным источником для процесса, а должна рассматриваться как руководство.

Из-за характера наших экспериментов и того факта, что мы не имели доступа к реальным жертвам, а в основном использовали ловушки, наш набор данных состоит только из команд, выполненных атакующим. Этот метод выборочного сбора данных по своей природе вводит смещение выборки, так как он не фиксирует команды от законных пользователей, которые обычно присутствуют в реальных наборах данных. В результате наша модель имеет смещение в сторону команд атакующих, что вызывает сомнения в ее эффективности в реальных сценариях. Для смягчения этого смещения и улучшения применимости модели к реальным сценариям необходимы дополнительные исследования. Это может включать симуляцию более аутентичных наборов данных путем включения команд законных пользователей или использование реальных наборов данных команд пользователей и атакующих, если такие станут публично доступны.

Будущие исследования

Мы предлагаем изучить другие факторы, влияющие на поведение и тактику угрозовых акторов. Например, перспективным направлением будущих исследований может быть исследование корреляции между определенными последовательностями команд и более широкими стратегическими целями CTA. Было бы интересно выяснить, если ли какой-либо тип атаки более распространен при наличии определенного CTA. Кроме того, важно отметить, что это исследование поможет справиться с развивающимися угрозами; анализируя CTA и их уникальный стиль, можно также дальше исследовать новые угрозы и их связи. Более того, важно получить больше информации о том, как модели глубокого обучения определяют атрибуцию угрозового актора. В будущих исследованиях мы намерены изучить процессы принятия решений этими моделями, что может выявить четкие паттерны и поведение, которые они ассоциируют с конкретными CTA. Интерпретируя обученные модели, исследователи и аналитики могут получить ценные инсайты, которые могут быть не сразу очевидны при ручном анализе.

Заключение (Conclusion)

В нашем исследовании мы представили новый подход к атрибуции киберугрозовых акторов (CTA) на основе последовательности команд, которые они выполняют. Это исследование основано на уникальном пересечении методов обработки естественного языка (NLP) и архитектур глубокого обучения, эффективно различая различные CTA с высокой производительностью. Мы разработали конвертер стандартизированного командного языка для данных о последовательностях команд CTA, который эффективно смягчает проблему переобучения, преобразуя синтаксические различия в командах в унифицированный формат. Это улучшение значительно повышает производительность нашей архитектуры глубокого обучения.

Наша гибридная архитектура глубокого обучения доказала свою мощность в захвате локальной и глобальной контекстной информации в последовательностях команд, превзойдя известные предобученные модели на основе трансформеров, такие как BERT, RoBERTa, SecureBERT и DarkBERT. Гибридная архитектура достигла F1-оценки 95.11% и точности 95.13% на наборе данных с высоким объемом, F1-оценки 93.60% и точности 93.77% на наборе данных со средним объемом и F1-оценки 88.95% и точности 89.25% на наборе данных с низким объемом. Эти результаты указывают на потенциал интеграции CNN и механизмов трансформеров в сложные задачи NLP, особенно в области кибербезопасности.

Наше исследование привело к нескольким ключевым выводам, которые предоставляют значительные инсайты в кибербезопасности. Во-первых, мы обнаружили, что наш подход может значительно уменьшить рабочую нагрузку аналитиков по кибербезопасности, предоставляя систематическое и автоматизированное средство атрибуции CTA. Применяя наш метод, аналитики освобождаются от необходимости вручную отслеживать происхождение угроз, что позволяет им сосредоточить свою экспертизу и усилия на более насущных или стратегических задачах. Кроме того, эта автоматизация не только повышает продуктивность, но и снижает риск человеческих ошибок, предоставляя начальную точку для процесса атрибуции угрозового актора.

С этим знанием становится намного более осуществимо создание более эффективных мер противодействия и стратегий защиты. Уникальные стратегии защиты могут быть разработаны на основе команд конкретного CTA. Например, понимание предпочтений CTA к определённым последовательностям команд или векторов атаки может направить проектирование специфических правил обнаружения вторжений или конфигураций брандмауэра. Аналогично, знание паттернов поведения CTA может также информировать планы реагирования на инциденты, позволяя быстро и эффективно действовать в случае нарушения безопасности.

Кроме того, наше исследование способствует более глубокому пониманию модуса операнди конкретных CTA. Это детализированное понимание оснащает профессионалов по кибербезопасности ценными знаниями для предсказания потенциальных целей и предвидения типов атак, что позволяет внедрять проактивные, а не реактивные стратегии защиты. Более того, наша работа открывает множество увлекательных направлений для будущих исследований в области разведки киберугроз и цифровой криминалистики. Это включает исследование более глубокого понимания поведения CTA и связи между последовательностями команд и стратегическими намерениями CTA. Эти исследования могут привести к более нюансированному и тщательному пониманию CTA и их мотиваций.

Наше исследование подчеркивает силу и потенциал методов NLP и архитектур глубокого обучения в решении сложных задач цифровой криминалистики. Наша работа представляет собой важный шаг на пути к эпохе, когда автоматизированные интеллектуальные системы играют центральную роль в укреплении нашей инфраструктуры кибербезопасности и упрощении задач цифровой криминалистики, а также реагирования на инциденты, вводя новый метод атрибуции CTA. Путь вперед наполнен многообещающими возможностями для инновационных и передовых исследований в области киберзащиты и разведки киберугроз.

Список Литературы (References)

Ehsan Aghaei, Xi Niu, Waseem Shadid, и Ehab Al-Shaer. 2022. Securebert: a domain-specific language model for cybersecurity. В International Conference on Security and Privacy in Communication Systems. Springer, 39–56.
Aylin Caliskan, Fabian Yamaguchi, Edwin Dauber, Richard Harang, Konrad Rieck, Rachel Greenstadt, и Arvind Narayanan. 2015. When coding style survives compilation: de-anonymizing programmers from executable binaries. arXiv preprint arXiv:1512.08546.
Cybersecurity and Infrastructure Security Agency (CISA). 2023. #Stopransomware: royal ransomware. (2023). Для просмотра ссылки Войди или Зарегистрируйся.
Jacob Devlin, Ming-Wei Chang, Kenton Lee, и Kristina Toutanova. 2018. Bert: pre-training of deep bidirectional transformers for language understanding. (2018).
Juan Andres Guerrero-Saade. 2018. Draw me like one of your french apts—expanding our descriptive palette for cyber threat actors. В Virus Bulletin Conference, Montreal, 1–20.
Xueyuan Han, Thomas Pasquier, Adam Bates, James Mickens, и Margo Seltzer. NDSS 2020. Unicorn: runtime provenance-based detector for advanced persistent threats. (NDSS 2020). doi: 10.14722/ndss.2020.24046.
Kaiming He, Xiangyu Zhang, Shaoqing Ren, и Jian Sun. 2015. Deep residual learning for image recognition. (2015). arXiv: 1512.03385 [cs.CV].
Health Sector Cybersecurity Coordination Center. 2022. Hc3 threat profile: evil corp. U.S. Department of Health and Human Services. (2022). Для просмотра ссылки Войди или Зарегистрируйся.
Sepp Hochreiter и Jürgen Schmidhuber. 1997. Long short-term memory. Neural Computation, 9, 8, 1735–1780. doi: 10.1162/neco.1997.9.8.1735.
Ehtsham Irshad и Abdul Basit Siddiqui. 2023. Cyber threat attribution using unstructured reports in cyber threat intelligence. Egyptian Informatics Journal, 24, 1, 43–59.
Youngjin Jin, Eugene Jang, Jian Cui, Jin-Woo Chung, Yongjae Lee, и Seungwon Shin. 2023. Darkbert: a language model for the dark side of the internet. (2023). arXiv: 2305.08596 [cs.CL].
Yann LeCun, Yoshua Bengio, и Geoffrey Hinton. 2015. Deep learning. nature, 521, 7553, 436–444.
Yann LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, и L. D. Jackel. 1989. Backpropagation applied to handwritten zip code recognition. Neural Computation, 1, 4, 541–551. doi: 10.1162/neco.1989.1.4.541.
Yinhan Liu и др. 2019. Roberta: a robustly optimized bert pretraining approach. (2019).
Ilya Loshchilov и Frank Hutter. 2017. Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101.
Sadegh M. Milajerdi, Rigel Gjomemo, Birhanu Eshete, R. Sekar, и V. N. Venkatakrishnan. 2019. Holmes: real-time apt detection through correlation of suspicious information flows. (2019). arXiv: 1810.01594 [cs.CR].
Umara Noor, Zahid Anwar, Tehmina Amjad, и Kim-Kwang Raymond Choo. 2019. A machine learning-based fintech cyber threat attribution framework using high-level indicators of compromise. Future Generation Computer Systems, 96, 227–242.
Adam Paszke и др. 2019. Pytorch: an imperative style, high-performance deep learning library. (2019). arXiv: 1912.01703 [cs.LG].
Lior Perry, Bracha Shapira, и Rami Puzis. 2019. No-doubt: attack attribution based on threat intelligence reports. В 2019 IEEE International Conference on Intelligence and Security Informatics (ISI), 80–85. doi: 10.1109/ISI.2019.8823152.
Avi Pfeffer и др. 2012. Malware analysis and attribution using genetic information. В 2012 7th International Conference on Malicious and Unwanted Software, 39–45. doi: 10.1109/MALWARE.2012.6461006.
PRODAFT. 2022. [ws] wizard spider group in-depth analysis. (2022). Для просмотра ссылки Войди или Зарегистрируйся.
PRODAFT. 2021. Silverfish: global cyber espionage campaign case report. (2021). Для просмотра ссылки Войди или Зарегистрируйся.
Nathan Rosenblum, Xiaojin Zhu, и Barton P. Miller. 2011. Who wrote this code? identifying the authors of program binaries. В Computer Security – ESORICS 2011. Vijay Atluri и Claudia Diaz, (Eds.) Springer Berlin Heidelberg, Berlin, Heidelberg, 172–189. isbn: 978-3-642-23822-2.
Naveen S, Rami Puzis, и Kumaresan Angappan. 2020. Deep learning for threat actor attribution from threat reports. В 2020 4th International Conference on Computer, Communication and Signal Processing (ICCCSP), 1–6. doi: 10.1109/ICCCSP49186.2020.9315219.
Md Sahrom, S. Rahayu, Aswami Ariffin, и Y. Robiah. 2018. Cyber threat intelligence – issue and challenges. Indonesian Journal of Electrical Engineering and Computer Science, 10, (Apr. 2018), 371–379. doi: 10.11591/ijeecs.v10.i1.pp371-379.
Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, и Ruslan Salakhutdinov. 2014. Dropout: a simple way to prevent neural networks from overfitting. The journal of machine learning research, 15, 1, 1929–1958.
Jonathan Tompson, Ross Goroshin, Arjun Jain, Yann LeCun, и Christopher Bregler. 2015. Efficient object localization using convolutional networks. (2015). arXiv: 1411.4280 [cs.CV].
Antonio Torralba и Alexei A Efros. 2011. Unbiased look at dataset bias. В CVPR 2011. IEEE, 1521–1528.
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, и Illia Polosukhin. 2017. Attention is all you need. Advances in neural information processing systems, 30.

Статья Раскрытие киберпреступников: гибридный подход глубокого обучения для атрибуции на основе поведения

admin

#root

Содержание​

Краткое описание каждого раздела​

Введение (Introduction)​

Значимость атрибуции киберугроз​

Поведенческие подписи и профилирование угрозовых акторов​

Основные проблемы и вызовы​

Важность автоматизированного подхода​

Цель и структура работы​

Заключение​

Связанные Работы (Related Works)​

Традиционные методы атрибуции киберугроз​

Подходы к анализу вредоносного ПО​

Анализ отчетов CTI​

Гибридная архитектура глубокого обучения​

Основы (Background)​

3.1 Архитектура трансформеров​

3.2 Сверточные нейронные сети​

3.3 Резервные соединения​

3.4 Техники регуляризации​

3.5 Настройка гиперпараметров​

3.6 Кросс-валидация​

3.7 Метрики для оценки​

Набор данных (Dataset)​

Источник и содержание данных​

Разнообразие и размер данных​

Пример данных команды​

Методология (Methodology)​

5.1 Конвертер стандартизированного командного языка (SCL)​

5.1.1 Шаг обобщения данных SCLC​

5.1.2 Шаг генерации временных характеристик SCLC​

5.1.3 Шаг анализа шума SCLC​

5.2 Архитектура​

5.3 Подготовка данных​

Эксперименты (Experiments)​

6.1 Экспериментальная среда​

6.2 Настройка гиперпараметров​

Результаты настройки гиперпараметров для предобученных трансформеров:​

6.3 Кросс-валидация​

Результаты (Results)​

Результаты экспериментов​

Тестовые результаты моделей​

Анализ матриц путаницы​

Ограничения и будущие исследования (Limitations and Future Work)​

Ограничения​

Будущие исследования​

Заключение (Conclusion)​

Список Литературы (References)​

Конфиденциальность & Прозрачность