IP知识百科 > DGA

什么是DGA？

域名生成算法DGA (Domain Generation Algorithm)是一种使用随机字符及时间、字典、硬编码等，利用一定的算法生成的域名。 DGA生成的域名具有极大的随机性，常用于中心结构的僵尸网络与C&C服务器的连接，从而逃避域名黑名单检测。

DGA的危害

随着互联网技术的不断发展与迭代，也相应产生了很多恶意软件，如今恶意软件已经发展成为威胁网络安全头号公敌，更是成为不法份子通过互联网谋取不正当利益的优选途径。当前互联网环境，涉黄、涉赌、诈骗网站充斥，并且这些非法盈利的域名具有随机性，更是无法被企业及社区网络中的通信设备的黑名单有效监控，因为域名生成算法DGA这项技术的存在，如果非法域名被执法部门、技术公司或托管服务提供商屏蔽，恶意软件利用DGA技术随机生成域名，非法网站仍然可以发送和接收命令或共享被盗数据。

大量快速生成恶意域名，无法有效屏蔽
不法分子可以通过DGA技术，每天可以生成成千上万的恶意域名，这些大量级的恶意域名，网络安全设备几乎无法从通过配置黑名单的方式来屏蔽所有恶意域名。
随机性大，检测困难
DGA被各种恶意软件家族用来生成大量的伪随机域名。伪随机意味着字符串序列似乎是随机的，但由于其结构可以预先确定，因此可以重复产生和复制。大多数随机生成的域名是不存在的，只有其中一小部分域名会被注册以供受控主机与服务器进行通信，从而获取信息或跟踪其他恶意任务。此外，当一个域名被成功阻止时，攻击者会从DGA生成的域名列表中注册其他域名。这也就造成了网络安全设备想要检测到所有恶意域名变得极其困难。
持续解析，伪装潜伏
大多数DGA域名在互联网环境是访问不到的，恶意攻击者无法对所有域名进行注册，但是恶意软件编写者将采用同样的种子和算法生成与恶意软件相同的域名列表，从中选取几个来作为控制服务器，恶意软件会持续解析这些域名，直到发现可用的服务器地址。这种方式导致恶意软件的封堵更为困难。

DGA的危害过程

DGA的分类

按照种子进行分类
种子是攻击者利用DGA算法生成DGA域名的输入参数之一，不同的种子得出的DGA域名是不一样的。DGA使用的种子有很多种类，包含日期、社交网络搜索热词、随机数或词典等，DGA根据种子生成一串字符前缀，添加顶级域名后得到最终生成域名AGD (Algorithmically Generated Domain) 。

一般来说，种子有两个维度：
1. 基于时间维度的种子，DGA算法使用时间信息作为输入，例如受控主机的系统时间、http响应的时间等。
2. 基于确定性维度的种子，主流的DGA算法的输入是确定的，因此AGD可以被提前计算，但是也有一些DGA算法的输入是不确定的，例如知名恶意软件Bedep以欧洲银行每天发布的外汇参考汇率作为种子，恶意软件Torpig用大型社交网站的关键词作为种子，只有在确定时间窗口内注册域名才能生效。
根据种子的分类方法，DGA域名可以分为以下4类：
- TDD(time-dependent and deterministic)：与时间相关，可确定。
- TDN(time-dependent and non-deterministic)：与时间相关，不可确定。
- TIN(time-independent and non-deterministic)：与时间不相关，不可确定。
- TID(time-independent and deterministic)：与时间不相关，可确定。
按照生成算法进行分类
现有DGA生成算法一般可以分为如下4类：
- 基于算术（Arithmetic-based）：该类型算法会生成一组可用ASCII编码表示的值，从而构成DGA域名，流行度最高。
- 基于哈希（Hash-based）：用哈希值的16进制表示产生的DGA域名，常使用的哈希算法有：MD5，SHA256等。
- 基于词典（Wordlist-based）：该方式会从专有词典中挑选单词进行组合，减少域名字符上的随机性，迷惑性更强，词典内嵌在恶意程序中或者从公有服务中提取。
- 基于排列组合（或称置换，Permutation-based）：对一个初始域名进行字符上的排列组合。

如何检测DGA

基于监督学习的检测
常用的监督学习算法有决策树和随机森林，即利用决策树算法或随机森林算法进行DGA域名检测。

基于无监督学习的检测
基于决策树和随机森林的模型属于监督学习，都需要特征才能工作。无监督学习与有监督学习相比有一个重要的优势是不需要带标记的数据集。众所周知的无监督学习算法有K-Means算法，K-Means算法是一个简单常用的无监督学习算法，被广泛应用在DGA域名检测中。
基于注册状态进行检测
注册状态指的是域名是否注册，注册时间，到期时间等状态，基于注册状态的检测，就是通过域名在商业平台注册的情况评判，本质是付费情况判别域名性质。可以通过注册时间，费用等参数画取高风险域名画像进行检测。
基于威胁情报进行检测
即通过威胁情报平台和DGA数据集进行检测，主要用于检测已知的DGA域名。

基于熵检测
熵在计算机领域中用于描述随机变量中的不确定度度量，即一段信息的随机程度有多高。通常情况下，基于随机算法生成的DGA域名有比正常域名更高的熵，可以通过熵的大小分类DGA域名。
基于隐式马尔科夫模型检测
隐式马尔科夫模型主要通过检测字符串中各个字符之间的转换概率来分类域名，随机性较高的DGA域名在统计特征上不符合正常的域名，故而可以通过该方法检测DGA域名。
基于深度学习模型检测
深度学习模型通过一个神经网络对已知的DGA域名和正常域名进行学习，从而获得一个鉴别DGA域名的分类器，深度学习模型解释性较低，难于调试，但是较传统模型效果更好，故而也有很多产品使用此方法。

参考资源

1黑名单配置

2HiSec智能防御解决方案设计与部署指南

词条统计

作者：贺妍
最近更新： 2023-11-15
浏览次数： 4538
平均得分：

页内导航

DGA的危害
DGA的分类
如何检测DGA

什么是DGA？

DGA的危害

DGA的分类

如何检测DGA

关于华为

如何购买

合作伙伴

资源

快速链接