当前位置:编程学习 > 网站相关 >>

实例讲解遗传算法——基于遗传算法的自动组卷系统【理论篇】

一、遗传算法介绍  

1.1   遗传算法概要

遗传算法(Genetic Algorithm,简称GA)是一类借鉴生物界的进化规律(适者生存,优胜劣汰遗传机制)演化而来的随机化搜索方法,由美国的J.Holland教授1975年首先提出。遗传算法是一种模拟达尔文的遗传选择和自然淘汰的生物进化过程的计算模型,通过模拟自然进化过程搜索最优解,它常用来解决多约束条件下的最优问题。

 

遗传算法是从代表问题可能潜在的解集的一个种群开始的,而一个种群则由经过基因编码的一定数目的个体组成。每个个体实际上是染色体带有特征的实体。染色体作为遗传物质的主要载体,即多个基因的集合,它决定了个体的形状的外部表现。因此,在一开始需要实现从表现型到基因型的映射即编码工作。由于仿照基因编码的工作很复杂,往往进行简化,如二进制编码,初始种群产生之后,按照适者生存和优胜劣汰的原理,逐代演化产生出越来越好的近似解,在每一代,根据问题域中个体的适应度大小挑选个体,并借助于自然遗传学的遗传算子进行组合交叉和变异,产生出代表新的解集的种群。这个过程将导致种群像自然进化一样的后生代种群比前代更加适应于环境,末代种群中的最优个体经过解码,可以作为问题近似最优解。

 

遗传算法提供了一种求解复杂系统优化问题的通用框架。它不依赖于问题的具体领域,对问题的种类有很强的鲁棒性,所以广泛应用于很多学科。遗传算法的主要应用领域有:函数优化、组合优化、生产调度问题、自动控制、机器人自动控制、图像处理和模式识别、人工生命、遗传程序设计、机器学习等。

 

1.2   遗传算法的基本操作及步骤

(1)初始化。设置进化代数计数器,设置最大进化代数,随机生成N个个体作为初始种群。

(2)计算机适应度。 计算初始种群中每个体的适应度。

(3)选择。选择是用来确定重组或交叉的个体,以及被选个体将产生多少子个体。按照上面得出的适应度进行父代个体的选择。可以挑选以下算法:轮盘赌选择、随机遍历抽样、局部选择、截断选择、锦标赛选择。

(4)交叉。基因重组是结合来自父代交配种群中的信息产生新的个体。依据个体编码表示方法的不同,可以有以下的算法:实值重组;离散重组;中间重组;线性重组;扩展线性重组。二进制交叉、单点交叉、多点交叉、均匀交叉、洗牌交叉、缩小代理交叉。

(5)变异。交叉之后子代经历的变异,实际上是子代基因按小概率扰动产生的变化。依据个体编码表示方法的不同,可以有以下的算法:实值变异、二进制变异。

 

1.3   遗传算法特点 

  (1)遗传算法从问题解的串集开始嫂索,而不是从单个解开始。这是遗传算法与传统优化算法的极大区别。传统优化算法是从单个初始值迭代求最优解的;容易误入局部最优解。遗传算法从串集开始搜索,覆盖面大,利于全局择优。   

 

(2)许多传统搜索算法都是单点搜索算法,容易陷入局部的最优解。遗传算法同时处理群体中的多个个体,即对搜索空间中的多个解进行评估,减少了陷入局部最优解的风险,同时算法本身易于实现并行化。   

 

(3)遗传算法基本上不用搜索空间的知识或其它辅助信息,而仅用适应度函数值来评估个体,在此基础上进行遗传操作。适应度函数不仅不受连续可微的约束,而且其定义域可以任意设定。这一特点使得遗传算法的应用范围大大扩展。   

 

(4)遗传算法不是采用确定性规则,而是采用概率的变迁规则来指导他的搜索方向。   (5)具有自组织、自适应和自学习性。遗传算法利用进化过程获得的信息自行组织搜索时,适应度大的个体具有较高的生存概率,并获得更适应环境的基因结构。

1.4    关于遗传算法的几点补充(初学者可能会有的疑问)

1、 在选择的过程中,选择多少次,会不会造成种群的减少,选到重复的怎么办?

答:选择次数没有限制,即然是选择肯定就会有没选上的,因此会造成种群数量减少,选到重复的个体舍弃重新选择。建议选择的次数少于种群数量,因为不重复,因此当次数为种群数量时即全部选择了,这样就失去了选择的意义。舍弃重复的是因为重复的个体对种群的差异化没有帮忙(试想极端情况下全是重复个体,那么交叉后全是一样的,没有意义)。

 

2、 即然计算出了种群中每个个体的适应度,为什么不直接选择适应度高的,舍弃适应度低的,而要用其他算法来选择?

答:适应度低的个体也可能存在优质基因。现实生活中的例子:一对傻子生了个聪明儿子。

 

3、交叉的过程是随机交叉还是两两交叉,交叉多少次合适?

答:随机或两两交叉都可以,交叉次数大于或等于初始种群中个体数量/2。因为交叉一次产生两个新个体,而第3步的变异不产生新个体,因此为保证种群中个体的数量不致于越来越少(人口负增长), 交叉次数大于或等于初始种群中个体数量/2。

 

二、遗传算法在自动组卷中的应用

  自动组卷是根据出卷者给定的约束条件(目前考虑试题总数量、总分、知识点分布、难度系数、题型比例等因素),搜索试题库中与特征参数相匹配的试题,从而抽取最优的试题组合。由此可见,自动组卷问题是一个具有多重约束的组合优化问题。

 

传统的遗传算法存在搜索后期效率低和易形成末成熟收敛的情况。根据具体情况和需求分析要求,对遗传算法进了稍微改进,表现为采用实数编码、分段交叉、有条件生成初始种群,选择交叉后增加适应度检查。具体解决方案如下。

 

2.1 染色体编码及初始群体的设计

用遗传算法求解问题, 首先要将问题的解空间映射成一组代码串,即染色体的编码问题。在传统的遗传算法中采用二进制编码。用二进制编码时,题库里的每一道题都要出现在这个二进制位串中,1表示该题选中,0表示该题未被选中。这样的二进制位串较长,且在进行交叉和变异遗传算子操作时,各种题型的题目数量不好控制。采用实数编码方案,将一份试卷映射为一个染色体,组成该试卷的每道题的题号作为基因,基因的值直接用试题号表示,每种题型的题号放在一起,按题型分段,在随后的遗传算子操作时也按段进行,保证了每种题型的题目总数不变。比如,要组一份《C语言程序设计》试卷,其单选题6道,多选题4道,判断题5道,填空题5道,问答题3道,则染色体编码是:

 

(1、6、13、12、10、4、8 | 18、22、25、28  | 52、36、67、11、123 | 31、35、32、47、44  |  99、85、45)
        单选题                       多选题                        判断题                           填空题                  问答题

 

试卷初始种群不是采用完全随机的方法产生,而是根据总题数、题型比例、总分等要求随机产生,使得初始种群一开始就满足了题数、总分等要求。这样加快遗传算法的收敛并减少迭代次数。采用分组实数编码,可以克服以往采用二进制编码搜索空间过大和编码长度过长的缺点,同时取消了个体的解码时间,提高了求解速度。

 

2.2 适应度函数的设计

适应度函数是用来评判试卷群体中个体的优劣程度的指标,遗传算法利用适应度值这一信息来指导搜索方向,而不需要适应度函数连续或可导以及其它辅助信息。因为题数,总分等要求在初始化种群时已经考虑,这里只剩下知识点分布跟难
补充:综合编程 , 其他综合 ,
CopyRight © 2012 站长网 编程知识问答 www.zzzyk.com All Rights Reserved
部份技术文章来自网络,