小编提示,本文的理论和论文格式都是值得各位作者朋友深思学习的,所以希望欲论文发表的朋友多做学习,争取写出更优秀的职称论文!
引言微阵列技术使得生物学家可以大规模并行检测成千上万个基因的表达数据, 从而能够在基因组水平上比较正常或者疾病状态下基因及其表达的差异, 以便于疾病的诊断、分类和治疗。对肿瘤基因表达谱进行有效分析, 挖掘和发现其中蕴含的知识, 是当前生物信息学研究的重点课题。肿瘤基因表达数据具有样本少、维数高的特点。基于基因表达谱, 如何从数以千计的基因中鉴别最佳的特征基因子集, 提高生物类型例如肿瘤与正常组织) 鉴别的准确率已成为其中一个重要研究方向, 也是分析该类表达谱数据的重点和目的。1999 年等首先采用邻域分析方法对白血病的两种亚型分类, 以加权投票法选取了 50 个最相关基因构建分类器。同年等对结肠癌的基因表达谱作了聚类分析, 使用了 t 统计量方法进行相关基因选取, 得到了一些表达谱与肿瘤的对应关系。
Khan 等在线性神经网前端加上主元分析法, 根据神经网输出对输入的灵敏度, 从 2 308 个基因中选取出 96 个儿童小圆蓝细胞瘤的亚型分类特征基因。Furey、Guyon 和等把支持向量机、神经网络、k 近邻等几种常用方法应用到基于基因表达谱的肿瘤分类中, 并比较了分类效果, 发现一般情况下采用支持向量机作为分类器效果较好。
本文研究了遗传算法在肿瘤特征基因选择和分类中的应用问题, 提出了一种新方法。图 1 是该方法的流程图。该方法先用 Bhattacharyya 距离对结肠癌和正常组织的基因表达数据进行预处理, 过滤掉大部分与分类无关的基因。然后用方法选取基因子集, 即以 CFS( 基于相关性的特征选取) 评分为适应度的遗传算法搜索特征空间发现潜在分类性能较好的基因子集。把这些基因子集存档, 统计基因被选择的频率确定一个基因空间, 它包含 50 个在基因子集中出现频率最高的基因。最后, 用 GA/SVM 寻找分类特征基因, 即用遗传算法发现在支持向量机(SVM) 分类器上具有好的分类性能且较小的特征基因子集。这种使用两阶段遗传算法的方法称为方法。以结肠癌微阵列数据为例给出的实验结果可与应用其他基因选择方法的分类性能媲美, 表明了其有效性和可行性。
数据来源与预处理本文的实验数据来自 Alon 公布的结肠癌基因表达谱数据集。与其它基因芯片数据相比, 该数据集是一个较难分析的数基于遗传算法的结肠癌基因选择与样本分类何爱香山东工商学院 信息与电子工程学院, 山东 烟台摘 要: 提出了一种基于两轮遗传算法的用于结肠癌微阵列数据基因选择与样本分类的新方法。该方法先根据基因的距离指标过滤大部分与分类不相关的基因, 而后使用结合了遗传算法和 CFS(Correlation-based Feature Selection) 的GA/CFS 方法选择优秀基因子集, 并存档记录这些子集。根据存档子集中基因被选择的频率选择进一步搜索的候选子集,最后以结合了遗传算法和的 GA/SVM从候选基因子集中选择分类特征子集。把这种 GA/CFS-GA/SVM方法应用到结肠癌微阵列数据, 实验结果及与文献的比较表明了该方法效果良好。
另外, 数据的特征维数为 2 000, 远远高于样本个数 62。因此,有必要对数据进行过滤和降维。测量的数千个基因的表达水平有的差异很大, 只有少部分基因同样本的类别有很强的相关性, 而大部分基因与样本的类别不相关, 对分类没有什么贡献, 这些基因也应该从数据中滤除。考虑到这些问题, 定义一种基因的 Bhattacharyya 距离作为度量基因对分类贡献的指标。
第 i 个基因在结肠癌样本与正常组织样本间的距离定义为分别为基因 i 在结肠癌样本( 正样本) 中的均值和方差为基因 i 在正常组织样本中( 负样本) 中的均值和方差。从模式分类的角度看, 某个特征的 Bhattacharyya 距离越大, 表明两个分布在该特征方向上的可分性就越好根据式(1) 计算结肠癌基因表达数据中的 2 000 个基因在训练集上的 Bhattacharyya 距离, 大部分基因的距离在 0 到 0.2 之间, 仅有少部分基因的大于 0.2。保留距离值大于 0.2 的 612 个基因用于下一步的基因子集选择分析, 这样就大大缩小了基因选择的特征空间, 降低了数据维数。这个基因组成的集合称为。
使用 GA/CFS 选取基因子集就特征子集的选择而言, 比较所有基因组合的分类性能是很困难的, 因为特征空间的维数很高。就本文而言, 候选特征集中有 612 个基因, 则所有的组合方式有种, 应用穷举法直接检查所有这些组合就现有的计算能力而言是不切实际的所以采用合适的启发式搜索算法从特征空间搜索最优解或者次优解是必要的。
遗传算法就是一种很有效的全局启发式搜索算法, 它借鉴了生物界自然选择和自然遗传的机制, 其主要特点是群体搜索策略和群体中个体之间的信息交换, 搜索不依赖于梯度信息。它尤其适用于处理传统搜索方法难以解决的复杂和非线性问题可广泛用于涉及高维空间的组合优化和机器学习等领域。
用遗传算法选择大量的能潜在区分结肠癌数据集中肿瘤和正常样本的含 50 个基因的子集。当获得大量的这样的子集后, 通过统计分析评估基因被选择的频率。由于遗传算法是一种全局随机化搜索方法, 被选择频率与基因的样本分类相对重要性是有很大关系的。被选择频率高的基因作为单个基因而言不一定具有好的分类能力, 但具有较好的联合判别力, 因而考虑用作对新样本分类的特征基因。