第3期民族大学学报(自然科学版)JournalofMUC(NaturalSciencesEdition)
Aug.,2019Vol.28
No.3
一种多学科交叉的古典文献文字识别技术研究
123
张敬花,马海云,张忠林
(1.天水师范学院马克思主义学院,甘肃天水
741001;2.天水师范学院电子信息与电气工程学院,甘肃天水
730070)
741001;
3.兰州交通大学电子与信息工程学院,甘肃兰州
摘要:为了古典文献文字识别效果更好,在分析前人研究成果的基础上,基于多学科交叉,对遗传算法进
行改进:建立经过优化的初始化种群,为交叉选择方法提供多样性的信息,利用柯西变异与高斯变异结合形成PM生成器.实验表明:该技术有效地提高了求解质量,较好地优化算法性能.关键词:
古典文献汉字识别;属性特征;改进遗传算法;小波变换;分治策略
文献标识码:A
8036(2019)03-0056-05文章编号:1005-中图分类号:TP391
近年来,古典文献数字化已经取得了令人瞩目的成就,对中华传统文化的推广传播起到了积极作
图像模糊,存在很多困难,在许多古籍的数字化用.古体手写汉字的识别由于书写非常复杂,年代久远,
通常按照翻译者的理解,将古文献上的文字逐字转换成电脑能够显示的字符,由于不能接触原过程中,
研究者对文献中许多隐性资料难以得到发掘.典,
1相关研究
[1]
古典文献中字的识别涉及问题复杂.HUK等采用神经元网络能够完成大多数常用的统计模式识
[2]
是传统的识别技术;李保利提出了几种基于类别层次结构的大规模多层次文本分类别技术的功能,
使得较少类别的训练样本得以扩展;张忠林等深层次分析候选类别搜索算法,在搜索样本扩展策略,
[4]
采用剪枝策略从而缩小搜索集,得到最优候选集;YANGZ等从单词和句子两个角算法中设定阈值,
对遗传算法进行了改进,利用字根度来获得样本内部结构语义信息.本文在对以上文献学习的基础上,
采用层次思想,提取特征点,获取汉字初始种群;将遗传算法与局部搜索算法混合,来提高遗笔画加工,
最终将识别的字放在词句和整体句子中,进行语义判断.并通过示例验证了该传算法的局部搜索能力,算法的有效性.
[3]
2
2.1
改进遗传算法
改进遗传算法的过程
GA(GeneticAlgorithm)[2]遗传算法是模拟生物进化特征的优化算法.对遗传算法中的初始种群产
交叉、变异过程进行改进,基于多学科交叉进行文字的识别.生、
首先获取特征数据,将图像分成多个小的空间区域,在这个小区域内计算局部特征值,将所有小区域局部特征值连接起来就是最后的图像特征.改进的遗传算法具体过程如下:
收稿日期:2019-04-04
基金项目:甘肃省自然科学基金项目(No.18JR3RE245);教育部人文社会科学研究规划基础(No.14YJA870014).作者简介:张敬花(1973-),女(汉族),甘肃靖远人,天水师范学院副教授,主要研究方向:数据分析、古典文献.
第3期张敬花等:一种多学科交叉的古典文献文字识别技术研究
57
1)产生初始种群
采用三种函数相结合的技术构建初始种群生成器.初始种群生成器=Random(逻辑映射,帐篷映射,正弦函数映射)逻辑映射函数:
N(t+1)=R×N(i)×(1-N(i))
帐篷映射函数:
N(t+1)=G(N(i))
其中,
G(N(t))=
正弦函数映射:
N(t+1)=R'×N(t)
2)交叉选择方法
为形成最优笔画属性解保留多种可能信息.公式如下:交叉选择方法能保证选择的多方向性,
fk
pk=pop_size
fi∑i=1
参数fk为各特征点的适应度值.
产生最优解的方法:根据汉字笔画特征点的适应度进行选择,高适应度的特征属性点会被选择.选择公式如下:
(Ps-b)+[Ps×r×0.01×(b-1)]
NCi=「?
Ps-1
b表示选择特征点个数的最大值,其中,参数Ps表示种群集大小,
r=?pk×100」NC与r是成比例的.的个数应该占多大的比例.可以从式(6)看出,
3)变异
柯通过柯西变异与高斯变异结合形成PM变异生成器.高斯变异是笔画特征点适应度小的的变异,
西变异是笔画特征点适应度大的变异.PM生成器根据特征点适应度的强弱来产生新的特征点.
算法如下:
k∈(1,2,…,pop_size)参数:Pk—特征点k的适应度概率,
fori=1:pop_size
1);r=random(0,ifr<pk
高斯变异
else柯西变异endifendfor
定理1高斯变异(GM)
GM是对笔画特征点适应度低的变异,标准差(σ)和均值(μ)两个参数可以定义变异的适应度范
(6)
2
(1)(2)(3)
{N(i)/0.7,if(N(t)<0.7)1
N(t)[1-N(t)],other3
}(4)(5)
×sin(π×N(t))
(7)
Ps和b两个值在算法准备阶段就应该确定好,即根据实验确定算法最大的种群集,待选择属性点
58
民族大学学报(自然科学版)第28卷
围.设原特征点为xg,变异后特征点为x'g,变异公式如下所示:
x'g=xg+N(μ,σ)
N(μ,σ)是高斯公式,如式(9)描述.
-(x-μ)21
fGaussian(x)=exp(),-∞<x<∞2
2σ2πσ槡变异策略通常简化为,μ=0,σ=1.简化后的描述为式(10).
x'g=xg+N(0,1)
sg为特征点适应度.实际使用中,变异公式如(11)所示,其中,
x'g=xg+sg
sg的计算方法如(12)所示.
sg=random(+,-)槡2ln(wg槡2π)
wg=random[0,fGaussian(0)]
定理2柯西变异(CM)
CM是对笔画特征点适应度高的变异.如(13)所示.
t
fCauchy(x)=,-∞<x<∞22
π(t+x)柯西变异如(14)所示.
x'g=xg+sc
Sc为密度,如公式(15)所示.
Sc=random(+,-)
wc=random[0,fCauchy(0)]其中,
1-t)wcπ
(8)
(9)
(10)(11)
(12)
(13)
(14)
槡t((15)
能保证二次变异响应的根本原因是,在当前的这一代中保留了种群中的高适应度特征点,也保留了
种群中记忆低适应度特征点集并没有参与变异,产生下一代低适应度的特征点.对于通常的遗传算法,
当前的这一代中的高适应度的特征点和原来记忆中的低适应度特征点集共同参与集合.在改进算法中,
变异,产生下一代集合.正是由于这个原因,该变异技术要达到最终解需要更多次的迭代,这也算法能够进而可以以局部最优达到全局最优解.达到局部最优解,
3示例及分析
在进行汉字特征提取时,把汉字的投影当做波动的信号进行处理.利用一维离散小波变换得到汉字
[5~6]
.文中只关注汉字的轮廓特征.低频信息和轮廓信息
3.1算法描述
1)对汉字图像进行二值化、灰度化处理,获得汉字的轮廓及特征点属性信息,利用2.1节中的初始种群生成器生成初始种群;2)确定参数值,计算特征属性点适应度,根据标准进行适应度好的特征点的交叉选择;
3)变异.高适应度和低适应度特征点共同进行变异操作,增加算法的多样性.4)判断是否达到终止条件.如果没有达到,返回到第二步进行循环操作.3.2
实验及结果
《四库全书书前提要》实验数据来自中的图像,如图1所示.运用第2节中的改进遗传算法对图1所
得到如图2所示的信息.示信息进行优化,
第3期张敬花等:一种多学科交叉的古典文献文字识别技术研究
59
图1
Fig.1
优化前文字信息
图2Fig.2
优化后文字信息
Pre-optimizationtextinformation
Optimizedtextinformation
结果显示,优化的信息比优化前的信息更为精确,去掉了轮廓线和背景,更加清楚.因此,应用文中
能正确生成种群,并进行优化.同时也证明了利用文中提及的改进遗传算法对古体汉的算法识别样本,字识别是有效的.
3.3实验分析
实验根据适应度大小,在候选解集附近,产生一个交叉变异解的群体.算法模拟笔画特征点的适应
并有效地调节过度竞争,以保持特征点群(问题解)的多样性.算法兼顾全局搜索和度实现个体的竞争,
并构成记忆单元,将遗传算法的记忆单个最优个体变为记忆一个最优解的群体,扩大搜索范局部搜索,
在整个遗传算法中,对算法中的每一步,进行参数的细微调围.实验中采用的方法和传统的方法不同,
都会引起整个算法根本性的变化.在实验中,由于各个步骤中对原有方法进行了改进,所以算法优于整,
其他算法.
4结论
本文运用多技术交叉建立古籍文字识别算法.三种映射方法生成的初始化种群起点高,因而迭代次
柯西变异相结合的平行变异数相应就会减少.交叉选择方法保留了信息的多样性.在实验中采用高斯、
从两种变异的公式看出:GM产生的特征值要靠近中心,特征点有好的趋向能力,使用小步长可以机制,
一般用来对高适应度的个体进行变异,克使算法找到全局最优;CM产生的特征值点离当前个体较远,
本文算法确定了最优初始集,保证了交叉选择和变异的公平性,重服以往算法中局部最优的缺陷.总之,
提高了算法的执行速率.文要的是进行变异的时候能够根据适应度的大小自动调整变异的方向和步长,
结果表明:该技术有效地提高了求解质量,较好地改善了遗传中把该方法应用于古典文献汉字识别中,
算法的性能.参考文献:
[1]HUK,WUH,QIK,etal.Adomainkeywordanalysisapproachextendingtermfrequency-keywordactiveindexwith
Googlewordmodel[J].Scientometrics,2018,114(3):1031-1068.
[2]李保利.基于类别层次结构的多层文本分类样本扩展策略[J].北京大学学报(自然科学版),2015,51(2):357-
366.
[3]张忠林,J].计算机应用,2017,37(3):635-639,672刘述昌,江粉桃.深层次分类中候选类别搜索算法[
[4]YANGZ,YANGD,DYERC,etal.Hierarchicalattentionnetworksfordocumentclassification[C]//Proceedingsof
60
民族大学学报(自然科学版)第28卷
the2016ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLan-AssociationforComputationalLinguistics,2016:1480-14.guageTechnologies,
[5]苏志雄,J].计算机集成制造系统,2016,22(4):1059-伊俊敏.基于正逆序策略的混合流水车间遗传调度算法[
1069.
[6]党存禄,J].电网与清洁能源,2014,30(12):5-9.张旭.基于Daubechies小波族的电能质量信号去噪方法研究[
ResearchonaMultidisciplinaryandInterdisciplinaryClassicalDocumentCharacterRecognitionTechnology
ZHANGJing-hua1,MAHai-yun2,ZHANGZhong-lin3
(1.SchoolofMarxism,TianshuiNormalUniversity,GansuTianshui741001,China;
2.Schoolofelectronicinformationandelectricalengineering,TianshuiNormalUniversity,GansuTianshui741001,China;
3.SchoolofElectronicandInformationEngineering,LanzhouJiaotongUniversity,Lanzhou730070,China)
Abstract:AnImprovementmethodofGeneticAlgorithmsBasedonMultidisciplinaryIntersectionwasintroduced:forthebetterrecognitioneffectofclassicaldocumentsword,basedontheanalysisofpreviousresearchresults,establishmentofoptimizedinitializationpopulation,providingdiverseinformationforcross-selectionmethods,formationofPMGeneratorbycombiningCauchyvariationwithGaussvariation.Experimentsshowedthatthistechniquecouldeffectivelyimprovethequalityofsolutionandtheoptimizationperformanceofthealgorithm.
Keywords:classicalChinesecharacterrecognition;attributefeatures;improvedgeneticalgorithm;
wavelettransform;divideandconquerstrategy
[责任编辑:王向华]
櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣櫣人工智能
人工智能(ArtificialIntelligence),英文缩写为AI.它是研究、开发用于模拟、延伸和扩展人的智能的
方法、技术及应用系统的一门新的技术科学.理论、
人工智能是计算机科学的一个分支,它试图解译智能的实质,并生产出各种能以人类智能相似的方
其理论和技术日益成熟,应用领域也不断扩大,在自然语言学式做出反应的机器.人工智能从诞生以来,
智能搜索,机器学习,组合调度问题,感知问题,模式识别,逻辑程序设计,人工生命,神经网习与处理,
复杂系统,遗传算法及人类思维方式等方面得到了广泛的关注和研究,目前最关键的问题是如何塑络,
造与提升机器的自主创造性思维能力.
人工智能是一门极富挑战性的科学,它由不同的领域组成,如机器学习,计算机视觉等.总的来说,人工智能研究的主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作.2017年12月,人工智能入选了\"2017年度中国媒体十大流行语\",是当前世界范围内科学研究的热点和难点.
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- sarr.cn 版权所有 赣ICP备2024042794号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务