邵立智,物理与电子信息学院
摘 要
本作品是基于QSC舵机控制器和一款非特定语音识别语音模块及多种具有功能代表性的常用传感器构成的家居无障碍人机交互平台。能与人实现对话和交流、接收使用者的指令信息后无障碍的为使用者提供最优的指令相关内容。提出环境因数情感分析算法,可根据当前环境因素向有利于使用者心情缓解的方向进行语言交流。用于解决当前社会特殊人群的居家生活和监护问题,有助于缓解人孤独感及交流障碍。是互联网进行自主学习提升等功能智能家居终端机器人平台。
关键词
智能家居、无障碍人机交互、宠物机器人平台、环境因素控制算法
Home Barrier free platform for human-computer
interaction
Shaolizhi,College of physics and electronic information
Abstract
This work is the QSC servo controller and a non-specific speech recognition speech module and a variety ofcommonly used sensor function has a representative of the Home Furnishing human-computer interaction platform based on accessibility. No impediment to the realization of dialogue and exchanges, receives an instruction from a user information and the related content to provide users with the best instruction. At the same time put forward the environment factor of sentiment analysis algorithm, based on the current environment conducive to ease themood in the direction of the user of language communication. With the Internet camera, with people instead ofguardians completed home monitoring, can let a person to achieve remote monitoring and control of autonomous learning to enhance the function of intelligent robot platform based on Internet Home
1
Furnishing terminal.
Key words
Intelligent Home Furnishing, accessibility, interactive pet robot platform,Environmental
factors control algorithm
2
目录
引言 ................................................................ 4 第一章 论文选题背景及研究意义 ....................................... 4
1.1 人机交互技术概述 ............................................ 4 1.2 人机交互技术的发展 .......................................... 5 1.3 人机交互技术的发展与现状 .................................... 5 第二章 论文设计的主要内容 ........................................... 6
2.1 系统结构框图 ................................................ 6 2.2 系统层级图 .................................................. 6 2.3 系统说明 .................................................... 7 2.4 系统总体方案设计特点和目标 .................................. 7 第三章 硬件设计 ..................................................... 8
3.1平台对象的选择 .............................................. 8 3.2 核心决策控制器的选择 ........................................ 8 3.3 运动控制模块设计 ............................................ 9
3.3.1 机器人电机调速及驱动方案设计 .......................... 9 3.3.2 QSC舵机控制板 ....................................... 12 3.4 语音控制模块设计 ........................................... 16
3.4.1 语音识别原理 ......................................... 16 3.4.2 语音识别模块(ASR M08-A) ............................ 17
第四章 软件设计 .................................................... 18
4.1 运动控制程序设计 ........................................... 18 4.2 语音识别程序设计 ........................................... 19 4.3 语音识别提高识别率算法 ..................................... 19 第五章 决策系统算法设计 ............................................ 20
5.1运动控制系统 ............................................... 20 5.2智能家居自适应型控制系统 ................................... 21
5.2.1空调控制系统 ......................................... 21 5.2.2灯光控制系统 ......................................... 21
第六章 调试记录 .................................................... 21
6.1 语音识别模块调试 ........................................... 21 6.2 控制系统调试 ............................................... 22 第七章 总结 ........................................................ 22 参考文献 ........................................................... 24 附录:完整程序 ..................................................... 25
完整控制程序 ................................................... 25 温控模块程序 ................................................... 28 PWM波舵机控制程序 ............................................. 30
3
引言
居家环境是每一位残疾人吃、住、行、娱乐的基本生活环境,重度残疾人、老年人、婴幼儿中约有五分之四以上的时间是在居家环境中度过的,居家无障碍人机交互平台能够帮助重度残人和失能老年人对各种家电设备进行控制,如完成开门、开关窗帘、控制电扇、电视音量和频道选择、空调模式和温度选择、开关电灯等活动,系统为该类人群提供一个与电器设备间的人机接口,仅需要介助的简单的类如声音、按键、光、脑电波等输入信号配合使用者数据库综合决策判断就可以的实现精度较高的功能控制。
第一章 论文选题背景及研究意义
随着中国老龄化及留守儿童问题日趋严重,陪伴、照看老人与孩子成为当今家庭不可避免的责任与义务,但现都市白领等在家时间较少,工作压力较大,分身乏术。同时由于生活节奏加快,彼此交流的频率越来越少,该研究旨在服务与人交流存在障碍的特殊人群,解决当代人的孤独感高的问题。依据当前家庭多以饲养宠物增添家庭氛围,以电子宠物替代动物宠物,旨在缓解饲养宠物消耗大,缺乏时间照料以及因宠物诱发的邻里冲突的问题。本设计旨在陪伴老人与儿童24小时全职陪护,做无消耗可交流的宠物,身兼多职,解决日常家居问题。
在国内外的相关研究和文献中,无障碍人机交互接口的输入方式主要分为:机械开关、吹/吸气、语音、手势、脑电信号、肌电信号等等。
从现有文献和临床应用来看,无障碍环境辅助交互技术作为一门新兴的学科领域,无论在理论上还是在应用上都不够完善,有待继续研究发展。首先是控制系统的准确率和稳定性,它受到多种因素影响,包括信号采集中的噪声干扰,硬件和软件设备的处理能力,控制信号的特征选择方法等。其次是控制方法单一,难以与其他辅助设备整合与协作,应该发展多通道的输入接口,使得多种无障碍交互方式之间可以交互配合。此外,远程控制和监护技术也是未来发展的趋势,通过便携式的移动终端设备,可以实时的了解居家环境中控制系统的运行状态,控制家中的电气设备。
1.1 人机交互技术概述
人机交互技术(Human-Computer Interaction Techniques)是指通过计算机输入、输出设备,以有效方式实现人与计算机对话的一种新技术。人机交互技术包括机器通过输出或显示设备给人提供大量有关信息及提示请示等,人通过输入设备给机器输入有关信息,回答问题及提示请示等。人机交互技术是计算机用户界面设计中的重要内容之一。它与认知学、人机工程学、心理学等学科领域有密切的联系。 也指通过电极将神经信号与电子信号互相联系,达到人脑与电脑互相沟通的技术,可以预见,电脑甚至可以在未来成为一种媒介,达到人脑与人脑意识之间的交流,即心灵感应。
4
1.2 人机交互技术的发展
人机交互的发展历史,是从人适应计算机到计算机不断地适应人的发展历史。1959年美国学者B.Shackel从人在操纵计算机时如何才能减轻疲劳出发,提出了被认为是人机界面的第一篇文献的关于计算机控制台设计的人机工程学的论文。1960年,Liklider JCK首次提出人机紧密共栖(Human-Computer Close Symbiosis)的概念,被视为人机界面学的启蒙观点。1969年在英国剑桥大学召开了第一次人机系统国际大会,同年第一份专业杂志国际人机研究(IJMMS)创刊。可以说,1969年是人机界面学发展史的里程碑。 在1970年成立了两个HCI研究中心:一个是英国的Loughbocough大学的HUSAT研究中心,另一个是美国Xerox公司的Palo Alto研究中心。 1970年到1973年出版了四本与计算机相关的人机工程学专著,为人机交互界面的发展指明了方向。 20世纪80年代初期,学术界相继出版了六本专著,对最新的人机交互研究成果进行了总结。人机交互学科逐渐形成了自己的理论体系和实践范畴的架构。理论体系方面,从人机工程学独立出来,更加强调认知心理学以及行为学和社会学的某些人文科学的理论指导;实践范畴方面,从人机界面(人机接口)拓延开来,强调计算机对于人的反馈交互作用。人机界面一词被人机交互所取代。HCI中的I,也由Interface(界面/接口)变成了Interaction(交互)。
1.3 人机交互技术的发展与现状
20世纪90年代后期以来,随着高速处理芯片,多媒体技术和Internet Web技术的迅速发展和普及,人机交互的研究重点放在了智能化交互,多模态(多通道)-多媒体交互,虚拟交互以及人机协同交互等方面,也就是放在以人为在中心的人机交互技术方面。
概括地讲,人机交互的发展经历了几个阶段:
1.早期的手工作业阶段
2.作业控制语言及交互命令语言阶段 3.图形用户界面(GUI)阶段 4.网络用户界面的出现
5.多通道、多媒体的智能人机交互阶段 6.虚拟交互界面
如今问世不久的Kinect则可以称得上人机交互的引领新潮流的第三次革命。它整合了具有革命性的技术——3D图片识别与视频捕捉,加上硬件体验的不断优化,再加上对应其特性的专属游戏开发,在游戏这一特定的应用场景对技术的强化,最终塑造了Kinect这一人机互动的革命性产品。 在人机交互领域,更加大胆的创新精神正在被唤醒,视频捕捉技术、语音识别技术、红外遥感技术、多通道等等技术的整合发展,必然给人机交互技术的带来前所未有的突破。新的技术层出不穷,人机交互技术的发展必然带给人们更多的科技技术的期盼和惊喜。
5
第二章 论文设计的主要内容
语音控制,在接收到语音指令后进行动作判断,并作出相应回应。内置多种传感器,使其具备眼观六路、耳听八方的能力。提出更加科学的多传感器控制方法,提高了执行效率的同时减小了硬件的消耗和能源消耗。
2.1 系统结构框图
输入 语音接收模块 红外接收模块 图像采集模块 预判断设置标志位区域 指令分类区 智能家居控制灯光控制空调控制输出控制区域 输出
中枢运动决策图2-1
运动控制2.2 系统层级图
灯光控制区灯光控制区
通信口分信号转换接口层 状态显示区状态显示区 顶层传感器区顶层传感器区
底层运动控制层 中枢指令决策层
图2-2
6
2.3 系统说明
此平台关于同一个指令,分别进行三种不同的信号的采集输入,分别为:音频信号、红外光信号、视频信号。
Step1:同时采样三种信号输入预判断设置标志位区,进行信号时效性和相关性的综合判断,设置模式选择标志位。
Step2:处理后的指令信息送入指令分类区进行指令分类,并激活相应的控制模块,提高了执行效率同时减小了硬件的消耗和能源消耗。 Step3:激活后相应控制模块结合环境因素决策方程,进行相应被控对象的控制并给出控制信号。
Step4:控制信号送入输出控制区,该区域为一个类输出电源管理器,根据输出信号的需求配置相应的符合参数驱动要求的控制电信号。
2.4 系统总体方案设计特点和目标
1、 建立控制更为优化且更为稳定的决策控制平台
2、 非特定语音识别语音控制,采用非特定语音识别,识别精度高,可以提供基本交流且可进行大幅语音指令拓展;
3、 舵机控制便捷稳定,多种途径直观调整;分层设计,预留多串并口,功能延拓方便;
4、 具备家居安全检测功能;具有人的基本触感、光感、饱食感等,具备网络摄像头,多平台终端监控;
5、 与风靡全球聊天软件可模拟‚Simsimi‛对接,形成语音文字库交互。 6、 实现半类人脑思维CUP判断,结合控制因数方程,预留多路外围拓展接口,开源内部代码,形成类LINUX操作系统内核发展体系的中国智能机器人内核开发环境。
7、 专业性能稳定,功能完善,可功能拓展空间大,成本不高,便于普及 8、提出尝试使用多环境因素指标设立的决策方程,使决策指令更具科学化。
7
第三章 硬件设计
3.1平台对象的选择
图3-1机器人实物图
3.2 核心决策控制器的选择
根据系统控制要求我们首先选择控制器。市场上可供我们选择的控制器多种多样,比如工业控制计算机、PLC、嵌入式、单片机等。考虑到我们设计的机器人体积较小,为了控制器能放置在机器人上,因此我们放弃选用工业控制计算机作为控制器,所以我们只考虑在小型PLC和单片机中选出一种合适的控制器。
方案一:可编程逻辑控制器(PLC) 优点:
1.配置方便:可接控制系统的需要确定要使用哪家的PLC,那种类型的,用什么模块,要多少模块,确定后,到市场上定货购买即可。
2.安装方便:PLC硬件安装简单,组装容易。外部接线有接线器,接线简单,而且一次接好后,更换模块时,把接线器安装到新模块上即可,都不必再接线。内部什么线都不要接,只要作些必要的DIP开关设定或软件设定,以及编制好用户程序就可工作。
3.编程方便:PLC内部虽然没有什么实际的继电器、时间继电器、计数器,但它通过程序(软件)与系统内存,这些器件却实实在在地存在着。其数量之多是继电器控制系统难以想象的。
缺点:
8
缺陷:PLC的体系结构是封闭的,各PLC厂家的硬件体系互不兼容, 编程语言及指令系统也各异,当用户选择了一种PLC产品后,必须选择与其相 应的控制规程,并且学习特定的编程语言。同时价格较为昂贵,对于普通开 发者的实验室使用成本过高。
方案二:单片机(stc12c5a60s2) 优点:
1:满足具体项目需要和外设要求:双通信口,且匹配语音模块和舵机控制模块通信频率,且需求高速多通信口处理器,
2:处理速度快:高速/低功耗/超强抗干扰的新一代8051单片机,指令代码完全兼容传统8051,但速度快8-12倍。
3:开发周期短:不但和8051指令、管脚完全兼容,其片内的具有大容量程序存储器且是FLASH工艺的,且开发其的C程序移植性程度高,更易于后期功能扩展开发。
4:性价比高:价格相比较ARM和PLC控制器,价格适中,且购买方便。适合此次项目的设计宗旨和设计成本需要。
缺点:
用单片机制作的主控板受制版工艺、布局结构、器件质量等因素的影响导致抗干扰能力相对较弱,需要经过相对较长时间的使用验证才可形成一个真正的产品。
此次项目关于核心决策控制器的选择还考虑了其他的品牌和型号的控制器,但是均存在一些技术性因素或成本因素。综上考虑,选择具备高性价比且最贴切开发者初衷的stc12c5a60s2型号单片机。
3.3 运动控制模块设计
3.3.1 机器人电机调速及驱动方案设计
直流电机的转速特性为:
nUIaRCe (3-1)
当理想空载时,电机的机转速性为:
n
UCe (3-2)
由式2-1和2-2可以看出,要改变电机的速度,可以改变电阻R或电压U以及磁通Φ来调节电机的速度。但是改变电枢电阻R值,接入的电阻消耗了部分电压,因此这种传统的调速方法效率很低;而磁通量Φ难以控制。所以我们选择改变电压来实现电机的调速系统。
随着电力电子技术的发展,出现了许多新的电枢电压控制方法,其中
9
PWM(Pulse Width Modulation)控制是常用的一种调速方法。PWM控制是指在保持周期不变的情况下,通过调节开关导通的时间对脉冲宽度进行调制,从而达到调节电机转速的目的。在脉宽调速系统中,电机电枢两端的电压是脉宽可调的脉冲电压,在输出脉冲频率足够快的情况下,由于惯性的存在,只要按照一定的规律改变通、断电的时间,即可使电机的速度达到并保持一个稳定值。对于直流电机,采用PWM控制技术构成的无级调速系统,启停时对直流系统无冲击,并且具有启动功耗小、运行稳定的特点。
脉冲宽度调制(PWM)技术是采用H桥电路作为功率放大电路,运用全数字PWM技术控制电机转速,并引入速度反馈提高控制精度和电动机机械特性的硬度,从而可以使电机在运行过程中能够获得多种不同的运行状态和速度。这种电路由于工作在管子的饱和截止模式下,效率非常高;H型电路保证了可以简单地实现转速和方向的控制;电子开关的速度很快,稳定性也极强,是一种广泛采用的PWM调速技术;由单片机直接产生PWM驱动控制脉冲,精度高,连接方便,成本低;采用速度闭环控制,不仅提高了控制进度,而且使电动机机械特性变硬,从而彻底克服了小车因速度过低或负载扰动而造成的停车,尤其是在弯道区域,保证了行驶的连续性。其原理如图所示:
SUaUsUsMUoTonToff
T图3-2 PWM控制原理图
t这样在电动机两端得到的电压波形如图2-4右侧所示,电压平均值Uav可用下式表示:
UavtonUsUsT (3-3)
式中,
ton开关每次接通时间
T开关通断的工作周期
占空比,tonT
10
由式(2-3)可见,改变接通时间ton和开关周期T的比例亦改变脉冲的占空比,电动机两端电压的平均值也随之改变,因而电动机转速得到了控制。
考虑到实际的机器人是轮式机器人,其前进、后退及转向等操作可以通过简单的控制机器人左右腿电机的开关来实现,所以我们仅仅需要控制其左右腿电机的开启及停止。
对于电机的驱动我们选择H桥作为驱动电路,其原理如图3-3所示:
图3-3 H桥驱动电路原理图
如图所示,H桥式电机驱动电路包括4个三极管和一个电机。要使电机运转,必须导通对角线上的一对三极管。根据不同三极管对的导通情况,电流可能会从左至右或从右至左流过电机,从而控制电机的转向。
要使电机运转,必须使对角线上的一对三极管导通。当Q1管和Q4管导通时,电流将从电源正极经Q1从左至右穿过电机,然后再经Q4回到电源负极,此时电流将驱动电机顺时针转动;当三极管Q3和Q2导通时,电流将从正极经Q3从右向左流过电机,然后再经Q2回到电源负极,此时电机逆时针转动。
经过长时间多次方案筛选,最终选取QSC舵机控制板作为该平台运动控制中枢。
图3-4
11
3.3.2 QSC舵机控制板
QSC舵机控制板优点:
此次选取的底层舵机控制板是综合多方面考虑,包括实验室前期针对PWM波控制舵机实验的多次实验结果,最终选择这款开发成熟度较高,稳定性较好的舵机控制平台。该款舵机控制版具备图形化界面的上位机舵机坐标控制程序,大大缩短了开发周期。同时运动控制器作为机器人平台的最主要使用区域,需保证有稳定高精度的工作环境。
图3-5 QSC舵机电路板接口说明
3.3.2.1 QSC舵机控制板供电电路
基本的供电方案可分为两种,实物接线图如下:
12
第一种供电方案,此供电方案比较常用,主要用于给996R舵机或者995舵
机供电,只需要1个电池+1个降压芯片,最终选用此方案
图3-6 供电方案一
第二种供电方案,用于舵机数量较少的情况下。一般测试的时候用。经实验室测量安全系数不高,放弃此种接线方法。
图3-7 供电方案二
3.3.2.2 QSC舵机控制板多级控制板模式选择说明
13
图3-8 QSC舵机电路板接口电路
跳线帽用在PS2模式下
打开手柄的电源开关,可以提取上位机软件保存好的动作组
图3-9 QSC舵机电路板外接开关电路图
14
图3-10 QSC舵机电路板外接单片机接线图
3.3.3 QSC舵机控制板上位机软件说明
加入了舵机偏差修正功能,即舵机板发送重置舵机(P1500),然后安装舵盘,但是这样安装上的舵盘也依然 跟绝对的中间位置有偏差。这个时候需要修正P1500的位置,引入了相对位置偏差修复B(-100,100)。
图3-11 QSC舵机电路板上位机图形化界面
15
3.4 语音控制模块设计 3.4.1 语音识别原理
隐马尔可夫模型(Hidden Markov Models,简称HMM)语音识别技术是一种统计技术,它提供了一种基于训练数据提供的概率自动构造识别系统的技术。其识别系统如图5-1所示。
图3-11 语音识别系统实现过程
这是Rabiner等人在20世纪80年代引入语音识别领域的一种语音识别算法。该算法通过对大量语音数据进行数据统计,建立识别条的统计模型,然后从待识别语音中提取特征,与这些模型匹配,通过比较匹配分数以获得识别结果。通过大量的语音,就能够获得一个稳健的统计模型,能够适应实际语音中的各种突发情况。
随着语音识别研究工作的深入开展,HMM语音识别方法愈来愈受到人们的重视,基于HMM技术的识别系统的缺点就在于统计模型的建立需要依赖一个较大的语音库。这在实际工作中占有很大的工作量。且模型所需要的存储量和匹配计算(包括特征矢量的输出概率计算)的运算量相对较大,通常需要具有一定容量SRAM 的DSP才能完成。
语音识别过程本质上是一种多维模式识别过程。主要有信号预处理、特征提取、语音模型库、模式匹配、后处理等几个环节。首先是预处理,主要包括模/数转换、预加重、自动增益控制等处理过程,主要实现语音信号的数字化;然后对经过预处理后的语音信号进行特征提取,形成特征矢量序列;之后开始模式匹配,就是将输入参数的特征参数同长时间训练得到的语音模型库进行比较分析,从而得到初步结果,目前使用最广泛的识别方法是统计模式识别法;最后,为了提高识别正确率,可考虑进行后处理,以提高系统的性能。
基于实验室关于语音识别原理的实验,利用传统凌阳单片结合语音采样设备,在控制精度和抗干扰方面受技术约束并未能实现最优效果,最终考虑选用一
16
款符合此次设计的语音识别模块进行音频信号接收处理。
3.4.2 语音识别模块(ASR M08-A) 3.4.2.1 ASR M08-A的检测模式
ASR M08-A两种检测模式: 1. 普通检测模式
同一时间内,50条关键词的任何一条都能识别到,这种方式如果‚垃圾关键词‛吸收工作做得不好的话,会带来一定的误识别。
2. 口令式检测模式(又称密码试检测)ASR M08-A 模块对关键词的返回值‚254‛做了特殊的处理,返回值‚254‛作为整个关键词列表的识别入口。在口令式检测模式下,写入一条关键词,然后将其返回值设置成‚254‛,这条关键词便成为了‚口令关键词‛。只有在识别到此‚口令关键词‛之后的8 秒钟内才能对其他关键词进行识别,8 秒钟过后,入口关闭,除了‚口令关键词‛能再次被识别之外,其他所有关键词均不能被识别。由于口令检测模式有效降低了误识别带来的严重后果,大大提高了系统的可靠性,使得语音识别模块能应用在普通的智能控制系统当中,缺点是响应一个动作需要讲两个关键词。
3.4.2.2 ASR M08-A的供电及接口设计
1. ASR M08-A的供电
1.1. ASR M08-A支持5~8V的外置电压供电,把电池盒的连接线剪断,自行接入5~8V的直流电供电(黑色线为负极,红色线为正极,),采用5V直流电供电,因电压过高内部3.3V 稳压器会严重发热。
1.2. 通过串口预留的电源端接入3.3V电压为模块供电,在这种方式下, 电池供电那一端断电,两边都同时供电会造成不可估计的损坏。 2. 关于 ASR M08-A的接口。
2.1. 串口与单片机相连时接线方式如下: 模块GND----------单片机GND 模块TXD-----------单片机RXD 模块RXD-----------单片机TXD
2.2. 模块自带功放电路输出,直接连接8 欧姆0.5 瓦(8Ω 0.5W)的扬声 器。SPK+接扬声器的正极,SPK-接扬声器的负极。
2.3. LINE OUT为功放输出接口,接入外置功放的输入端。
17
第四章 软件设计
4.1 运动控制程序设计
控制指令集说明
QSC舵机板控制由上位机预先制定好指令集烧写录入EEROOM中。下列为指令控制字书写格式要求。
#