人机交互技术 - 行业新闻 - 新闻 - 上海峻迹智能科技有限公司

021-24209369

新闻

人机交互技术

人机交互技术的概念

人机交互技术包括用户向计算机输入信息以及计算机输出信息给用户的过程。在交互输入方面，从开始的手工操作开关、鼠标键盘输入发展到现在的体感交互等自然交互方式；在显示输出方面，从命令行代码、图像化用户界面到立体显示界面、全息投影等。人机交互的发展表现出两点鲜明特征，一是交互以人为中心，越来越注重用户的个人体验；二是逐渐突破交互维度的限制，发展为直接在三维空间交互的三维人机交互方式，将现实中人与真实环境交互的经验直接运用到虚拟人机环境中，很大限度地消除用户为了适应计算机系统所带来的认知负担。

人机交互正朝着以人为中心和提升用户体验的方向发展，无论是交互输入还是显示输出，交互设计越来越重视用户体验，面向个人体验已经成为交互设计的重要指标，将有助于降低用户在交互中的认知负担与学习成本，为用户营造自然沉浸的交互环境。特别是近年来虚拟现实技术、增强现实技术、体感交互技术等的快速发展使得感知计算成为近年来科技巨头的竞争焦点。

视觉交互是人类获取外界信息的主要方式，在人机交互领域也不另外，立体视觉能够显著增强用户交互的沉浸感和临场感；手是人类作为灵活的肢体部位，自然手势交互对于人操作机器十分便捷；肢体是人类运动的支撑主体，肢体动作交互能够带来交互趣味性，使用户更加投入交互。

立体视觉显示技术

人眼能够感受到立体视觉主要是因为左右眼图像的视差产生的，这个早在18世纪就被人类发现的秘密是目前所有沉浸式立体成像技术的基本实现原理。立体显示技术是相对于普通二维显示的概念，指的是通过一定技术使画面变得立体逼真，让观看者能够感受到画面深度，带来身临其境的观影体验。立体显示技术可分为眼镜式3D、头戴式HMD、裸眼3D、全息投影等。其中眼镜式3D显示因其低成本、佩戴容易等优势已成为各大影院采用的主流3D观影方式；头戴式显示技术沉浸性表现优秀，是虚拟现实产品的主要显示方式；裸眼3D技术因不需要佩戴任何设备就可以观看到3D画面，成为下一代理想的显示技术而得到广泛研究；全息投影尚处在研究初期，产品主要运用在娱乐显示、大型会演场所。

头戴式显示器（Head-Mounted Display，简称 HMD），是目前虚拟现实（VR）技术广泛应用的显示装置，通过佩戴在用户头部，实时检测用户头部动作，并映射到虚拟摄像机视角控制用户所看到的画面内容。HMD 有两块显示区域，分别投射左右眼图像画面到用户双眼，从而给用户营造强烈的沉浸感。其主要部件包括：显示屏、处理器、追踪传感器。显示屏是实现沉浸式显示的接口，其分辨率参数对用户体验具有重要影响，高分辨率有助于解决“纱窗效应”，较大尺寸的显示屏能够扩大视场角，足够高的显示屏的硬件刷新频率是输出流畅图像的重要保证；处理器包括CPU和GPU，主要完成头部转动姿态解算、图像渲染显示等，对于控制显示刷新率起着决定性作用，而良好的HMD显示器需要保持帧率在60Hz以上，为了提升帧率往往采用Time Warp技术、动态分辨率渲染等；追踪传感器也是HMD必要组件，是实现用户头部动作映射的基础，一般采用惯性传感元件实现这样的功能，此外，一些高端的VR设备还提供了位置追踪的功能。目前，HMD主要有Oculus为代表的高端体验方案以及运用智能手机充当显示与处理中心的入门级Cardboard体验方案两类。

裸眼3D显示技术使得观看者无须任何佩戴设备，直接以观看普通显示屏幕的方式就可以看到三维立体画面，从而体验虚实结合的影像。从技术原理上区分，裸眼3D可分为光屏障式和柱状透镜式等。光屏障式类似于偏正式3D眼镜，通过在液晶面板前方设置光栅屏蔽掉左眼位置的右眼画面以及右眼位置的左眼画面。柱状透镜式用透镜阵列替代光栅的作用，利用通在分辨率、亮度等方而能够达到比较好的效果，因此是大多数产品选用的技术方案。

无论哪种原理的裸眼3D显示屏幕，其效果都是在观看者左右眼投射不同图像，称为视差图像。在人眼接受范围内，视差图像差异越大，裸眼立体效果越明显。为了得到较好的3D 效果，往往采用多幅视差图像合成立体图像。观看者在不同位置只要同时看到多幅视差图像中的两幅正确图像就可以感受到立体效果，且随着观看者水平移动将可以看到不同视角画面，从而提供了运动视差，这种技术被称为多视点技术。

自然手势交互技术

在自然的三维交互应用场合，人与计算机的交互不再局限于键盘或触摸屏幕，而只需要手在三维空间自然动作即可传达交互意图给计算机，手势交互将生活中人们习惯的手势符号作为与计算机交互的直接输入将会极大地降低用户学习成本。

基于计算机视觉的手势识别方法因其硬件平台简单、成本易控制而受到广大学者研究。该类技术从硬件上可以分为单目视觉、双目视觉甚至多目视觉系统，从手势复杂程度上可以分为静态手势识别和动态手势识别。

静态手势识别针对某一帧图像中手的特定姿势进行识别，这类识别系统关键是提取手势特征进行逐一比对。朱继玉等提出一种整体特征和局部特征提取的结构分析方法算法；常红等人利用跟踪算法在动态背景数据中成功提取静态手势特征。静态手势识别相对来说较为容易，一般基于特征匹配的识别算法能够得到较好的结果。

动态手势识别需要对手的运动轨迹及变化的手形状进行检测，具有较高的实时性和算法高效性要求，通常需要利用机器学习算法训练来增加系统健壮性。于姜娟等提出一种HMM 算法和动态规划结合的新算法用于改进 HMM 训练阶段，使得系统识别准确性和实时性得到改善；黄季冬通过优化动态时间规整算法（DTW），并基于WPF设计了一套手势识别系统，提升了动态手势识别的效率。

在早期的视觉手势研究中，多采用单目视觉进行图像获取，但这种单目相机只适合简单背景的应用场合，而且难以获得手势在三维空间中的位置信息，因此后期的研究多集中在双目视觉领域，特别是近年来，人们在双目视觉领域的研究已经成熟应用于商业中，2013年面市的Leap Motion 设备就是经典的双目视觉手势识别系统，并被广泛应用与各种3D交互场合。Leap Motion 设计为两个摄像头和3个红外LED组成，可在传感器前方生成25～600mm的倒四棱锥体检测空间，基于双目视觉实时融合与解算三维空间中的3D手模型达到0.1mm的识别精度。

数据手套的研究起源于近现代，从20个世纪80年代开始有不少学者在这个领域进行了深入的探讨。T.Zimmerman 等人发明光弯曲传感手套替代笨重的外骨骼式数据手套，加速了数据手套的发展，随着近年来虚拟现实技术的再次崛起，数据手套也再次受到关注。目前市面上较为成熟的数据手套产品有5DT、CyberGlove、Measurand、Dexmo等。

5DT 是数据手套权威品牌，其基于纤维光学的弯曲检测原理设计，具有高数据质量、低干扰、高数据传输率等优点，但不能提供力反馈；CyberGlove是一款带力反馈的数据手套，在每个手指以及手掌部位安有小型震动器以模拟触感；Measurand 采用外置韧性弯曲度检测条带的方式，可检测拇指与食指的弯曲程度以及手掌和手臂位置和运动方向；Dexmo 采用外骨骼设计，即可以检测手指弯曲，又可以提供力反馈触感，因为外骨骼方案成本易控制，其优点是价格便宜。

总体来说，数据手套有不同实现方案，主要功能体现在弯曲检测和旋转姿态解算方面，要实现自由的空间移动还需要借助额外的检测设备，如何融合手势检测与空间位置检测，同时提供力反馈通道是今后的研究方向。

肢体动作交互技术

肢体交互指的是不借助鼠标键盘等交互工具，直接通过肢体动作映射到计算机虚拟环境对象的表现或控制计算机界面响应，是一种自然人机交互方式（NUI）。目前，肢体交互中的非穿戴式实现方案已经相当成熟，如Kinect体感器。

Kinect 是一种典型的基于光学检测原理的非穿戴式交互设备，在Kinect1.0 中使用了Light Coding 结构光检测的技术，原理可描述为：激光发射器发出的光源穿透毛玻璃在空间形成随机的“激光散斑”，然后散斑图像在空间遇到障碍物后被反射回摄像头采集，通过比较前后两幅散斑图像的差异从而计算出每个像素点处的深度值。在Kinect2.0中，使用的是TOF （Time of Flight）技术，通过发射强度随时间周期变化的正弦激光信号，然后计算发射信号和接收信号的相位差得到深度。当获取到空间场景深度图像之后分割出属于人体深度图像的信息并基于人体特征识别出空间中的肢体关节位置。

Kinect 用作三维肢体交互设备十分便捷，而且识别范围较大，Kinect 1.0的有效识别距离为0.8～4.0m，2.0版本的有效识别距离为0.5～4.5m。同时，该设备内部带有人体识别算法处理，可直接输出识别到的人体骨骼数据流，该骨骼数据可用于进一步的肢体动作识别。

在肢体交互过程中，肢体动作识别是计算机理解用户交互意图的入口，同时得到了广泛的研究，形成了大量的动作识别算法，如模板匹配算法、基于概率统计分析算法、基于语义的识别方法等。模板匹配算法将标准动作样本序列中提取的关键帧序列作为一组静态模板，将待识别的样本序列提取关键帧并与静态模板一一对应求取每个对应状态之间的距离，从而求取与模板的匹配参数。距离的计算又可以分为欧式距离、马氏距离、动态时间规整等。模板匹配具有简单易行的特点，是实际工程中运用较多的方法，但模板的方法要求关键姿势的长度必须与静态模板长度相同。

基于概率统计分析的方法通过将运动过程的肢体姿势描述为状态的集合并通过网络的方式连接这些状态，状态之间的转换采用概率描述，这类方法通常需要前期训练模型，如隐马尔可夫模型（Hidden Markov Model，HMM）、动态贝叶斯网络（Dynamic Bayesian Network，DBN）等。

基于语义的分析算法将肢体动作描述为不同语法格式，在进行识别时只要将连续动作代表的语法连接起来，即可用自然语言描述的分析方法进行分析，而字符串描述的语句经过多年的发展已经能够快速响应并很好地识别，但是此方法在复杂场景中的动作识别因为语法库数量巨大而显得愈发描述困难。

在工程实践中，基于状态链的动作识别方法具有简单、高效的优点。运行时需要实时匹酶固定姿势关键特征，将有序的关键姿势按照一定时间间隔关系连接成识别链，从而表达动作的完整信息。该方法相对其他算法而言容易实现，并具有较好的健壮性，在识别动作不多的时具有较高识别效率。