English繁体中文简体中文   
       HOME ‹ 核心技术 ‹ 语音命令合成
引言 辨识技术原理概述 核心技术应用领域 成功案例应用 辨识流程图

过去由于计算机运算能力不足,想利用自然的口语方式与计算机沟通几乎是不可能,随着计算机硬件发展成熟,计算机整体的效能已大大提升。智能型人机接口技术的应用,特别像是语音辨识等相关功能,已经被广泛应用于各式信息产品之中。

透过智能型语音命令与语音合成技术,轻松自在地操控个人计算机、各式手持式装置,甚至是IA信息家电,这些听得懂使用者自然对话的科技产品将不再是冷冰冰的机器,取而代之的将会是更具人性化的交互式电子产品。例如,使用者可以利用手机进行声控拨号,或是在PDA上直接以声控方式操控或是进行实时数据搜寻,各种IA产品及玩具也可透过语音命令与语音合成技术,增加产品与使用者的互动性,预估语音辨识相关技术的市场规模可观。

语音辨识相关技术在企业的应用则可以协助企业减低人力成本,并增进服务品质,带来新的实质收益。例如协助证券业者,让广大的投资人直接透过电话语音方式下单购买股票,或是听取股市行情等。

蒙恬科技目前研发两项语音技术,包括『语音命令』与『语音合成』两项技术,皆是实现人机互动的关键技术。语音命令(VC)是Voice Command,指声控指令,透过计算机识别人所发出的语音指令,进而操控计算机的动作。语音合成(TTS)是Text-To-Speech,指将输入的文字转换成语音输出的技术。

  智能型语音命令技术的原理

智能型语音命令技术是先由话筒、麦克风等输入设备输入语音命令,先进的语音技术会将输入的语音转换成语音数字信号,并且对该信号进行语意分析处理,同时提取语音特征,接下来会在预先建立的语音词库里,进行资料搜索与比对,并找最相似的语意作为辨识后的结果,并输出成文字或直接执行指令。

蒙恬科技现有的智能型语音命令技术,是采用『非特定人大词汇量连续语音』的方式进行开发,可以适应不同发音人和不同发音环境,并且蒙恬科技智能型语音命令技术已针对所使用的特征、声学模型、搜索方法等进行了『最优化设计』,可以在像是嵌入式系统中,或是仅具小处理能力的CPU和小存储量的情况下进行实时语音识别,而对于识别精度却仅有小幅损失。

  智能型语音合成技术的原理

智能型语音合成技术是先将输入文字作「语言学预处理」,这是对文章段落进行特殊符号(如数字元元串、英文字符串、货币符号等)与断句分析,根据文章中的标点、段落等作文本的划分,并将之转换成相应的读音。
接着进行「文本分析」,即是针对文章中的语句作「词」的切分,并将「字码」转换成相应的「音码」,再来便是透过语音韵律规则数据库,或类神经网络技术以演算出准确的音高(Pitch)、音长(Duration)、音强(Energy)、与音节间的停顿(Pause)大小,以正确的表达语意,并透过计算机仿真真人智能发音。
由于实际言语千变万化,各种语言现象极其丰富,难以用有限的韵律规则数据库涵盖所有情况,因此蒙恬科技研发的智能型语音合成系统,同时兼有韵律规则库和类神经网络技术,这两种算法以生成语音韵律,以确保语音合成之自然流畅。

现阶段虽然语音辨识的市场很大,但是整体而言,中文语音辨识技术仍然有许多方面需要改进,例如必须解决输入时环境的噪音等问题。蒙恬科技现有的语音技术,已可以提供90%以上的辨识率,目前先自PC平台移转到个人数字助理(PDA)上,已开发完成WinCE操作系统上的语音合成及语音命令技术。
个人计算机声控系统
  个人计算机上的各种语音互动功能,包括语音代理人(语音秘书)、语音上网、语音建立表格、语音计算器、语音字典、语音互动游戏、设定实时语音提示、文稿语音校对、语音电子邮件等。
手持式电子装置声控系统
  各式手机、PDA等手持式电子装置上的语音操作与查询,并进行资料朗读。
声控拨号系统
  应用于固定式电话的声控拨号功能。
声控家电系统
  以语音方式控制IA信息家电,或应用于多媒体商务/办公、语言学习教学、购物系统。
车用语音导航系统
  应用于智能型汽车中,透过语音命令方式控制音响与汽车导航,以及车载电话的声控制系统。
工业机器之声控系统
公众信息查询与播报系统
  可透过语音方式查询与听取如天气、交通、电话号码、广播电视节目和新闻等生活信息。
银行业帐务语音查询服务系统
  让使用者透过语音方式取得帐户、线上交易、取得用户资料等
航空、铁路自动订票系统
  让使用者透过语音方式进行订票、退票与票务确认等。
证券业股票查询交易系统
  让使用者透过语音方式进行下单、交易确认与查询、最新股市行情查询等。
自动总机系统
  让使用者透过语音方式进行拨号、分机查询等。
声控玩具
  让使用者透过语音方式与智能型玩具进行对话与互动。
导盲阅读系统
  残疾人语音辅助学习系统。
          蒙恬自行研发产品成功案例
 

嵌入式语音人机接口应用范围相当广泛,涵盖通讯、计算机、生活IA、车用等领域,尤其在屏幕和键盘输入受限的智能型装置上,更彰显出应用价值。

 

 蒙恬听写王系列产品:整合中文语音与手写辨识之系统,其中整合既有之语音命令与语音合成技术,包括像是语音代理人(语音秘书)、语音上网、语音建立表格、语音计算器、语音字典、语音互动游戏、设定实时语音提示等。

 蒙恬笔系列产品:中文手写辨识之系统,并整合既有之语音命令与语音合成技术,包括像是语音上网、语音朗读机等。

 蒙恬名片王系列产品:13种语文之名片辨识系统,并整合既有之语音命令与语音合成技术,使用者可以用中文语音搜寻名片资料。

 蒙恬扫译笔系列产品:中英文扫描翻译辨识之系统,整合既有语音合成技术,使用者可以指定将扫描之文字以国语或是粤语朗读出来。

 蒙恬声控王(Voking)语音辨识软件:行动语音命令系统,整合既有之语音命令技术,使用者用命令的方式,即可让 Pocket PC手机聪明地执行,举凡搜寻连络人资料、接受语音命令拨打电话、传送简讯、撰写 Email 给连络人、声控点歌、开启行事历、操作浏览器、相簿、档案总管及小算盘等应用程序。

 

          蒙恬企业核心技术授权成功案例
 
  研勤科技:整合蒙恬语音命令与合成技术,应用在智能型声控3D卫星导航系统,利用声控操作手机导航,让使用者轻松驾驭,享受生活乐趣。
  语音地址技术:整合蒙恬语音命令技术,让邮务人员可透过语音方式直接输入台湾省全省地址所须的信息,并将文字结果输出到邮务信息数据库系统中。
  语音下单技术:整合蒙恬语音命令技术,利用语音文法分析、语音辨识及整合数据库存取特性,让证券营业员直接透过语音方式,直接输入股票买卖交易所需的信息,并于确认后将资料实时传送到证交所完成股票交易。
   辨识流程图      
    
 
 
 
 
 

蒙恬科技股份有限公司 Copyright (c) 2007 PENPOWER All Rights Reserved.