• OA系统
  • 图书馆
  • English
  • 中国科学院
  • 首页
  • 所况简介
    所况简介
    1964年,为落实国家声学规划,满足国家迫切需要,形成全国声学学科研究中心,经国务院副总理聂荣臻元帅批准,成立中国科学院声学研究所(以下简称声学所),将原中科院电子所的水声、超声、建筑声3个实验室,1958年成立的南海研究站、1960年成立的东海研究站、1961年成立的北海研究站整体纳入声学所。声学所是从事声学和信息处理技术研究的综...
    了解更多+
    现任领导
    李风华
    所长
    库卫群
    党委书记、副所长
    李明庚
    副所长(正局级)
    杨 军
    副所长
    杨 波
    副所长
    王 雷
    纪委书记
  • 机构设置
    领导机构
    所务会 党委会
    咨询机构
    学术委员会 学位评定委员会
    职能部门
    综合办公室 党委办公室 人力资源部 科技发展部 重大任务部 财务管理部 资产条件保障部 质量管理部 保密办公室 监督审计(纪委)办公室 造船办公室

    研究站
    南海研究站 东海研究站 北海研究站
    挂靠机构
    中国声学学会 全国声学标准化委员会 中国科学院声学计量站(CMA)
    研究单元
    声场声信息实验室
    水下环境信息感知实验室
    水下信息技术实验室
    海洋声学技术实验室
    水下航行器实验室
    超声学实验室
    噪声与音频声学实验室
    智能网络与信息处理技术实验室
    语音与智能信息处理实验室
    无人信息系统研究中心
  • 科研成果
    研究领域
    经过五十多年的发展,声学所形成了独具特色的六大研究领域:水声物理与水声探测技术、环境声学与噪声控制技术、超声学与声学微机电技术、通信声学和语言语音信息处理技术、声学与数字系统集成技术、高性能网络与网络新媒体技术。 【详情】
    成果概况
    获奖
    论文
    专利
    专著
    科研进展
    研究人员提出一种用于水下目标探测的无网格稀疏恢复距离-角度估计方法
    2025-06-20
    研究人员提出一种基于声阻抗效应的声表面波气体传感新方法
    2025-02-14
    声学所极地声学研究取得突破性进展
    2025-01-23
    研究人员在蜂窝结构中发现反常声传播特征并展示其在脱粘缺陷检测中的潜力
    2025-01-16
    声学所论文被评选为“2024年度中国高影响力数据论文”
    2024-12-11
    声学所王文团队论文获得Nature子刊2024年度热点论文奖
    2024-10-21
    中国科学院声学研究所语音与智能信息处理实验室团队在EUSIPCO 2024 LAP Challenge中夺冠
    2024-09-12
    研究人员提出面向网络加速的FPGA动态部分可重构方法
    2024-09-03
    研究人员提出逐符号运动补偿的256QAM水声通信方案
    2024-08-16
    研究人员提出基于深度学习的地层横波速度层析成像新方法
    2024-07-23
    研究人员利用零群速度特征提出一种复合蜂窝结构脱粘缺陷检测新方法
    2024-07-02
  • 人才队伍
    院士专家
    汪德昭
    马大猷
    应崇福
    张仁和
    侯朝焕
    李启虎
    汪承灏
    人才招聘
    更多+
    中国科学院声学研究所2025年特别研究助理(博士后)招聘启事
    2025-04-03
    中国科学院声学研究所2025年招聘启事
    2025-04-03
    中国科学院声学研究所资产条件保障部岗位招聘启事
    2025-03-18
    中国科学院声学研究所诚邀优秀青年人才申报2025年度海外优青项目
    2025-03-03
    中国科学院声学研究所监督审计(纪委)办公室管理岗位招聘启事
    2025-03-03
    正高级专业技术岗位
    副高级专业技术岗位
    中科院青年创新促进会会员
    特别研究助理及博士后管理
  • 研究生教育
  • 党建与文化
    活动报道
    更多+
    超声学党总支召开党员大会
    2025-06-18
    语音与智能信息处理党总支召开“筑防线、树新风”微党课
    2025-06-18
    水下航行器党总支第一党支部召开党员大会
    2025-06-18
    语音与智能信息处理党总支召开党员大会
    2025-06-18
    声学所党委举办深入贯彻中央八项规定精神学习教育读书班暨理论学习中心组集体学习会
    2025-06-04
  • 交流合作
    学术交流
    更多+
    声学所特别研究助理小组举办2025年度第2期学术交流活动
    2025-05-26
    声学所举行2025年第6期学术交流会
    2025-05-26
    声学所举行2025年第5期学术交流会
    2025-04-15
    声学所举行2025年第4期学术交流会
    2025-04-15
    声学所举行2025年第3期学术交流会
    2025-04-02
    科技合作
    更多+
    科技导报社调研声学所
    2025-03-10
    青岛市人大代表慈国庆参加市人大代表座谈会
    2024-03-27
    青岛高新区工委委员、管委副主任张建军调研北海研究站
    2023-12-04
    超快速高灵敏声表面波氢气传感器入选中国科协科研仪器优秀案例
    2023-03-28
    科技部社会发展科技司调研声学研究所相关工作
    2023-03-23
    国际会议
    更多+
  • 科学传播
    工作动态
    更多+
    科学之"声" 启迪未来——中国科学院声学研究所成功举办第二十一届公众科学日活动
    2025-05-20
    我们的耳朵——中国科学院青促会北京分会 “爱科学小课堂”第 23期科普活动在声学所举行
    2024-09-10
    北京市中关村中学走进北海站开展科学实践活动
    2024-07-15
    《中国医学影像技术》5T专刊在京发布 国内首次系统性地在学术期刊上介绍和展示世界首创的超高场5T磁共振技术
    2024-06-28
    声学所作品获评2023年度全国优秀科普微视频
    2024-04-01
    科技期刊
    科普文章
    更多+
    科普文章丨耳机里的声音为什么会有方向感?
    科普文章丨嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令?
    科普文章丨神奇的主动降噪技术
    科普视频
    更多+
    科普视频丨杨波:揭秘“深海勇士号”载人潜水器
    科普视频丨声音的奥秘
    科普视频丨真空无法传声科普实验
    科普视频丨借声波一臂之力探神秘海底世界
  • 信息公开
    信息公开规定
    信息公开指南
    信息公开目录
    信息公开申请
    信息公开年度报告
    信息公开联系方式
  • 首页
  • 所况简介
    • 机构简介
    • 所长致辞
    • 现任领导
    • 历任主要领导
      • 历任所长
      • 历任党委书记
    • 院所风貌
  • 机构设置
    • 党的委员会
    • 学术委员会
    • 学位评定委员会
    • 组织机构
      • 领导机构
      • 咨询机构
      • 研究平台
        • 研究单元
        • 重点实验室(工程中心)
      • 职能部门
      • 研究站
      • 挂靠机构
  • 科研成果
    • 研究领域
    • 科研进展
    • 科研产出
      • 获奖
      • 论文
      • 专著
      • 专利
  • 人才队伍
    • 院士专家
    • 正高级专业技术岗位
    • 副高级专业技术岗位
    • 中科院青年创新促进会会员
      • 2011
      • 2012
      • 2013
      • 2014
      • 2015
      • 2016
      • 2017
      • 2018
      • 2019
      • 2020
      • 2021
    • 特别研究助理及博士后管理
      • 博士后公告
      • 博士后规章
    • 人才招聘
  • 交流合作
    • 学术交流
    • 国际会议
    • 科技合作
      • 合作动态
      • 专利转让信息
      • 合作项目
  • 研究生教育
  • 党建与文化
    • 党群园地
    • 组织文化
    • 形象标识
    • 活动报道
    • 文化副刊
      • 诗歌
      • 书画
      • 摄影
      • 散文
  • 科学传播
    • 时间轴
    • 工作动态
    • 科普作品
      • 科普文章
      • 科普视频
      • 其他
    • 科技期刊
  • 信息公开
    • 信息公开规定
    • 信息公开指南
    • 信息公开目录
    • 信息公开申请
    • 信息公开年度报告
    • 信息公开联系方式
  • 重要新闻
  • 党建动态
  • 综合新闻
  • 媒体报道
  • 学术报告
  • 通知公告
  • 最美科学家
  • 专题
  • 专题
    • 深入贯彻八项
    • 2025年全国两会
    • 学习贯彻党的二十届三中全会
    • 科技自立自强之路
    • 科学家精神教育基地
    • 2024年全国两会
    • 平语近人(第3季)
    • 中国科学院2024年度工作会议
    • 科技创新再出发
    • 学习贯彻习近平新时代中国特色社会主义思想主题教育
    • 学习两会精神
    • 学习宣传贯彻党的二十大精神
    • 中国科学院2022年度工作会
    • 2021年终科技盘点
    • 中国科学院“基础研究十条”
    • 十九届六中全会
    • 党史学习教育
    • 不忘初心牢记使命
    • 率先行动
    • 两学一做
    • 防灾减灾
    • 十八届四中全会
    • 喜迎十八大
    • 十九届五中全会
    • 深切缅怀汪承灏院士
      • 讣告
      • 汪承灏院士治丧委员会
      • 生平传记
      • 追忆悼念
      • 科研成果
      • 科学家精神
      • 音容笑貌
  • 快捷通道
    • OA系统
    • 继续教育网
    • ARP
    • 违法违纪举报
    • 信访渠道
    • 图书馆
    • 正版软件
    • 网站地图
  • 友情链接
    • 新闻媒体
    • 政府机构和组织
    • 国内院校
    • 国内科研机构
    • 国际科研机构
  • 网站纠错
科普作品
科普文章
科普视频
其他
其他
您当前的位置:
首页 科学传播 科普作品 其他

“芝麻开门”

发布时间:2009-07-22
【  小 中 大  】

“芝麻开门”

“天方夜谭”里有个阿里巴巴和四十大盗的故事,四十大盗藏宝的石窟的门听见芝麻开门的口令,就会打开。这反映了人们的愿望,能不能使机器听懂人的话,用人的语言控制机器。

为什么机器不容易听懂人的话

每个人的发音都不相同,语种、方言、性别的差异使发音的差别很大,即便是同一语种、同一方言、同一性别的人,讲同一句话,发音还是不完全一样的。同一个人在不同的情绪下,比如生气、高兴、疲倦等等,讲的同一句话,发的音也会有变化,更不用说伤风感冒,影响发音器官,声音就会有更多的变化。一个机器经过训练,能听懂一个人的话,别人的话就听不懂或听的很差,叫做特定发音人的识别系统。不论什么人(同一语种、同一方言)讲话都能听懂,叫非特定发音人的识别系统,这种系统就难做多了。

“芝麻开门”只有四个音,有一个音不一样就不开门。如果要求机器分别几十个词汇,只要事先保存好词汇的发音,再一一对比,这也不复杂。如果词汇量扩展到几千、几万、十万以上,就复杂多了。不光是机器判断的时间问题,词汇量一大就有同音词问题,而汉语普通话中同音词是很多的。

如果识别的是单个词,机器听到后和存在机器里的各个词的音比较,看和哪个最接近就行了。但如果要求识别的是一句话,就是连续语音,机器听到的是一串语音,有时音节和音节连在一起,如何区分哪几个音节是哪个词呢?在自然语言理解中这叫歧义切分,就是把句子切成词,不同的切法就有不同的意思。白纸黑字还有这么多问题,机器识别中听到的是一串音,问题就更多了。

向机器读一段新闻或报告,这里每一句话都结构严谨,合乎文法规则,机器听起来就比较方便。但如果听普通人随便讲话,就不是这样。一句话往往不是一口气说下来,而是几个字一断,中间还要加上嗯、啊、这个等一些没有意义的音。整个句子往往结构颠倒,有时一个词要重复几次,有时还会漏掉个把音节,或者把一些音“吃”掉。机器怎么办呢?

语音识别

语音识别过程简单说就是事先人对机器讲话,机器把一个词或一个音节或一个音位进行分析成为各类参数,把这参数记下来,成为图样。识别的时候,人对机器讲话,机器再把这些词、音节或音位与存下来的各种图样相比较,来判断讲的话是什么。

孤立词(或音节)识别比较好办,一个词与一个词,或汉字中一个音节与一个音节,在读的时候中间要有间断时间,因此词与词、音节与音节之间的边界是清楚的。而在连续语音识别中,你不知道这一句话有多少个词(或音节),更不知道一个词和相邻词,或一个音节和相邻音节的边界在什么地方。

如果计算机识别是针对特定人的,那就要由这个人对机器进行训练,得出和他相应的模型。别的人来讲,机器就会判定错误。即使他本人讲的话,过一段时间也会变化,得了伤风感冒声音更会变化。因此隔一段时间也要训练一次。非特定人的识别系统要经过许多人的训练,把这些人的特征都提取出来存在机器里,识别时与这个组合的模型匹配。人一多,语音不同,一个音与另一个音就容易交叉、模糊,因此识别起来正确率就要比特定人识别系统有所降低。但非特定人识别系统不需要训练,对使用人很方便。

语音识别要求的是知道讲什么字、什么词,有的还要知道是什么意思,这就是理解系统的工作。目前有许多种办法,包括用语法、语义、字与字、词与词配合的概率,这件事要求大量统计。但不同文体、不同性质的资料,词的组合不一样。所以这种方法也有很大局限性。由词构成串之后,还要用语法、语意再加检查,看是否合理。

如果是随便讲话,就可能讲出半句话,或者把一些字省掉或“吃掉”,有的字重复,有的中间塞进没有用的嗯、啊等没有用的音,这时的识别就更加困难。在一些识别系统中使用“词点选”的方法,就是选出关键词,其他词和音都不予理会。不过使用这种方法时任务要单纯。

语音合成

语音合成系统可以按要求说各种话,用的时候大部分场合是输入文字,由合成器发出语音,目前的语音合成都是用电子线路和计算机完成的。对合成器发出的语音的要求是每一个音都发得对,整个句子连接起来的抑扬顿挫,各个音轻重长短都要符合人讲话的规则,听起来又清晰、又自然,好象真人在讲话,不是机器腔,这才是好系统。

语音合成分为两个步骤,第一步是文字分析,第二步是语音合成和发音。汉语是一个个汉字连续排列,只有标点符号能够把前后文分开。哪几个字是一个词是不容易区分的,词划分不对,读起来也不会正确。分词之后要确定哪一个词的发音应该重,哪个音应该轻。汉字每个字都有声调,但在连续起来之后,有的字的调就要改变。再下一步就是要弄清整个句子哪些地方要加重,哪些地方要轻读,哪些词时间要长,哪些词要短,哪两个词间隔时间要长一些,哪两个词间隔时间要短一些,这些总起来叫韵律。下一个步骤就是按上面的结果和规则,在合成器中合成和发音。

通用语音翻译

通用语音翻译说起来并不复杂,只要有需要相互翻译的两种语言的识别系统、机器翻译系统和语音合成系统就可以组成语音翻译系统了。其实不然。首先,平常说话讲的是口语,说话人又有各种方言或口音,周围还会有各种噪声,语音识别系统在识别时就会遇到困难。通常使用的机器翻译系统对这种不规范的文字也会产生困难,会译错或译不出来。

要想使语音翻译有比较好的效果,首先是要限制谈话涉及的领域和词汇,其次在方言上要加以限制。随着口语翻译的发展和计算机词汇量的增加,谈话内容和语种都可以不断扩大,相信实现通用语音翻译系统已经不是很遥远的事情了。

语音编码

把语音波形变成数字码,然后用数字传输,这有很多好处,比如信号稳定、音质可靠,易于构成多路、综合、网络化及多媒体通信,易于实现高度保密,设备易于做到标准化和高的性能价格比。数字传输方法的缺点是要使用比较宽的频带,这也可以采用先进的编码技术,压缩编码率来解决。

语音信息处理

中国科学院声学研究所在语音信息处理技术领域具有多年的技术积累和研发经验,“嵌入式语音识别系统”在“863”计划组织的多次系统性能评测中均名列前茅。目前,针对语音识别的“复杂环境”和“真实口语”组织开展了电话语音识别、电视语音识别、特种语音识别、高自然度语音合成、与低码率高质量的语音编码工作。

特种语音识别

  • 关键词识别:主要根据所检测的内容中频繁出现的、有规律和有特征的词或词组的识别来判定用户目前所说内容的敏感性。
  • 说话人识别:主要根据语音信号反映说话人生理、心理和行为特征的语音参数,建立模型来自动识别说话人身份的技术。
  • 语种识别:根据语音信号提取语言相关的特征参数,判别这段语音属于何种语言。
  • 变声技术:将一种正常或不易理解的声音变换成另一种正常的或易于理解的声音。
  • 音乐检索:通过声音哼唱来查询乐曲,一般可采用基于内容的音乐检索方法。

概念层次网络

中国科学院声学研究所黄曾旸研究员创立的概念层次网络理论,将人们对于语言的理解方法及概念符号化,使计算机能够象人一样进行语言理解和推论,从而真正“理解”人的语言。随着技术的发展与完善,这种方法会对计算机语音识别有一个重大突破。

 


附件下载:

上一篇:

高得听不见的声音——超声

下一篇:

超声应用

旧版回顾 | 网站地图 | 联系我们
© 1996 - 2021 中国科学院声学研究所 版权所有备案序号:京ICP备16057196号-1
京公网安备110402500001号地址:北京市海淀区北四环西路21号中国科学院声学研究所
邮编:100190
官方微信