由英特尔与企业网d1net联合主办的2023英特尔智能边缘行业应用巡展 • 智慧协同站于2023年7月18日在北京北辰洲际酒店圆满结束。本次活动以“边缘创新 数智向实”为主题,来自英特尔、maxhub、海信商显、亿联网络的企业代表与众多大型企业cio、信息主管等嘉宾,共同探讨了智慧协同与音视频会议的相关场景、痛点、需求、方案、落地实践以及发展趋势等热门话题,助力企业通过数字化的智慧协同人生就是博尊龙凯时的解决方案提速增效,以应对未来发展中的不确定性。
亿联网络人生就是博尊龙凯时的产品中心总经理 廖昀
亿联网络ip&sip话机的市场占有率连续5年全球第一,视频会议系统出货量位居全球前五。亿联网络人生就是博尊龙凯时的产品中心总经理廖昀以《ai技术在远程会议中的应用》为主题,分享了亿联网络将ai技术运用于视频会议领域的探索与实践。
人工智能正在重新定义未来工作,由ai驱动的现代工具有望提高个人、团队和组织层面的生产力,并从根本上改变人们的工作方式。近年来亿联网络提前布局ai,坚持在产品智能化领域进行投入创新,并提前搭建了包括算法研发、工程应用、测试调优在内的完整的ai技术团队。2020年以来,从以人像识别和语音追踪为代表的第三代视讯终端,到用ai技术重写3a音频算法,实现12米稳定拾音、ai消噪、ai去混响,重构会议音频体验,亿联网络一直在进行前瞻性的ai布局。接下来,亿联将运用ai技术还原面对面会议效果,构建沉浸式的会议体验。
据悉,亿联网络与微软正在联合研发smartvision 60终端新品,该产品搭载了intel movidius芯片,通过更强大的ai能力实现更沉浸、更智能的会议体验。廖昀表示:伴随ai技术在平台侧实现深度应用,以及智能终端边缘ai能力的持续提升,人工智能技术正在重塑未来远程沟通协作的体验。
以下是现场速记。
廖昀:大家好,我是来自厦门亿联网络的廖昀,我分享一下我们在细分行业里的应用和体会。最近几个月大家知道ai技术的发展很快,已经在我们的生活和工作中,渗透到了方方面面。在业务层面感知到的东西比较少,但是后台真正起到了对企业效率的提升,起到了很大的促进技术。
人工智能技术以前是空中楼阁,现在已经逐渐落实到现实的应用当中了。在开始今天的分享之前,我想通过一个视频来让大家直观的感受一下接下来我们的视频会议会发展到什么程度。
(视频)
这是微软前两年做的demo视频,还没商用,希望在2023年,这是在2020年左右推出来的产品概念,现在已经落地了,这些体验都可以实验,当时还没有,只是一个demo。这是我们过去两年跟微软共同想追求打造的一种体验,下一代视频会议的体验,马上要都入大家会议室内的。
我们和微软进行了产品技术的联合开发,其中包括今天的主场嘉宾英特尔在里面提供了非常多的底层运算能力的支撑,里面包括我们用到的mimipc、x86服务器,vpu服务器,在具体产品里我会介绍到,还有大容量、高并发、高清视频带来的编解码、gpu卡等等,英特尔在里面发挥了非常重要的支撑的作用,非常感谢英特尔的支持。
算力的支撑非常重要,以往想做,但是受限于整个行业的发展,很多效果都达不到。但是由于英特尔在技术上,在芯片上算力的提升,给我们创造了很大的想象空间,目前还有很大的局限性,这里面期待着摩尔定律能够再运行十几年,我相信整个体验会更上一个新台阶。
这是我们从2015年与微软合作至今,在teams上先后在云通信上做的产品,这个已经是过去时了,虽然现在相关的产品还在销售,但是它的体验是偏传统会议的体验,像右边的mtr产品,英特尔提供的算力支撑。
这是我们即将发布的一个重磅产品,叫smartvision 60,为了实现刚才demo视频中演示的场景开发的产品,耗费了很大的精力在这上面,看上去只是摄像头平平无奇,这里所面临的视频、音频上整个处理后的,跟原来传统的视频会议设备已经完全不一样了。
为了实现刚才视频会议里面的体验,做了什么?接下来想详细分享一下。这里面包括了英特尔的支撑,最大的区别有两个特点,首先这是360度的摄像头,达到了10k,30帧的分辨率,有13个麦克风,分成了两组,6 1智能语言识别麦克风加上6个会议的麦克风,这两套音频是分别处理的,还有智能人像的分割。
第二个特点,这是一款专为承载ai应用而做的会议产品,搭载了英特尔收购的一家公司里面的vpu芯片,总的算力达到了17t,相当于半台特斯拉了,大家知道特斯拉上面非常多的摄像头,它里面有17个t的算力在里面,主要是为了处理10k,30帧的影像,实现包括自然人像分割、人像识别、说话人的识别、智能语音、实时转写、语音助手这些应用,承担了非常多的应用功能。
画面上我们看到的是运用smartvision 60实景开会的情况,推出一段时间了,真正发布会在这个月底,8月初。在画面中我们看到每个与会者的画面都同样清晰的呈现在上面,并且自动跟踪,不需要导播,全是ai自动导播,并且自然的做人像的分割裁切,会议中的每个发言者会根据嘴巴的动作,声音识别到,谁在讲,快速切换,给他特写的画面。
远端入会者可以更准确的分辨当前谁在说话,有什么表情,尤其在一个会议室里有很多人的时候,传统视频会像监控一样,搞不清楚是哪边来的,这里就像智能导播一样,从人脸到检测、跟踪、识别还有其他动作分析等等,ai摄像头就带来了这种体验上非常明显的提升。
在会议场景下ai衍生出了很多行业里的应用名词,还有真实人像加上虚拟场景的应用。这些都是在ai算法跟新技术的加持下才能做的,以往的视频会议终端完全不具备这个能力。远程会议中人与人之间的沟通就会变得更加自然,这就是刚才讲的虚拟场景下加上真实的人像,从概念上来说也是一种ai视频会议体验的落地。
我们大部分人可能都用过pc视频会议软件,也有替换背景的功能,但是其实替换的是单个人像加固定背景,在这里要把同一个会议室的多个人像放在不同位置上,这个算力上的支持要求更大,是呈几何级倍数的上升。
目前还在解决的一个挑战,不同人看起来大小不一样,不太自然,没有真正融合在场景里,这是我们现在要解决的一个问题。技术路径其实已经有了,无非是再加一道,把人像抠出来再做一次处理,但是算力不够,17t哪天能变成170t的时候就可以做这个事情了。刚才英特尔谢总提到了最终都是算力的问题,只要算力足够,可以有非常大的想象空间,我们终端上也可以实现更加智能的体验。
内置了很多场景,也有圆桌的,圆桌最大的挑战就是方向性的,因为坐在一个会议桌前有人朝这儿,有人朝那儿,我们想取不同方向上,确保他看起来一直朝着前面,因为我们开会的时候可能会有一些开小差的时候,如果能把这些提取出来,生成一个虚拟的人像,其实也不是虚拟的,只是记录下来,训练了,替代你这个过程,甚至你打个哈欠也不担心被远端看到,帮你过滤掉这些你不想传递出去的画面,这都有赖于算力的提升,我想过一两年,在会议中的这些功能应该都可以实现。
远程会议中对视频图像的实时性要求很高,很多行业里的应用里对实时性没有特别多的要求,但是在会议中就面临着很大的挑战,不光是超高清,到4k、8k,对实时性要求越来越高。这就带来了海量数据的运算,尤其在大会议室中,在视频行业里没有哪个行业说做到4k,30帧,并且几百方会议,这里还存在网络传输、运算上巨大的困难。
在智能终端上进行边缘计算就是一个很好的技术路径,因为服务端跟传输上非常难以承载这么大的数据量。我是非常支持英特尔刚才提到的边缘计算今天这个主题的,这个技术路径对我们构建整套人生就是博尊龙凯时的解决方案,再往前推进一步是非常有利的,我们在终端上越来越多的投入资源实现更多的东西,结合服务端的应用,尽量减轻服务端的应用。
视频会议的边缘计算除了刚才所介绍的视频图像方面的应用,其实在音频方面也起到了非常重要的作用,在以往的视频会议中我们觉得音频很简单,把声音做一些降噪就可以了,但是实际上在整个会议过程中它是最大的瓶颈,图像方面还好说,有清晰的技术发展路径,但是在音频上遇到很大的挑战,因为人的耳朵从刚才泰康的高总说到,分享过相关的在听觉上面,在生物学上,在医学上还没搞清楚人的听觉为什么这么灵敏,可以在很嘈杂的菜市场里两个人无障碍的交流,如果放在视频会议里这么炒,远端没法听,人耳有非常强的消噪的能力,我们也想追求在会议视频的设备商怎么达到人耳降噪的体验,增强人声清晰度的体验,所以在这里也非常有赖于ai技术的应用,虽然看起来都是全向的麦克风,定向的麦克风,现在ai技术已经逐渐在音频上发挥作用了。
这其中就包括刚才介绍的smartvision 60这个产品里,我们为什么要用到13个麦克风也是这个原因,通过阵列麦克风加上ai算法,我们尽量模拟人听觉神经的特点,识别出噪音跟人声音的特点,做训练,把会议中遇到的非人声,比如说咳嗽声音、椅子声音、键盘声音等等滤除掉,并且把混响的声音特点做还原增强,减轻混响的影响,有效的增强含有有效信息的人声。
在前端采集了以后,通过ai技术处理增强有效的人声之后,就为下一步ai的语音处理,我们所见到的实时asr语音转写,多语言翻译,声纹识别,这都是在前端语音增强之后后端能做好的应用,相信有一些大的企业已经用实时字幕功能了,发现经常会识别错乱,准确率不高,并不是因为asr服务器算法不高,其实准确已经挺高了,像国内的科大讯飞、微软做的产品,包括阿里云做的产品,应该都达到95%以上的准确性了,但是可能因为前端采集的效果不好,信噪比很低,语音增强的不够好,准确率就降到百分之七八十了,在前端设备上做ai语音是非常有意义的。
从个人角度来讲我非常喜欢演讲者追踪这个功能,就是结合了精准语音的定位,通过多个麦克风阵列做doa识别、唇动识别,无论你走到哪里都可以实时追踪到,让发言人始终处于c位。这个就是视频终端在音频 视频ai处理方面,结合起来的小功能。
除了以上介绍的终端侧ai技术应用,在服务端也存在着巨大的ai应用价值,帮助我们提升关于会议内容方面的工作效率。最典型的莫过于今年2月初微软宣布把chatgpt给集成到teams里面,还发布了高级版的teams应用,相当于是一个高级的智能秘书了。chatgpt发布了以后更加智能了,之前只是转写。它可以帮助发起会议,邀请联系人,还有会议中自动跟进与会人员的情况去做会议的控制,自动生成会议纪要,多语言翻译,最典型的会议中的痛点是帮几十多个人开会的时候,有人没有关麦克风很吵,智能秘书在的话就发现那边的噪音干扰了会议,自动给它静音到,这是一个后台,我们看不见的智能秘书。
更进一步的,在一个企业或者组织内,我们通常会沉淀很多文档、音视频数据、邮件等等资料,在会议中讨论到内容的时候,如果能关联到那些资料,能够实时调取出来,这是非常有帮助的,这项功能,chatgpt这些大模型在服务端能把数据喂给它进行训练,以后开个部门例会,回顾某个客户提到的某个需求,可以自动的将公司内几十上百tb的数据,几秒钟内快速的给你找出来,告诉你有这些参考资料。想象一下,这个对我们经常开会的人来说非常有帮助,尤其当团队内有新人加入的时候,如果有这种体验,对新人熟悉业务,融入团队非常有帮助。
今天时间有限,在这方面平台侧的ai应用就不展开深入探讨了,总的来说随着ai技术的发展,平台ai技术侧的应用,加上智能终端的边缘ai能力提升,人工智能技术正在重塑我们未来远程沟通协作的体验,再过两三年就会在大家的日常会议中得到感受和普及,当前还在性价比的一个问题,包括刚才做的smartvision 60,这么强大的算力和功能很美好,但是真的很贵,但是这都不是问题,随着技术的发展,我觉得价格这方面会越来越亲民的。
最后也打个广告,向大家简要介绍一下亿联网络,亿联网络以前95%以上业务都是海外,国内市场基本上没投什么市场和人力资源,但是随着近几年国内市场的发展,我们也组建了国内营销团队,产品方案上也针对国内市场国产化、信创,包括亿联也是信创委员会单位之一,加大国内市场的投入,目前在国内市场也在逐渐发展起来。国内的市场整个产品跟生态,跟海外差别很大,随着2017年亿联上市,开始在组织上、资源上有足够的支撑,国内也开始重视起来了。
先从几个数字开始了解亿联吧,亿联是专注于统一通信,2001年成立,已经做了22年,一直在做通信相关的产品,从最早的ip电话语音人生就是博尊龙凯时的解决方案,到现在视频会议的产品,融合通信的平台产品。亿联是微软teams研究会很重要的人生就是博尊龙凯时的合作伙伴,ip电话传统的产品线已经保持了很多年了,五六年了全球市场占有率第一,视频会议的触发量在去年达到了全球第五,国内亿联和华为进入了top5。第三个产品是云办公产品,随着云视讯的发展我们启动了第三个产品线,三个增长曲线,主要是一些外设终端的产品。
亿联网络是一家提供完整音视频协作人生就是博尊龙凯时的解决方案的厂商,不仅是单纯的终端,帮助客户提升沟通协作的效率。具体的产品人生就是博尊龙凯时的解决方案会包括视频会议、语音通信、会议协作、智慧办公,刚才几位友商也分享过在智慧会议室场景方面,亿联也是这样的理念,从终端到平台和整个办公空间的管理,整体的人生就是博尊龙凯时的解决方案。
同时通过过硬的产品技术以及在海外市场取得的市场地位,让亿联也成为了国内第一家跟微软建立了全球战略合作的企业。核心是在音视频方面设备上,微软提供teams平台的能力,亿联提供全场景的各种终端。除此以外我们也与英特尔、zoom、腾讯云、钉钉等头部企业开展了深度合作,为各行各业提供视频会议的创新产品。
亿联的产品技术方案是整体概述在这张图上的,我们称为智慧办公的全能力,其中包括平台和各种场景下终端的全套人生就是博尊龙凯时的解决方案,其中平台包括公有云的平台还有纯私有化的平台,包括把公有云和私有化平台打通融合云的产品。还有混合云的产品,在私有化或者在云上下沉或者上浮它的节点。除了这些产品,终端方面还有今天分享的,刚才所展示的视频会议终端,延伸覆盖了会议室场景的各种设备,比如说会议室门牌,传感器,办公空间iot管理,以及配套的信息发布和iot管理平台。整体上我们的目标是为客户提供沟通协作的全场景方案,除了通信系统还为会议室空间、企业办公空间提供会前、会中、会后,包括知识管理的整套产品。
明天到infocomm期间我们也在c馆cc4—01展位有最新的产品人生就是博尊龙凯时的解决方案展示出来,欢迎大家明天过去体验,谢谢大家。