华夏星辰 |智能语音背后的“指挥家”,清华大学博士后将声音与万物互联

来源: 发布时间:2024-04-08点击率:

校友之光,若熠熠星辰,映照芳华;

蓦然回首,仍柔肠百结,永念母校。

忆往昔,青春年少,在华夏朝夕相处同窗苦读。

看今朝,意气风发,于四海奋发向上绽放辉煌。

带你走近璀璨若星辰的华夏校友,

感受深刻在他们骨子里的华夏精神。




图片

如今风靡家庭的天猫精灵、小爱同学等智能音箱通过语音命令实现人机对话,大大解放了人们的双手,提升了人们的工作和生活效率。而时间往回拨几年,彼时智能音箱通往AI这个超级入口的技术并不成熟。智能音箱的核心在于搭载的智能语音交互系统(即语音识别、自然语言理解和语音合成)  ,语音交互系统背后的操控者是谁呢?宁义双是其中一位。图片

▌语音服务机器人正在加快渗透人类日常生活



宁义双,武汉华夏理工学院信息工程学院计算机科学与技术(应用)专业2010届毕业生,北京工业大学计算机学院2013届硕士研究生,清华大学计算机系2017届博士研究生,金蝶国际软件集团和清华大学联合培养博士后研究员。


研究人工智能和语音是他始终不渝的追求,在时代激荡中不断攀登学术高峰是他赋予自己的使命,一起来走进宁义双的漫漫学术路。




图片



自中学时代起,宁义双心中就有一个做IT工程师的梦想,他热爱探索编程的奥秘,常常幻想自己将来如何利用IT科技创新来造福人类、造福社会。


本科和硕士研究生期间,他一头扎进计算机王国里自由地游弋,在拼命汲取知识的过程中,他越来越清晰认识到计算机学科的特性就是科研与产业结合地非常紧密,尤其是最前沿的科研,对产业有很大的推动作用,并产生经济效益。图片

▌计算机的奥妙让宁义双深深着迷



如何获得最前沿的科研,开创核心技术呢?宁义双将自己指向了读博的道路。


“很多人问我为什么要读博士?其实再多的回答,也不过一句‘读博是我的梦想和使命。’宁义双坦言,对他而言,读博是梦想,是早已列入人生必做的大事之一。在武汉华夏理工学院就读计算机科学与技术(应用)专业时,他就清楚了计算机科学与技术以日新月异的更新速度进行发展,充分满足着人们个性化及人性化的需求,积极影响着社会各个行业的发展,他坚信,只有读博才可以让自己的专业素养发挥到极致。


为什么选择清华大学呢?是否有勇气选择这所让万千学子望而却步的高校呢?在他在数个午夜梦回设想自己的未来时,上述问题很快就有了答案:读就读最好的院校,学就学最顶尖的知识,他要与最精英的同学为伴。

在研三上学期时,他没有给自己任何飘忽不定的机会,坚定不移选择了清华。


备考时他选择了最笨却最有效的方式:在淘宝上花了800元购买往届师兄售卖的清华大学计算机系博士生入学考试真题,并在当当网和清华大学书店购买了师兄推荐的复习教材,对英语阅读理解和完型填空进行强化训练。


“全套武器”备齐后,接下来的日子,宁义双开始了与时间赛跑的艰辛历程。每天早上记单词和语法,上午强化训练阅读理解和完型填空,不定期在规定时间内用英语写一篇作文,下午复习专业课知识。


白加黑的日子一晃数月,即使是过年在家,宁义双也从不间断。


“那时候天气特别寒冷,我就坐在床上,裹着棉被复习。”宁义双回忆,研三下学期,当知识点基本都印在脑海里的时候,他开始疯狂做真题。


上午考英语,他就在上午给自己规定3个小时做英语模拟题,下午考专业知识,他就在下午给自己规定3个小时内做从师兄那里购买的计算机网络真题。做完题后他开始分析试题,找出错误的原因,并比较不同年份的试题特点,明确重点和难点问题,以免自己再犯同样的错误。


百分之百的努力,百分之百的坚持,宁义双充分享受着备考这一艰辛与成就感并存的过程。功夫不负有心人,2013年9月,在竞争异常激烈的清华大学博士生入学考试中,(2013年计算机系仅录取8人,其他为推免生),宁义双最终脱颖而出,以优异的成绩考取了清华大学计算机科学与技术系公费博士研究生,“终于圆了自己的清华梦。”图片

宁义双在清华大学109周年校庆时的云合影



“记得当时站在朱自清曾经浅吟低唱的月色荷塘时,感到周围的呼吸都是清甜的。”宁义双回忆起第一天入校报到时的时光时仍心潮澎湃。




图片



在那里,最吸引宁义双的不是雍容典雅的皇家园林,也不是俊秀雅致的水木清华,而是里面淳厚严谨的学术氛围。在人才济济的清华园,他无比珍惜这来之不易的求学时光,每天恨不得将一分钟掰成一小时来学习。


他的研究方向是焦点重音的感知与生成、语音用户意图理解和深度学习。


计算机学科领域细分种类繁杂,读硕士期间,他从未接触过人工智能和语音领域。为了弥补底子,宁义双在选了导师规定的和必修的课程后,他大量旁听很多其他课程,包括高级机器学习、计算语言学和算法导论等。


一个包子、一瓶矿泉水、一个背包,穿梭在一间又一间教室、实验室,成为了清华园一抹独特却并不孤独的风景。图片

▌他将清华大学的校训“厚德载物,自强不息”始终牢记于心,行胜于言



为了尽快融入到实验室的研究工作中,他一边上课一边阅读语音领域内国内外最新的研究进展和综述文章,并研究学习实验室师兄师姐们的工作,同时每天坚持写日报,每周坚持写周报,随时向导师汇报学习进展和对实验室工作的理解。


刚读博那会儿,他基本每天都是凌晨1点才从实验室回到宿舍,赶进度的时候,连着四五天在实验室里通宵也是家常便饭。


得益于他持之以恒的努力,久而久之,他从读懂一篇论文,到能复现核心算法,再到提出创新性的想法,一步一个脚印,他开始对所要从事的研究领域有了越来越深刻的理解,并能够在导师和师兄的指导下开展自己的研究工作,工作逐渐步入正轨。


通过阅读前人的工作,找出现有研究面临的问题,然后提出改进的思路,并标注语料,编写代码,对模型进行改进。一个个灯火通明的夜晚见证着这位青年冲破所有荆棘桎梏奔赴崭新未来的决心和勇气。


“迷雾是一点一滴拨开的,每次如困兽犹斗时,都会鼓励自己再坚持一下,说不定就柳暗花明了。”宁义双说,选择了科研本就选择了艰辛,搞科研没有捷径可走,必须要有坐冷板凳的定力,还要有把冷板凳坐热的耐心。


经过不断反复的思考和艰苦尝试,宁义双终于也开始拥有了自己的研究成果:他所研究的工作被人工智能和语音领域国际顶级会议录用。从此他像打通了自己的任督二脉一样,渐渐找到了自己科学研究的门路。


科研之路,道阻且长,诚然,对科研事业的热爱才是真正推动宁义双不断前进的动力,在漫漫学术路上,且孤独且享受,他始终如一地执着沉稳,全力以赴向着科研方向前进,并陆续结出了硕果。


在攻读博士学位期间,他在人工智能和语音领域发表了10余篇可被SCI或EI检索的高水平学术论文,如AAAI、ICASSP、ICME、MTA和INTERSPEECH等,并荣获“一二•九之星”、“清华之友——腾讯科技微爱创新奖学金特等奖”、“清华之友——景芝一等奖学金”和教育部“科技进步二等奖”等多项荣誉和奖励。图片

读博期间,宁义双徜徉在人工智能和语音领域里寻找科学之美



除了泡在实验室外,宁义双从来不做两耳不闻窗外事的隐者,“科学也需要灵感,需要跟外界大量的碰撞,才能产生让人惊叹的因子。”他多次前往香港、美国、德国和澳大利亚等地进行学术交流。图片

宁义双在美国旧金山参加学术会议,就人工智能方向作即兴演讲



他还积极参与多项国家级基金项目的研究,先后开展了面向自然口语对话的深层次信息感知与表达方法研究、互联网话语理解的心理机制与计算建模、社会情感的语音生成与认知的跨语言跨文化研究、面向互联网口语对话的交互属性挖掘与特色语音生成的研究,并在项目中担任研究骨干,取得了一系列国内外领先的研究成果。


白天一头扎进繁忙的项目,晚上还要在实验室继续奋战,如何平衡这种艰涩又高压的学业生活呢?宁义双有一种很浪漫的方式——吹笛。


在读博的那几年,几乎每个周末,他都会从繁忙的科研中抽出一个上午或下午,背着笛包、踩着自行车来到清华荷塘附近的凉亭,“找到一个无人的角落,开始深情地演奏,每次总能吸引不少游人静静地驻足聆听。”宁义双颇为得意地说,也正是因为他的这一爱好,才让他稀释了不少科研的压力。图片

▌ 萧萧笛声缓解清苦科研路



“从本科到博士,每天的日程都满满当当,一路与未知和困境打怪,但慢慢走下来,竟也不知不觉,因为每天都很充实,因为热爱,所以也不觉得日子漫长。”


2017年7月,宁义双顺利从清华大学毕业,获工学博士学位,并被评为清华大学计算机系优秀博士毕业生。图片



图片

宁义双获“清华大学计算机系优秀博士毕业生”称号




图片



在清华读博的经历更加坚定了宁义双的未来方向和毕生所爱:他将专业细化到了语音交互技术。


虽然在博士毕业答辩通过后,他的手头上很快就握有百度、小米、普强科技、金蝶等多家Offer,但奔着真爱的专业,他毅然选择了从北京来到深圳,做金蝶国际软件集团有限公司和清华大学联合培养博士后,研究方向为语音交互技术在企业场景中的应用。图片



在金蝶国际进行博士后研究工作期间,宁义双一方面需要跟踪人工智能,深度学习和自然语言处理技术最新的研究进展,深入探索这些技术在金蝶各个业务场景的应用价值,而后寻找开源数据集训练人工智能模型,并根据金蝶的业务场景搭建原型系统,最后针对模型的效果进行性能优化。


另一方面,他还需要针对业务场景和产品形态,构建解决方案,并指导团队成员完成技术预言和产品研发。图片



面对博士后研究工作和公司产品研发的双重压力,宁义双丝毫不敢懈怠,几乎每天都加班到很晚才回家,大多数时候索性选择直接在公司过夜。


“你家里有智能音箱吗?”宁义双以通俗的语言回忆起这个如今普及但几年前还属于新生物的科技产品。


2018年3月,随着语音交互技术的不断发展和便携式智能终端设备的不断普及,AI音箱逐渐被应用到人们的日常生活中。有一天,宁义双所在的金蝶研究院突然接到Robert的命令——要在当年5月4日前打造一款属于金蝶自己的企业级智能音箱。而离5月4日已经不到两个月的时间,时间紧,任务急,这件事情就自然落在了技术担当宁义双的身上。


接到任务后,宁义双马上开始在网上搜集各种智能音箱的厂商(注:当时小米的和京东的智能音箱技术还不是很成熟),在调研了三家厂商,并对他们的业务能力、报价及交付时间进行了分析评估后,宁义双最后选择了声智科技作为合作厂商(如今,我们平常使用的智能音箱的智能交互服务大多是声智提供技术支持)。


随后,宁义双立即和声智科技负责人取得联系,并对提供的SDK进行了研究,和下一代金蝶云(金蝶云.苍穹前身)团队进行积极配合,最后于4月中旬在购买的两台印有金蝶Logo的手板音箱上完成了接入。


“虽然熬夜赶工非常痛苦,在代码调不通顺时情绪也不稳定,但我们心底都明白我们正在做一件正确的事。”宁义双解释,从交互上看,人类经历了算盘时代、键盘鼠标时代,到如今的移动办公的智能手机时代——这一趋势显示,越来越自然、越来越简易的交互模式可以极大地提升和激活个体能力,赋予整个企业更高的运转效率,而下一步更有效率、更能提升企业整体能力的交互方式就是自然的语音交互。图片



纵然遇到无数的困难和阻碍,但攻坚克难的火焰在宁义双心底熊熊燃烧,经过一个多月的努力,他掐在deadline——5月4日当天,作为产品负责人,在体验馆为来自全国各地的嘉宾进行了演示。最终,该产品作为市面上首款企业级智能商务助手在当天引起了强烈反响。


时间倒回到三年前,彼时市场并没有多少人看好语音交互。


“那时候大家觉得人脸识别会更好, 图像光靠人脸识别就可以重金卖出,相比之下,语音从收集声音、降低环境干扰到识别口音和方言、转化文字等,技术链条过长,而且交互落地场景匮乏,市场前景其实并不明朗。”但在人工智能领域研究浸润多年的宁义双对于方向十分笃定,在他看来,“远场语音交互是未来人机交互的趋势之一,声音可以解决人跟物的连接问题。”而正是由于怀着坚定的信仰和热情,才在如此短的时间内顺利完成了任务。图片



图片

宁义双应邀给前来公司参观交流的哈尔滨工业大学本科生作人工智能方面的报告分享图片

宁义双应邀参加公司深分经理人培训会,从人工智能、数据智能、图像智能和语音智能四个方面分别介绍它们的发展趋势和应用场景



心怀远方,未来可期。2018年8月,金蝶为拓展国际化业务,实现人工智能技术在ERP企业场景中的快速落地,宁义双再次被派遣至美国西雅图协助进行西雅图研发中心的筹建,并在公司与国际ERP厂商的合作交流中起到了重要作用。图片图片

宁义双赴美国西雅图协助进行西雅图研发中心的筹建图片图片

合作交流之余,宁义双拍摄的西雅图海景




图片



除了完成金蝶给自己指派的任务外,对科研本身的追求牵引着宁义双不断站在未来的视角来思考问题。


宁义双认为,作为真正值得托付的企业服务平台,除了功克终端设备外,打造一款低代码、可视化开发的对话机器人平台才是采用AI技术服务企业的根本所在。然而,金蝶早期的对话机器人平台只能完成一些简单的基于填槽式的多轮对话的任务,无法根据用户实际的业务逻辑以及业务系统中的数据执行不同的业务流程。


对于大部分金蝶实验室的研究员们来说,捕捉到这一痛点是一回事,去探索开发这个几乎全新的领域又是另一回事,虽然有待开发的空间,“但大家对新的课题和方向还是持怀疑态度。”然而,宁义双就有股越是硬骨头越要啃的劲头,他决定对市面上的对话管理技术进行深入研究。



图片

宁义双的朋友圈记录着漫漫科研路的冰山一角图片

宁义双在美国休斯敦参加Acumatica伙伴大会期间与前NASA著名宇航员Mr. Mike Massimino赠书合影



“像在暗夜前行,又像在深海遨游,那种感觉新鲜又刺激。”那一年多的时光里,宁义双把大部分的时光都贡献给了实验室,每天除了吃饭睡觉,他都泡在实验室里搞科研。“博士后是自己选择的,要对自己的科学梦想负责。”在无数个暗夜受挫时,宁义双总会将各种负面情绪最后化解回归到这个初心。


经过不断地探索、尝试、修改和部门评审,宁义双最终实现了将业务流程无缝融入到对话机器人平台的对话管理中。“我就知道我能成,虽然不意外,但是最后看到结果时还是很吃惊!”宁义双清晰记得,融合该技术后的业务场景在2019年10月的客户大会上进行了演示并获得了市场好评。



图片

宁义双在五四金蝶“财务管理新世界”大会上演示企业级智能商务助手



2019年12月,宁义双博士后出站,正式担任金蝶高级研究员,带领团队成为了他另一个新的挑战:金蝶上层决定研究院部门里的NLP团队交由宁义双来负责,他需要管理整个实验室,这是一个更复杂的系统,需要他在其中组织和协调。


为了让公司产品能够融入更多的AI元素,怀着激动又担忧的心态,宁义双接受了重任。


虽然他几乎不能亲自泡在实验室了,但他从未忘记自己的科学梦想。


一次偶然的机会,宁义双看到业界已经开始在研究自然语言转查询语句(NL2SQL)的技术了,一向对新技术比较着迷的他瞬间对这项技术产生了兴趣。


于是,他迅速带领团队对这项技术进行了深入调研,并给领导做了展示。在领导的意见下,考虑到后续和苍穹平台的融合,他又对架构进行了调整,最终构建出了一套灵活性高、效果较好、容易部署的自然语言转查询过滤条件和智能搜索的AI架构。


融合该架构的智能搜索产品一经展示,就受到各个产品线的喜爱,并多次在公司的大型、小型会议上进行演示。


2020年8月、9月,宁义双趁热打铁,又与金蝶云苍穹过滤控件和星空团队进行合作对接,将该技术应用到各个业务场景中,让金蝶的搜索功能具备了智能的能力,最终达到“用户通过一句话就能实现对各自业务对象和单据的查询。”


对于外界眼中神秘的博士后研究员生活,宁义双总结就是在学术和科研实践的阶梯上一步步前行而已,既冷冷清清又风风火火,未曾有半刻止歇——


他曾荣获中国人工智能学会“吴文俊人工智能科学技术二等奖”和“中国博士后科学基金面上资助”,并申请多项发明专利,多次承担深圳市发改委重大项目。在人工智能和认知计算领域发表多篇学术论文,并担任服务计算领域SCI核心期刊IJWSR副编辑和Services Conference Federation (SCF)运营组委会成员,负责SCF旗下人工智能与认知计算领域国际会议的运营工作。


他主导研发的智能搜索产品荣获金蝶2020年度H1最佳用户体验奖和2020年度集团微创新奖,参与研发的对话机器人平台荣获2020年度集团优秀创新奖。图片图片图片

2020年,宁义双作为核心技术骨干的项目《苍穹对话机器人平台》荣获集团优秀创新奖;他主导技术研发的项目《苍穹业务对象的自然语言搜索》荣获集团微创新奖




图片



自从考上清华后,朋友经常问他成功的秘诀是什么。


“其实我也不知道这究竟算不算的上是一种成功,毕竟行行出状元嘛。如果这是一种成功的话,那么我想它的秘诀就在于三个词语——Passion(热情)、Patience(耐心)和Persistence(坚持)。”宁义双说,这几个简单的词语用于学术如此,用于任何学习或工作都亦如此。回顾一路走来的学术路,除了科研探索过程中本身的阻碍外,他的项目也并不是每个都顺风顺水。图片



在进行博士后的研究工作以来,他共申请过两次博士后科学基金,第一次的申请并没有成功,而没有基金就意味着科研很难“开张”。在Passion、Patience和Persistence的驱动下,宁义双深刻总结了失败经历,认真听取了多位老师的意见,对基金的内容进行修改,并在今年年初进行了第二次申请,最后功夫不负有心人,最终成功获得了基金。拿到“救命粮”后,宁义双无比珍惜,心无旁骛地投身在深不见底的研究领域里探寻奥秘,并被评为“深圳市高层次后备级人才”。



图片

宁义双被评为“深圳市高层次后备级人才”



2020年对他而言也是不平凡的一年,走过至暗时刻也拥有过高光。在人工智能技术的研究过程中,曾一度实验做不出来,效率怎么也提不上去,试了很多办法依然没有头绪,挫败感一点点累积,有段时间他甚至到了不敢进实验室的地步。


好在他依然用Passion、Patience和Persistence三个词来不断提醒自己,“一件事情,如果大家都能完成,那么事情必然没有蕴含太大的价值,既然十几亿中只有几十万在做的事情,那肯定是有难度的。”在这种自我激励的力量推动下,宁义双提出的自然语言转过滤条件算法,无论从准确率、通用性还是时间性能上,都有了显著提升。


作为部门的技术骨干,更让宁义双感到自豪和满足的是,由他撰写并参与答辩的深圳市发改委项目《面向企业管理的智能对话机器人共性技术研发与产业化》也获得了政府1500万的资助。图片图片

2021年7月,宁义双获深圳市社会组织总会联合委员会优秀党员表彰


回首一路艰辛又满载收获的学术时光,宁义双笑谈周围人都评价他“太卷自己了!”他如是回答说,内卷是社会发展到一定阶段的产物,也是一种必然规律。


无论是做科研、工作还是在生活中,内卷现象都无处不在,就拿面试工作为例,为了获得这个岗位,每个面试者都会加倍努力,通过刷更多算法题来提升自己,从而导致竞争更加激烈,让岗位的准入门槛变得更高,很多人需要付出更多的努力才能得到跟原来相同的结果。


而“躺平”强调的是审时度势,首先需要对自己的能力要有一个客观的评价,再调控好自己的心理,尽量使自身不受外界事物的影响,只要处理得当,自洽也不失为一种圆融的生活态度。


“不是每个天才都有义务走科研道路,人最重要的是按自己的而非别人的意愿生活。”然而回归到他自身,他笃定地说,他投身计算机科学与技术科研的热情,还将会燃烧许久许久。