南宫28 赋能上海|马云:AI应翻译为机器智能,人类把自己看太大了
栏目:新闻资讯 发布时间:2023-12-20
马云说,不需要担心机器智能会超越人类智慧,还是要担心人类智慧本身会自身停止生长,未来30年,智能技术会渗透,我们所有的生活都会被数据、计算改变。

9月17日,阿里巴巴董事局主席马云在2018世界人工智能大会高峰论坛演讲。本文图片 澎湃新闻记者 赵昀

9月17日,2018世界人工智能大会在上海开幕,大会由国家发展和改革委员会、科学技术部、工业和信息化部、国家互联网信息办公室、中国科学院、中国工程院、上海市人民政府共同举办,大会主题为“人工智能赋能新时代”。

当天上午,阿里巴巴(NYSE:BABA)集团董事局主席马云在高峰论坛发表演讲。马云说,人工智能是技术,是我们认识外部世界、认识未来世界、认识人类自身重新定义自己的思维方式。

马云说,人工智能从一种技术的概念,确定成为一场势必影响人类未来生活的技术革命。我们有期待、有担心、有希望、也有困惑。AI(人工智能)是技术,但又不是一项具体技术,它是认识外部世界、认识未来世界、认识人类自身的一种思维方式。

马云说,AI应该翻译为机器智能,翻译为人工智能,人类有些把自己看的太大了。汽车比人类跑得快,但汽车不是模仿人。让机器纯粹模仿人类,意义不是太大。智能是改变世界的工具,智慧是改变智能的思想。不需要担心机器智能会超越人类智慧,还是要担心人类智慧本身会自身停止生长。未来30年,智能技术会渗透,我们所有的生活都会被数据、计算改变。

马云说,未来的制造业将是制造业和服务业的结合。不是今天的制造业不行,而是落后的制造业不行;不是今天的年轻人不努力,而是我们不够努力。

马云说,上海是一个超级大都市,未来一切的交通、城市治理、安全都需要有新的思想和技术来引领,上海会成为真正一流的城市。比如新金融是,让每个有需要的人得到金融服务,金融风控不是给银行穿防弹衣,不是去抓坏人,而是去发现、预知坏事,这是风险思想的根本改变。IT是让20%的人受益,而DT(数字技术)是让80%的人受益。马云认为,绝大多数P2P是披着互联网金融外衣的伪创新。

以下是马云演讲全文:

尊敬的李强书记、各位领导、各位同行,大家早上好,很荣幸参加今天这样的会议。今天到全世界去,在任何地方都在讨论人工智能,从一种技术的概念到今天确定成为一场势必影响人类未来生活的一场巨大的技术革命。

我相信就像今天的世界一样,我们对这场技术革命有期待、有担心、有希望,也有困难。

人机器智能认识是什么_你认识的智能机器人还是人_人机器智能认识实验报告

今天在上海举办这样高规格的世界人工智能大会,这个大会还是非常重要,在上海举办这个大会,跟世界其他地方举办这样的大会,比如硅谷也好、以色列也好,举办这样的会议还是不一样的。

过去是技术人员为主、工程师为主的大会,因为人们把人工智能往往归于某种技术,上海举办这个会,内涵非常不同。

今天来上海参加这个会,对我有一个很大的启发,人工智能是技术,但是人工智能又不是具体的一项或者几项技术,人工智能是我们认识外部世界、认识未来世界、认识人类自身,重新定义我们自己的一种思维方式,我们在重新定义自己未来的一种生活方式。

所以我想今天从我个人角度来谈一下看法和一些观察,和一些思考。

首先我觉得人工智能这个词,翻成中文以后,翻译并不是很准确,AI最好的翻译应该是机器智能,把AI翻译成为人工智能,我觉得是人类把自己看得太大,把自己有点托大了。

蒸汽机释放了人的体力,但是蒸汽机并不是模仿人的体力,汽车比人跑得快,但是汽车并不是模仿人的双腿。未来的计算会释放人的脑力,但是计算机不是按照人脑一样去思考,机器必须要有自己的方式去思考。

更何况人类对于人脑本身的了解是极其有限的,人类需要学会尊重、敬畏机器智能,机器必须要有自己独特的思考和逻辑。

所以发明机器的时候,人们就应该认识到机器会比人类力气要大,发明汽车的时候,人们要认识到我们肯定跑不过汽车,机器比人跑得快、跑得远。但是发明电脑的时候,我们人类要明白机器一定会比人更加聪明,机器有智能,动物有本能,人类有智慧,我相信人类拥有的智慧是机器永远都无法获得的,机器可以更聪明,也可以更快速,也可以更强壮,但是机器永远不可能有价值观、有梦想、有爱,机器只有Chip,而人类有心。

在过去的工业化时代,人越来越像机器,现在很多人研究技术,是为了让机器越来越像人,而机器做人会做的事情,并不稀奇,通过不断学习,向万物学习,做人做不了的事情,我认为这才是了不起,让机器纯粹模仿人类,我觉得意义并不是太大。

智能是改变世界的工具,智慧是是改变智能的思想,我们应该真正担心的不是机器智能,会超越人类的智慧,而是人类本身的智慧会停止增长。

第二,人工智能也好、机器智能也好,并不是融入一项技术,而是一种认识和思考世界的方式,也是我们为自己的未来确定一种生活方式,这不是简单的技术的改变,是生产力、生产关系、生产资料的改变。

人机器智能认识是什么_你认识的智能机器人还是人_人机器智能认识实验报告

未来数据将会是生产资料,计算是生产力,互联网是生产关系,智能时代是基于这些改变,而随之发生的巨大的社会变革。

所以这次技术革命所带来的变化远远超过我们的想象,未来30年,智能技术将深入到社会的方方面面,改变传统制造业,改变服务业,改变教育、医疗,我们所有的生活会因为数据、计算而所改变。

例如新制造,工业时代和信息时代让制造业自动化、规模化、标准化,而数据时代,制造业是个性化、智能化、按需定制。

未来制造业不仅仅是制造业,而是制造业和服务业的完美结合,未来制造业的竞争力不在于制造本身,而是制造背后的服务和体验,未来的制造业都是服务业,因为流水线上的大部分工人将会被机器取代,而人类的部分、体验的部分,不可能被取代。

上海服务业占的比重超过了70%,我知道有城区超过了90%,上海的服务业水平、上海的人才素质,我认为这是在上海,在未来占据最大的先机,最早制造业依赖于资源,中国的制造业基地都在东北,后来制造业依靠产业配套、产业链,制造业基地转移到长三角和珠三角。

未来制造业依靠的是数据,是服务业,服务业发达的地方,新制造才会发展起来。未来制造业的重点不是引进资金,而是引进知识和人才。

未来10到15年,传统制造业面临的痛苦将会远远超过今天的想象,企业如果不能从规模化、标准化向个性化和智慧化转型,将很难生存下去。未来成功的制造业一定是用好智能技术的企业,因为不会用智能技术的企业,将全部进入失败领域。

我认为未来上海这个城市会被数据、互联网、云计算和IoT真正改变,上海是一个超级大都市,未来这样超级大都市,一切的交通、城市治理、安全都需要有新的思想、新的技术来引领,上海会成为真正世界一流的城市。

再比如新金融,今天世界上比较流行的叫,而我们我们认为叫,是让传统金融更加强大,而是让每个人,有需要的人得到金融服务,数据时代,金融风控不是给银行穿上防弹衣,而是用数据技术预判风险、消除风险,不是去抓坏人,而是发现、预测坏事,这是风险思想的根本改变,这就是未来新的金融,可以让更多人受益。

IT是让20%的人受益,而DT 、AI时代的数据技术,是让80%的人受益,这就是这个世界未来巨大的机会所在。

真正的互联网金融风险极低,不是通过网络就是互联网金融,今天绝大部分P2P公司是披着互联网金融的外衣在做非法金融服务,真正的互联网金融是依靠数据技术、依靠数据风险的控制体系,靠数据积累的信用体系。当你拥有大量数据的时候,必须用AI机器智能来进行风控,这才是真正的互联网金融。

人机器智能认识是什么_人机器智能认识实验报告_你认识的智能机器人还是人

第三,互联网金融是我最早在浦东的一个会议上提出来的,但是今天几乎只要通过有一个网页,都把自己称之为互联网金融,我觉得还是蛮可笑的事情。

第三,数据时代也是供给侧改革经济转型的重大机遇,AI技术、区块链技术、IoT技术,这些技术再先进,如果不能和制造业、服务业相结合,不能推进转型升级,不能推动社会更加绿色、更加持续发展、更加普惠的方向变革,不能让我们的生活更加健康、更加快乐,这样的技术毫无意义。

对于传统行业来讲,如果不拥抱新技术,不融入数据时代,我认为也没有意义。

前几天我刚发了一个微博,两天时间,我去了三趟淘宝造物节,我感慨今天年轻人的创造力、年轻人的创意、创新是我们想象不到的,甚至不敢想象。今天不是中国的制造业不行,而是落后的制造业不行,不是今天的中国没有创意,是你没有创意,不是今天的年轻人不努力,而是我们这些人不够努力。

所以我们今天要思考,是我们所有的人,我们的政府、企业家,我们这些掌握资源的人,有没有把数据,把这个时代摆到一个经济转型升级、自我变革的方向来,有没有为年轻人准备好环境,如果数据时代的使命之一是推动转型升级,是解决今天经济社会的很多问题。那么我觉得我们的规则、我们的体系、我们的思考方式、我们的整个教育都要进行改变,我们肯定不能用过去的方式来解决未来的问题,我们找到未来的方式,去解决未来的问题,这样才是正确的方式。

过去你一年只去30个城市,我们未来一年可能会去300个城市,过去每人工作16个小时,现在8个小时,未来4个小时,甚至每天工作2个小时。我们做不到,我们的孩子能做到,今天做不到,未来能做到,我们要相信人类的智慧。

新的技术是新的生产力,一切生产力的发展,必须要有新的生产关系与其相适应,创新要严防叶公好龙,人工智能如同任何技术,创新也一样,这不仅仅是科学家、技术人员的挑战,也不仅仅是技术挑战,也是政府运营巨大的挑战。

飞机刚出来的时候,伴随很多事故,但是我们并没有把航空工业给消灭掉,也没有用管理火车的方法去管理整个飞机行业。我去年跟美国交通部长赵小兰探讨关于人工智能、无人驾驶会快速取代美国很多就业,特别是对出租车行业带来巨大的冲击,赵小兰部长问我,您怎么看这个问题。

我个人这么觉得,政府应该做政府该做的事情,企业应该做企业该做的事情,我的观点是政府不应该去关心出租车行业是不是被取消,那是市场行为,政府要关心是不是安全,人是不是死亡。交通安全是第一要素,至于这个行业取代那个行业,这应该由市场取代,更何况有了交通事故,我们应该想办法怎么把交通事故降到最低,而不是消灭一个行业。

所以我自己觉得,把一个行业打掉是非常容易的事情,但是把行业完善非常艰难,所以推动社会进步就一定会淘汰落后力量,得到好处的不一定为你鼓掌,但是受到伤害的一定站出来骂人。保护哭喊的落后力量,往往会成为破坏创新最重要的要素。

所以我希望大家记住,人工智能到来,它带来好处、带来坏处,但是这不单是科学家,这不单是企业家,是社会各界各阶层对它的关心、关注和提升。

最后谢谢大家,也祝大会圆满成功!

核心看点

· 政策背景驱动下,可编程机器人有较大的市场发展潜力。

· 可编程机器人能否在玩具市场占据一席之地,市场尚存在争议。

近日,消费级机器人公司「可以科技」已完成新一轮融资,本轮由知名全球化消费电子企业安克创新领投,老股东蓝驰创投、顺为资本、小米跟投,义柏资本继续担任独家财务顾问。此前公司已获得源码资本、小米、顺为资本、松禾资本等投资。

可以科技成立于2014年,致力于打造走进家庭场景的机器人产品。首款产品是专为儿童打造的一款可编程模块化的机器人套装。这款智能玩具上手简单,模块可任意拼接,孩子可以按照自己的想法进阶创作。目前,用户已经遍布100+个国家和地区,获得来自不同国家和地区众多消费者的喜爱。

近年来,机器人的应用领域越来越广泛,从工业端拓展到服务端、家庭消费端等。在家庭服务端,机器人企业也在持续创新开发新的家庭应用场景,包括卫生、娱乐、陪护、教育多个领域。其中,可编程机器人凭借其智能玩具属性、促进培养孩子思维创新能力的功能逐步走进家庭视野,受到了越来越多消费者的喜爱。

从产品属性上看,可编程机器人属于智能机器人的一种。但从用户端需求分析,可编程机器人就是一种智能玩具,除了自身游戏属性外,还能让孩子在玩的过程中不断锻炼创新能力,学习编程知识等等。那么,智能科技和机器人属性的加持能否助力其成为玩具新风口?今天儿研所Club就来探讨下可编程机器人的发展现状和未来趋势。

01 可编程机器人有较大的市场发展潜力

可编程机器人一般在工业、服务、消费端均有应用。本文所谈论的可编程机器人是消费端的作为智能玩具的机器人。这类可编程机器人算得上是近年来流行的STEM玩具的一种类型。

STEM是指科学(),技术(),工程(),数学()相结合,也被称为科技理工玩具。STEM玩具主要培养孩子在科学方面的创造思维、动手能力、逻辑能力。可编程机器人在满足孩子基本玩乐功能外,他们玩耍的过程中还可以自主设计动作,学到编程知识,将智能、科技、玩耍以自主、互动的方式融合,更好地帮助儿童在游戏中开拓思维,培养创新能力和思维能力,真正实现寓教于乐。

政策背景驱动下,可编程机器人有较大的市场发展潜力。从供给端来看,近年来政策对人工智能、先进制造和创新的支持力度不断加大,行业内资本投入增加,入局企业增多;从需求端来看,居民可支配收入增加、青少儿编程学习的需求增长带来的对新型智能编程玩具的需求增长。根据市场研究公司 的报告,截至2026年,全球智能玩具市场规模预计将增长到700亿美元。

从产业链角度来看,机器人产业链的上游主要为零部件供应商,三大主要零部件为减速器、控制系统和伺服系统;产业链的中游为机器人本体提供商,主要负责机器人本体的生产,即机座和执行机构,包括手臂、腕部等;产业链下游为系统集成商,根据不同的应有场景和用途进行有针对性地系统集成和软件二次开发。

作为消费类电子产品,可编程机器人会面临的一个大问题就是被仿制、逆开发。不过的创始人杨健勃曾表示,目前国内在底层运动控制系统方面可以实现技术突破的团队还很少,并希望有同业一起来普及市场。

02 主要玩家有哪些

(1) 可立宝的:模块化设计、可自由组装的编程机器人

智能的玩具_智能玩具机器人有哪些特点_智能机器人能当玩具吗知乎

基于模块化设计,组装非常简单,玩法面向发散空间,带有非常多的随机性,会随着玩家经验的增长变得更好玩。用户可以用主脑、机械手、驱动球、车轮等配件组合成不同形态。设定了Bic和Bac两种角色,也可以通过200多种影视动画般的交互设计创建自己的角色,可以提供宠物陪伴、游戏竞技、机械协作等不同功能。

图片

最初在2020年上线,获1678个支持者近40倍超额认购,用户覆盖80多个国家,总收入90余万美元。2021年3月,福布斯公布了年度十佳教育机器人,其中来自中国的被评为最佳编程机器人。目前,在国内线上、线下同步直营。

还打造了一个基于不同应用场景的智能生态社区,初学者、编程天才或机器人设计师都能在这里分享经验学习交流心得。大量的玩家成为创作者、开发者,并且形成生态闭环。平台的新内容99%是由用户创造的。新奇的萌宠机器人,工具生活场景等等,不断刷新模块化机器人玩乐体验,这些由用户创造的“UGC”机器人内容已经满足“永远玩不完的机器人”产品目标。随着平台用户数增加,内容进化的速度加快,可以通过内容和数据形成壁垒。

截至目前,可以科技已获得多轮投资,投资方包括安克创新、小米科技、蓝驰创投、顺为资本等多家资方。

图片

(2) 乐森:可编程、可声控的变形机器人

乐森机器人()前身是“森汉智能”,2008年在广东成立,为全球消费机器人厂商提供技术解决方案和ODM等业务。2019年初公司发布了新品牌“乐森()”,开始发展玩具机器人道路,同全球各大顶级IP厂商合作,推出电动化、智能化的玩具机器人产品。

「乐森」自成立以来,在电机、驱动与控制系统、芯片、算法、结构、机械手臂甚至核心材料上不断突破,已经实现核心技术的全面自研,并在技术、产品和消费者之间实现了链接,推出了全球首款可自动变形、可交互、可语音控制以及可编程的消费级机器人「乐森旗舰版擎天柱」。

乐森的用户定位是高端消费人群,价格基本在2000~7000元。产品兼具潮玩和益智属性,内置了语音指令,可通过声控或APP实现交互;其可语音编程、图形编程或手掰编程的模式也具有早教益智性。

今年4月12日晚,乐森再次于美国孩之宝官方粉丝节上发布新品——乐森擎天柱车厢套件旗舰版。目前已于4月13号开始全球预售,中国大陆地区旗舰版(套件不含车头)官方售价5,199元。作为擎天柱“科技生命体”的一部分,此次发售的车厢套件被认为是还原了《变形金刚》原著中该角色的“完全体”形象,延续了自动变形的功能,并通过所搭载的全新研发的伺服舵机、控制算法、芯片、机械元件等技术,象征性地赋予了产品源于“塞伯坦星”的科技属性。车厢套件特别封装了实时调速高阶算法,克服了结构变形过程中会遇到的惯性、摩擦、承重、对冲及反作用力等干扰因素,实现了在[运输车厢]、[作战甲板]、[维修基地]三种模式中快速、平稳、丝滑地变形切换,极大地提升了玩家的体验舒适度。

图片

2021年,完成B轮和B+轮融资,其中B+轮由沄柏资本领投,银盛泰资本、光速中国跟投,包括红杉资本、日初资本、庚辛资本等在内的B轮投资者也在B+轮融资中继续追投。睿兽分析显示,B轮和B+轮两轮融资总额近亿美元。此前,乐森已多轮投资。

图片

智能玩具机器人有哪些特点_智能的玩具_智能机器人能当玩具吗知乎

(3) 宇树科技:上过牛年春晚、冬奥开幕式的仿生四足机器人

宇树科技2016年成立于浙江,最早以工业级四足机器人切入市场,2020 年发布了首款消费级产品「A1」,面向教育酷玩领域。「宇树科技」A1 比工业级四足机器人更加轻巧,具有自动跟随、动态避障、手势识别、视频传输、编程开发等功能,可应对撞击、跌落等情况,并拥有多人对战、群体控制等模式。

2021年,宇树科技发布了新一代消费级四足机器人「Go1」,拥有更加优秀的运动感知能力,最高奔跑速度为 4.7m/s,打破了近似规格四足机器人最快奔跑世界纪录。

图片

而且,2021年,24台A1以小牛“犇犇”的形象登录央视牛年春晚,与刘德华、王一博、关晓彤同台演出《牛起来》。2022年,109台Go1机器人参与了冬奥会开幕式。

行业内人士认为,四足机器人相比轮式机器人、履带式机器人等其他移动机器人,具有人机交互友好、运动灵活、复杂环境适应性强等多项优势,在2B与2C领域皆具广阔前景。

在竞争壁垒上,宇树创始人CEO王兴兴表示,从技术产品角度,宇树在机械结构、生产工艺、材料工艺、运动控制、传感等方面已处优势地位,从感知系统、传感器、关键硬件及算法全方位将产品性能打磨到极致,且核心供应链均自主掌控,已率先具备了可靠量产的能力。

自成立以来,宇树科技获得了多轮融资,今年4月,完成B轮系列融资,融资合计数亿元,由经纬创投和敦鸿资产分别领投,世界500强战略方海克斯康集团()、老股东顺为资本、知名股权投资机构容亿投资、深创投跟投。此前曾获宇树此前获得由红杉资本种子基金、祥峰投资、初心资本联合投资的Pre-A+轮以及顺为资本领投的A轮融资。

图片

(4) JIMU Robot:可在游戏中学习编程的多形态机器人

机器人科技公司「优必选」在 2016 年推出了一款 STEM 教育智能编程机器人——JIMU机器人。

图片

以星际探险系列为例,该系列设置了三个形态,分别是星际远征军第十七小分队的星宝、路宝和探星1号,探险1号的设定是“智慧与力量的集合,能力非凡”;路宝的设定是“稳重老实,经常被调侃,但勇敢正义”;星宝是“机灵活泼,心机boy,充满智慧”。通过其多块积木零件,用户还可以自由组合成不同模型。该系列还设置了8颗灯珠9个色块,可以自由定义表情和颜色,还有表情、情景灯、自定义灯光模式。可自行设置红绿灯、车灯、表情等。

图片

智能机器人能当玩具吗知乎_智能玩具机器人有哪些特点_智能的玩具

JIMU机器人采用 图形化编程,将编程代码简化为 8 个指令模块,使得编程像搭积木一样简单。

图片

目前,Jimu机器人包括超变铁甲、独角兽、赛场先锋、星际探险、变形工程车五个系列。除了Jimu机器人外,优必选()还推出了人形机器人和Jimu Go两大类消费级机器人。

优必选()2012年成立于广东,是一家智能人形机器人研发商主营产品有Alpha系列、JIMU ROBOT系列、机器人舵机和人工智能平台Cruzr。截至目前,优必选融资轮次为D轮。

图片

03 可编程机器人的未来发展尚存争议

从投融资热度来看,可编程机器人的资本风口似乎已经来临。

近两年,新一波机器人投资热潮兴起。据朋湖网不完全统计数据显示,2021年度,我国机器人领域融资共168起,其中72起融资金额超亿元。而2022年刚过去的4月份,智能机器人赛道仍然火热,乐生智能、纳百机器人、橡鹭科技、大族机器人、“拓攻机器人”均获亿元级投资。

在可编程机器人这一细分领域,几家头部企业已获多轮融资,许多企业也纷纷入局。虽然在可编程机器人领域资本和企业开始发力,但可编程机器人的未来发展,能否在玩具市场占据一席之地,市场仍存在争议。

争议的关键点在于可编程机器人这类智能玩具的普及问题。比如哪怕是发展较早的美国,智能玩具的市场需求仍然很低,NPD 集团美国玩具行业顾问 Juli 曾表示,2020 年 5 月至 2021 年 5 月期间,可编程智能玩具市场仅占整个玩具行业的0.1%。“你会时不时地看到一些东西进入市场并引发一些疯狂的趋势,一个玩具可能平均在市场上持续两三年,然后逐渐消失。”

回到国内市场,玩具市场本就高度分散,智能玩具能否占领用户心智,发展出多大的市场空间尚不确定。从淘宝可编程机器人产品的评论中,也会看到很多“买完后玩了一次就弃了”、“智商税”、“没有价值”等观点。

此外,可编程机器人还存在隐私保护的问题。智能玩具所具备的一些功能例如机器学习能力,可从孩子那里收集不同形式的数据,可能会危及个人和数据隐私。

但许多行业内人士认为,与其他技术进步一样,人工智能玩具的成功在未来几年可能是不可避免的。

而且,少儿教育的双减政策落地、校外培训机构即将迎来严冬、未成年人游戏防沉迷限制等政策背景下,以游戏化的方式、辅以人工智能化的技术,将会是未来教育行业的发展趋势。

玩具行业咨询公司 Toy 首席执行官 曾表示:“没人会怀疑孩子未来生活的世界将成为一个由人工智能增强的世界。”

“物联网开发实战”学习笔记-(四)智能音箱制作和语音控制

这次来造一个属于自己的智能音箱,这里详细介绍了智能音箱的语音控制的实现。

智能音箱的技术架构

智能音箱主要涉及拾音、前端信号处理、语音识别、自然语言处理和语音合成等技术,现在一些产品甚至提供了声纹识别技术。

其中智能音箱最重要的是提供各种功能,完成一些任务,比如控制电灯的开和关,这被称为技能。

整体的技术架构如下图所示:

拾音

拾音,就是通过麦克风获取你的语音。

我们都用微信发送过语音消息,手机就是通过麦克风来获取你说的话的。但是,智能音箱应对的环境要更复杂,因为用户可能在比较远的地方下达语音指令。

因此,智能音箱上一般采用麦克风阵列(Mic Array),也就是按照一定规则排列的多个麦克风,比如下图展示的就是 Echo由 7 个麦克风组成的阵列(绿色圆圈部分)。

前端语音信号处理

在收集到声音信号后,还需要进行前端语音信号处理。只有经过处理,智能音箱才能获取到相对干净的语音信号,也才能提高后面的语音识别的准确率。

这些处理技术包括回声消除、噪音抑制、语音检测、声源定位、波束成型和混响消除等。

语音唤醒

语音唤醒,就是通过特定的唤醒词来激活智能音箱,以便进行后续的语音交互任务。这样做一方面可以保护用户的隐私,因为只有唤醒后,音箱才收集和识别用户的语音信息,另一方面也可以简化语音的识别和理解,比如小米智能音箱的“小爱同学”就是这样的唤醒词。

语音识别

语音识别,主要完成的任务是将语音转换成文本,所以也被称为 STT。

自然语言理解

自然语言理解,是对语音识别生成的文本进行处理,识别用户的意图,并生产结构化的数据。

技能

技能()一般要借助后端云平台的强大能力,云平台可以提供知识图谱、家居设备远程控制和音乐等音频资源等能力。

自然语言生成

自然语言生成,就是将各种技能的响应结果组织成文本语言。比如当你询问天气时,根据获取的天气状况和温度等信息生成“北京今天晴,最高温度 5°,最低温度 -6°”这样的语句。自然语言生成和自然语言理解都属于自然语言处理的范畴。

语音合成

手机怎样唤醒智能机器人_手机智能唤醒方式有哪些_智能手机唤醒功能

语音合成,就是将自然语言生成的文本转换为语音的形式,提供给智能音箱播放出来,给人的感觉就像和音箱在对话。因此,这个过程也叫做 TTS。

智能音箱的开发

了解完智能音箱的基本技术构成,下面就可以基于树莓派开发一个自己的简易智能音箱,这里我们用的是树莓派 Pi 4 系列

麦克风阵列

麦克风阵列我使用的是 2-Mics Pi HAT,它的 2 个麦克风分布在模组的两边。我们现在来配置一下,让它可以在树莓派上正常工作。

你可以通过下面的命令安装它的驱动程序。首先,你最好切换一下树莓派的软件安装源,将它切换到国内的腾讯云安装源,这样下载安装的速度比较快。运行下面的命令修改配置文件:

$ sudo vim /etc/apt/sources.list

将文件修改为下面的内容:

deb https://mirrors.cloud.tencent.com/raspbian/raspbian/ buster main contrib non-free rpi
# Uncomment line below then 'apt-get update' to enable 'apt-get source'
deb-src https://mirrors.cloud.tencent.com/raspbian/raspbian/ buster main contrib non-free rpi

修改另一个软件安装源的配置文件,命令如下所示:

$ sudo vim /etc/apt/sources.list.d/raspi.list

修改后的文件内容如下:

deb https://mirrors.cloud.tencent.com/raspberrypi/ buster main
# Uncomment line below then 'apt-get update' to enable 'apt-get source'
deb-src https://mirrors.cloud.tencent.com/raspberrypi/ buster main

然后,你需要运行下面的命令更新安装源:

$ sudo apt-get clean all
$ sudo apt-get update

现在,你可以运行下面命令安装麦克风阵列的驱动程序。因为这个驱动依赖的 编解码器没有包含在树莓派系统的内核里面,需要重新加载内核,编译驱动,所以整个过程比较久。在等待的过程中,你可以先阅读这一讲的其他部分。

$ sudo apt-get install git
$ git clone --depth=1 https://github.com/respeaker/seeed-voicecard
$ cd seeed-voicecard
$ sudo ./install.sh
$ sudo reboot
树莓派重启之后,你可以在树莓派终端输入下面的命令,查看音频的输入和输出设备是否正常工作。
```javascript
$ arecord -l
$ aplay -l

如果一切正常,我们就可以测试录音和播放功能了。在 2-Mics Pi HAT 的耳机插口上插入耳机或者扬声器,运行下面的命令,并说几句话。

$ arecord -d 5 test.wav
$ aplay test.wav

另外,你也可以通过软件 (命令 )来配置声音设置和调整音量,左、右箭头键用于选择通道或设备,向上、向下箭头控制当前所选设备的音量。退出程序使用 ALT + Q,或者按 Esc 键。

为了简化开发,也考虑到麦克风硬件的限制,我们这里就先不关注前端语音信号处理的相关开发了。接下来,我们直接来到实现语音唤醒的环节。

语音唤醒

为了实现语音唤醒,我们需要选择一个轻量级的、可以在树莓派上运行的唤醒词监测器软件。

课程上选择的是 ,它是一个基于 RNN 神经网络的语音唤醒工具。

接下来,我们在树莓派安装 。因为需要训练唤醒词模型,我们需要基于源代码来编译、安装。

首先,我们通过 git 命令把 的源代码下载到树莓派的 /home/pi 目录:

智能手机唤醒功能_手机智能唤醒方式有哪些_手机怎样唤醒智能机器人

$ cd ~
$ git clone https://github.com/mycroftai/mycroft-precise
$ cd mycroft-precise

在安装之前,把 pypi 的安装源修改到清华数据源,可以获得更快的下载速度。我们打开目录中的 setup.sh 文件:

$ vim setup.sh

将文件中的这行内容:

extra-index-url=https://www.piwheels.org/simple

替换成下面的内容:

index-url=https://pypi.tuna.tsinghua.edu.cn/simple
extra-index-url=https://www.piwheels.org/simple

然后,我们运行它自带的安装脚本,开始编译和安装。中间如果执行中断,可以重新执行这个命令,继续安装过程。

$ ./setup.sh

安装完成后,我们开始使用 来训练一个唤醒词模型,唤醒词可以根据喜好来选择,比如“芝麻开门”。

我们需要先激活 的虚拟环境,因为 在安装过程中创建了这个虚拟环境。

$ source .venv/bin/activate

接下来,我们通过工具 - 来收集语音模型训练的声音素材,运行后,根据提示录制 12 段声音。

$ precise-collect
Audio name (Ex. recording-##): geektime.##
Press space to record (esc to exit)...
Recording...
Saved as geektime-00.wav
Press space to record (esc to exit)...

然后,我们需要将这些声音随机分为两份,一份是训练样本,包括 8 个声音文件,另一份是测试样本,包括 4 个声音文件,并且把这两份样本分别放到 /wake-word/ 和 //test/wake-word/ 这两个目录下面。

接着,我们执行下面的命令,生成神经网络模型 :

$ precise-train -e 60 geektime.net geektime/

最后,我们还需要将 的模型格式做一下转换,将它从 Keras 模型格式改为 模型格式,因为 模型更加通用。

$ precise-convert geektime.net

执行完成之后,我们会得到两个文件:

.pb, 模型文件

.pb.,包含 在处理音频时需要的一些参数信息。

当然,为了提高模型的准确性,我们还可以使用 -train- 工具来增加负样本,重新训练刚才的模型。如果环境复杂的话,你可以尝试一下。

然后,我们可以运行一段代码来测试这个唤醒词模型。不过,因为 这个库在树莓派上运行有问题,我们需要先修复一下 库。你可以运行下面的命令:

$ sudo apt-get remove libportaudio2
$ sudo apt-get install libasound2-dev
$ git clone -b alsapatch https://github.com/gglockner/portaudio
$ cd portaudio
$ ./configure && make
$ sudo make install
$ sudo ldconfig

测试程序的代码如下:

# File:kwsdemo.py
#!/usr/bin/env python3
from precise_runner import PreciseEngine, PreciseRunner
engine = PreciseEngine('precise-engine/precise-engine', 'geektime.pb')
runner = PreciseRunner(engine, on_activation=lambda: print('hello'))
runner.start()
# Sleep forever
from time import sleep
while True:
    sleep(10)

手机怎样唤醒智能机器人_手机智能唤醒方式有哪些_智能手机唤醒功能

现在,我们把 .py 文件,还有两个 .pb 模型相关的文件,都上传到树莓派的 目录下,然后运行 .py 文件,说出“芝麻开门”几个字,就会看到终端显示出“hello”这个单词。

语音识别

对于语音识别,我们直接采用腾讯云提供的语音识别 SDK 来完成(你需要提前在腾讯云控制台开通这个服务)。它会将语音发送到云端,由云端服务器计算出文本信息。你可以通过下面命令来安装:

$ pip3 install tencentcloud-sdk-python

在开始使用之前,你需要访问这个链接创建一个密钥,然后记录下 和 的信息。

你可以参考下面的代码,来完成一个录音文件的识别。

from tencentcloud.common import credential
from tencentcloud.common.profile.client_profile import ClientProfile
from tencentcloud.common.profile.http_profile import HttpProfile
from tencentcloud.common.exception.tencent_cloud_sdk_exception import TencentCloudSDKException 
from tencentcloud.asr.v20190614 import asr_client, models 
import base64
import io 
import sys 
SECRET_ID = "你的Secret ID"
SECRET_KEY = "你的Secret Key"
try: 
    cred = credential.Credential(SECRET_ID, SECRET_KEY) 
    httpProfile = HttpProfile()
    httpProfile.endpoint = "asr.tencentcloudapi.com"
    clientProfile = ClientProfile()
    clientProfile.httpProfile = httpProfile
    clientProfile.signMethod = "TC3-HMAC-SHA256"  
    client = asr_client.AsrClient(cred, "ap-beijing", clientProfile) 
    #读取文件以及 base64
    with open('./geektime-00.wav', "rb") as f:
        if sys.version_info[0] == 2:
            content = base64.b64encode(f.read())
        else:
            content = base64.b64encode(f.read()).decode('utf-8')
        f.close()
    #发送请求
    req = models.SentenceRecognitionRequest()
    params = {"ProjectId":0,"SubServiceType":2,"SourceType":1,"UsrAudioKey":"sessionid-geektime"}
    req._deserialize(params)
    req.DataLen = len(content)
    req.Data = content
    req.EngSerViceType = "16k_zh"
    req.VoiceFormat = "wav"
    resp = client.SentenceRecognition(req) 
    print(resp.to_json_string()) 
except TencentCloudSDKException as err: 
    print(err)

语音合成

语音合成,就是我们希望把类似“我已经把灯关了”这样的文本信息,转换为音频,便于智能音箱播放出来。你可以基于离线的 TTS 引擎来实现,比如这个项目。

当然,我们也可以使用腾讯云的语音合成服务(你需要提前在腾讯云控制台开通这个服务)。你可以参考下面的代码:

import json
import base64
from tencentcloud.common import credential
from tencentcloud.common.profile.client_profile import ClientProfile
from tencentcloud.common.profile.http_profile import HttpProfile
from tencentcloud.common.exception.tencent_cloud_sdk_exception import TencentCloudSDKException
from tencentcloud.tts.v20190823 import tts_client, models
SECRET_ID = "你的Secret ID"
SECRET_KEY = "你的Secret Key"
try: 
    cred = credential.Credential(SECRET_ID, SECRET_KEY) 
    httpProfile = HttpProfile()
    httpProfile.endpoint = "tts.tencentcloudapi.com"
    clientProfile = ClientProfile()
    clientProfile.httpProfile = httpProfile
    client = tts_client.TtsClient(cred, "ap-beijing", clientProfile) 
    req = models.TextToVoiceRequest()
    params = {
        "Text": "我已经把灯关了",
        "SessionId": "sessionid-geektime",
        "ModelType": 1,
        "ProjectId": 0,
        "VoiceType": 1002
    }
    req.from_json_string(json.dumps(params))
    resp = client.TextToVoice(req) 
    print(resp.to_json_string()) 
    if resp.Audio is not None:
        audio = resp.Audio
        data = base64.b64decode(audio)
        wav_file = open("temp.wav", "wb")
        wav_file.write(data)
        wav_file.close()
except TencentCloudSDKException as err: 
    print(err)

通过智能音箱控制电灯

为了实现控制智能电灯的目的,我们需要借助物联网平台提供的开发接口。

首先,我们进入物联网开发平台,选择“智能家居”项目。通过智能音箱控制电灯

为了实现控制智能电灯的目的,我们需要借助物联网平台提供的开发接口。

首先,我们进入物联网开发平台,选择“智能家居”项目。

然后,点击左侧的“应用开发”,进入新建应用的界面,点击“新建应用”。

完成后,点击应用列表里面的应用名称,进入应用的详情页面。你可以看到应用的 和 信息。这里,你需要将下面“关联产品”中的智能电灯勾选上。只有建立关联,应用才可以控制这个设备。

具体代码可以参考腾讯提供的开源实现,包括iOS、和小程序。

不过,这种方式需要用户账号的登录认证,在树莓派上不太方便。还有一个方式就是基于物联网开发平台提供的通用 API 接口。其中的“设备远程控制”接口可以满足我们的需求。

具体的控制方法,你可以参考下面的代码(注意,目前只支持 ap- 区域)。

import json
from led2.main import PRODUCT_ID
from tencentcloud.common import credential
from tencentcloud.common.profile.client_profile import ClientProfile
from tencentcloud.common.profile.http_profile import HttpProfile
from tencentcloud.common.exception.tencent_cloud_sdk_exception import TencentCloudSDKException
from tencentcloud.iotexplorer.v20190423 import iotexplorer_client, models
SECRET_ID = "你的Secret ID"
SECRET_KEY = "你的Secret Key"
PRODUCT_ID = "你的ProductID"
def Light_control(state):
    try: 
        cred = credential.Credential(SECRET_ID, SECRET_KEY) 
        httpProfile = HttpProfile()
        httpProfile.endpoint = "iotexplorer.tencentcloudapi.com"
        clientProfile = ClientProfile()
        clientProfile.httpProfile = httpProfile
        client = iotexplorer_client.IotexplorerClient(cred, "ap-guangzhou", clientProfile) 
        req = models.ControlDeviceDataRequest()
        data = {
            "power_switch": state
        }
        data_str = json.dumps(data)
        params = {
            "DeviceName": "Led_1",
            "ProductId": PRODUCT_ID,
            "Data": data_str
        }
        req.from_json_string(json.dumps(params))
        resp = client.ControlDeviceData(req) 
        print(resp.to_json_string()) 
    except TencentCloudSDKException as err: 
        print(err) 
Light_control(0)

接下里就唤醒你的第一个智能音响吧~

学习笔记总结自‘物联网开发实战’–郭朝斌

–笔记只用于学习交流,请不要用于商业用途。