{dede:global.cfg_webname/}

当前位置: 首页 > 科技 > 手机 > 正文

苹果找“搭子” 地主家也搞不定AI了?

来源:互联网    时间:2024-04-11 11:10:15

  最近,苹果遇到的事儿挺多的,不过都不是什么好事。

  首先是在3月底,美国司法部挥舞着反垄断的大棒,给苹果来了一记重击,指控它搞封闭生态系统,限制竞争对手。

  这事儿一出,苹果股价那是“嗖”的一声,市值缩水了934亿美元,折合人民币约6724亿,简直比A股的过山车还刺激!

  紧接着,外界又有传闻称,苹果竟然还悄咪咪地跟谷歌和百度勾搭上了,打算在今年发布的iPhone16、Mac系统和ios18中,使用谷歌的双子座作为英文AI,使用百度的文心一言作为中文AI,把两家的AI技术整合到Siri里。

  当然这只是一条传闻啦。

  不过,这两桩看似不相关的事,其实背后都绕不开同一个主题——那就是AI。

  在2024年,哪个科技巨头敢说自己离得了AI?苹果也不例外,但让库克有些发愁的是,面对汹涌而来的AI大势,苹果自身在AI方面的进展,却不怎么明朗,甚至到现在连自家大模型都没真正弄出来。

  于是才有了苹果破天荒地打算让别家的AI,进入自家的封闭系统的传闻。

  尽管这事儿目前还真假未定,但苹果在AI方面滞后的情况,却让库克不得不深思,倘若这次的生成式AI,真的会带来一场手机领域的颠覆性变革,那苹果的处境就危险了。

  到了那时,即使没有司法部的制裁,苹果自家的封闭生态,也迟早会在其他AI的围攻下逐渐崩解。——因为用户不会接受一个没有好AI的手机。

  那么,手机与AI的结合,到底有没有人们想象中的那么重要呢?

  噱头or变革?

  讲真,关于手机AI这件事,其实很多大厂都已经开始了布局。

  例如三星发布Galaxy S24系列产品引入“Galaxy AI”;小米的澎湃OS融入AI大模型能力,OPPO发布“首款端侧应用70亿参数AI大模型手机”——OPPO Find X7 Ultra;荣耀在Magic6系列新机上置入自研70亿参数AI大模型——“魔法大模型”。

  然而,这一系列火热表象的背后,却是手机AI雷声大雨点小的情况,现阶段,似乎很少有用户将手机AI当成换机的动力。

  究其原因,还是目前手机AI能干的事儿,实在太少了——而且干得往往还不如云端AI好。

  现在的各种手机AI,新增的功能无非就是图像生成,照片消除,以及文档摘要,语音通话总结,语音翻译等等。

  但这些功能,实际上不用内置的大模型,第三方App联网的云端AI也能完成……

  而那些内置于手机的AI,由于端侧硬件的限制,往往参数很小,发挥不了与云端AI等效的性能。

  就比如语音翻译功能,手机端侧的AI可能可以快那么两秒钟,但翻译出来的话狗屁不通,那还不如等一下联网翻译呢。

  所以,一个直击灵魂的问题来了:手机AI存在的意义,究竟是什么?

  关于这个问题,最近苹果披露的一篇技术论文,似乎提供了某种可能的答案。

  在这篇名为《ReALM: Reference Resolution As Language Modeling》的论文中,苹果不但发布了自家的最新模型ReALM,而且还提出了一种新颖的思路:让AI将屏幕上的东西都转化成文字,然后让语言模型去理解。

  具体来说,ReALM在运作过程中,会先通过视觉技术识别屏幕上的各种元素,例如按钮、图标、文本框等。之后,再对这些实体进行编码,记录每个元素的确切位置和它们的关系。

  最后,AI会将这些实体和位置信息,转换成详细的文本描述,并输入语言模型,让其学会解析用户的指令。

  例如,你现在在手机上用微信聊天,AI就能把聊天框里所有的记录、文件,和它们在屏幕上的位置都记下来,转化成一段话,比如“聊天框中部有个连接,是一篇关于自动驾驶的文章”。

  换句话说,有了这个技术,你无论在屏幕上干什么,甚至在想什么,都逃不过AI的法眼。

  并且,因为AI有了和你“同时观看”屏幕的能力,所以在交互的时候,即使有些指令说得模糊,或者不太清晰,AI也能理解你在指的是什么。

  比如你跟AI说,“刚才视频的那个东西是什么?”,AI就能知道“那个”是指的是苹果还是香蕉,这就是所谓的“实体参考解析”

  根据论文,研究者将来还打算探索更精细的空间编码技术,比如用一种更高级的方法来“画”屏幕,就像用网格一样标出每个东西在哪儿。

  在此基础上,研究者还想让模型拥有记忆,“记住”和用户在一段时间内的交互历史,并结合这些“记忆”来解析当前的查询。

  那诸如此类的功能,将来应用在手机上,究竟能发挥怎样的功效呢?

  一种可能的答案,就是用来针对某些信息密集型APP在使用过程中的复杂查询

  手机AI的三个阶段

  什么是信息密集型APP?简单来说,就是那种用起来会生成、处理或者显示一大堆信息的应用程序。

  例如某些社交媒体APP,像微博、微信那样的,每天得有几百万人在上面发状态,有数不清的文章、动态要看,回不完的消息在显示。

  再就是某些电商APP,比如淘宝、京东,上面有成千上万的商品信息,每个商品都有自己的图片、价格、评价、销量等等。

  针对这些APP,简单的摘要、总结,或是图片识别等功能,显然是不够用了,因为在使用这些APP进行信息筛选的过程中,人们常常会遇到那些不是一两句话就能说清楚的问题,或者是那种需要绕几个弯才能搞明白的请求。

  举例来说,假设你在视频APP上看了一部科幻电影,觉得特效特别棒,于是就问:“这部电影的特效用的是什么技术?”

  又或者,有时你想起在微信上看过的一篇公众号文章,觉得其中有一句话很有意思,但想不起文章名了,只能大概地说:“我想找一篇关于问界汽车的文章,里面好像提到了自动驾驶”。

  这样的需求,就叫做“复杂查询”。

  如果说,现阶段各类手机AI所具有的总结、摘要,以及AI照片消除等功能,是AI在手机上较为初级的第一阶段,那么这种针对密集信息进行复杂查询的AI,则代表了将来AI在手机上进阶的第二阶段。

  而这第二个阶段,也在某种程度上解释了,为什么AI大模型非得内置在手机系统里,因为只有一个内置在系统中的AI,才能进行跨应用,跨平台的功能调用,从而让AI的触手伸向每一个APP。

  但如果只是做到了这点,其实还不足以完全颠覆各大互联网巨头打造的APP孤岛,因为各个APP,实际上也可以通过在应用内置AI的方式,在一定程度上实现这样的复杂查询(实际上,某些APP,例如B站,已经开始尝试那么做了)。

  真正对当前手机生态造成颠覆性影响的,或许是手机AI的第三个阶段,也就是AI在手机上通过AI智能体(Agent)技术实现各种自动化操作,并初步建立起一种轻量级人机融合的阶段。

  举两个简单的例子,比如我们卖飞机票订酒店,很多时候携程、飞猪等等平台里面的价格都是不一样的,能不能让手机上的AI智能体跨平台总结三个合适的选项让我做最终决定?

  或者说,我一觉醒来,微信里面诸位大佬发了好几百条朋友圈,我没时间一一去看,能不能让我的手机自己去帮我看,如果朋友分享的是好事,就鼓励互动一番?

  做到这些的前提就是手机要足够了解我。

  也这就需要通过前面提到的类似ReALM的技术,让手机AI可以在伴随用户的过程中,通过观察屏幕上的各种操作,分析和总结出一个人使用手机时既定的行为模式,之后再结合机器学习算法,建立起每个用户的个人大脑/思维模型。

  之后,再将这样的模型,与Agent技术结合,从而在手机上实现一种更为自动化、个性化的操作。

  这也是当前的大模型,走向手机、PC,以及所有个人化终端最大的意义之一。

  人机融合

  与马斯克的脑机接口有点类似,手机AI与个人思维、习惯的结合,本质上也是让手机作为人体一种延伸出来的“器官”或“义体”,去实现人类现有的思维和肉体难以实现的操作。

  例如同时写好几份报告、文章,还能同时刷视频,逛淘宝啥的。

  那具体怎么才能实现这点?前面提到的Agent技术就成了关键。

  今年2月,由北京交通大学和阿里的研究人员共同发布的一项研究成果,就揭示了将来在手机上实现这种全自动操作的可能。

  简单来说,在这个研究里,这个叫做Mobile-Agent的智能体助手,用了一种特别的“视力检查”技术,能认出屏幕上的字啊、图标啊这些东西,有点类似于前面苹果的ReALM技术。

  但比苹果的技术更进一步的是,这个智能体在识别屏幕的基础上,还具备了自主规划的能力。

  在测试中,用户想让它在Youtube上找金州勇士队当家球星,小球时代的开创者,两届MVP得主斯蒂芬·库里的视频,并在下面发表个评论,它还真的就在全程无人为控制的情况下完成了这些操作,而且没有任何错误。

  同样地,即使是面对某些操作多App 的要求,它也能得心应手。

  例如用户让它查询今天的比赛结果,然后根据结果写一个新闻。Mobile-Agent接到任务后,先在浏览器App里找到了比赛的比分,接着,它退出了浏览器,打开了记事本App。最后,它把比分写了下来,还按照新闻的样子给整理了一下。

  而Mobile-Agent之所以能实现这种多APP、多任务的操作,靠的正是自我规划与自我反思的能力。

  在Mobile-Agent做事的过程中,在做完第一步后,它就会看一下当前手机屏幕的截图,看显示的是不是所需的APP界面,如果是的话,它就知道上一步做对了,然后继续规划并执行下一步操作。

  如果不是,它就会“反思”一下,重新修正操作,根据不断变化的截图,调整下一步的操作,直至最终完成任务。

  这种自动化的流程,倘若与前面苹果的ReALM技术相结合,那么AI在观看并学习了用户操作习惯、行为后,就能基于个人习惯,更熟练地进行各种多APP、多任务的复杂操作。

  例如对于某个经常需要写稿的编辑来说,AI在观看了他对手机的使用习惯后,便可以知道,他经常上的是哪些网站,看的是哪些公众号、视频。

  进一步地,AI会根据这样的轨迹和习惯,建立起一个大致的思维/习惯模型,在他需要写稿时,从不同的APP搜集文章、视频,与他进行交流。最后再将交流的成果凝练,输入进其常用的文档工具。

  当这样轻量级人机融合进一步演化,并延伸到其他领域时,人类智能的提升和优化,以及对生产力的影响,也将进入一个新的阶段。

  例如在复杂工业环境中,手机上的多模态感知,能让AI实时规划和指导作业流程;

  在医疗领域,集成生物传感器、医疗影像分析等AI能力,手机等终端能够全面感知和分析人体健康状况;

  甚至在军事领域,这种人机融合的能力,在战场上还能加深各种智能化装备与士兵的契合度,出现一种类似“贾维斯”的存在。

  意义与影响

  如果要论手机AI带来的最直接的影响,那恐怕就是将现在愈发萎靡的手机市场给盘活了。

  去年,在华为Mate60系列的引领下,全球智能手机市场似乎有了复苏的迹象。但国际数据公司IDC却揭示了这种复苏背后的“危机”。

  IDC数据显示,2023年全球智能机出货量同比下降3.2%至11.7亿部,为十年来最低,当年中国智能机出货量约2.71亿台,同比下降5%,也创下近10年以来最低出货量。而苹果虽在去年以20%的市场份额稳居第一,但新机激活量同比出现—10.6%的下滑。

  由于同质化和性能过剩问题,很多人觉得没有必要频繁更换新机。因此,消费者平均四年零三个月才会考虑换新机。

  事实上如果没了销量,也就没必要研发先进制程的芯片了,到时候没人买,也没有海外市场可以占领,研发也没啥意义了。

  而如果手机AI真的给人带来了颠覆性的体验,到时势必会刺激新一轮的换机潮,而相应的芯片需求也将水涨船高,因此手机AI便和端侧芯片形成了一种相互促进的关系。

  而第二点较为重要的影响,就是通过手机AI,相应的厂商能够扩大AI数据积累。

  具体来说,通过联邦计算的方式,AI会先利用手机本地的用户交互数据,对模型在设备端进行训练,这时只有模型的参数在更新,原始数据不会离开手机(这也解决了隐私问题)。

  而分别在大量手机上训练出许多模型后,服务器会收集并聚合它们的参数,得到一个全局模型。全局模型再下发给各设备,重复上述训练聚合流程,形成迭代优化。

  在此情况下,谁率先占领了手机AI的市场,谁就能让数以亿计的手机用户成为自己海量的“数据源”,从而为训练更强大的AI模型提供宝贵的资源。

  虽然云端大模型(闭源),也能实现这样的“数据飞轮”,但效果却不会像本地化了的手机AI这样直接,原因就在于本地化部署使得数据采集更加直接,中间环节更少。

  最后一点颇为重要的影响是,通过这一个个海量分布的手机AI,端侧小模型将有可能对云端大模型形成一种“农村包围城市”的态势。

  具体来说,手机上有大量不同的应用场景,如拍照、打车、购物、办公等等,每个场景都有特定的AI需求。这些细分场景,难以用通用的云端大模型高效覆盖,因为需要针对性地训练和优化。

  而端侧的小模型,则可以专门为每个应用场景量身定制,随着越来越多的应用场景"嵌入"端侧专用AI模型,就逐渐形成了一个覆盖手机各领域的完整AI生态系统。

  用户在使用手机时,基本上所有AI需求都可在端侧得到满足,无需调用云端服务。

  这样一来,云端大模型在手机场景的发展空间就会被逐步蚕食和压缩。

  在这样的态势下,端侧小模型,最终将很可能将占据那些无处不在、渗透性较高的生活场景(相当于“农村”)。

  而云端大模型,则将占据那些更加集中、通用,且对算力要求更高的场景(相当于“城市”),例如对长文档,长视频的总结、分析等任务。

  各方进展

  从技术上来说,决定手机AI将来发展的,主要有三大关键技术,分别是:端侧芯片、小模型技术、Agent技术。

  就目前来看,在端侧芯片方面,表现较为突出的主要有高通、联发科和苹果,虽然从制程技术、CPU架构这两个关键指标来看,三者看上去都不分伯仲(都是4nm),然而具体在端侧大模型的部署方面,胜出的还是联发科的天玑9300.

  其不仅支持在手机端运行最大330亿参数的大模型,而且能够在1秒内生成图像,以及以每秒20 Tokens的速度生成文本。

  在此之前,大部分的手机厂商,都很难做到在手机端部署超过100亿参数的大模型。

  而天玑9300其之所以能做到这点,最重要的,就是采用了硬件生成式AI引擎和全大核CPU架构这两个关键技术。

  用大白话解释,前者是一种将AI引擎直接集成在芯片中的技术,而后者则是将所有的CPU核心都设计成高性能的大核心,这样CPU就都能够处理复杂的任务,而且处理速度很快。

  但是,仅仅在硬件方面下功夫,还不足以在手机AI方面独占鳌头,毕竟端侧芯片的性能上限,再怎么也不可能和PC端的高性能GPU相提并论。这就决定了塞进手机里的大模型,参数终归不可能超越PC。

  所以,想要在手机AI上取得突破,另一个需要发力的方向,就是小模型技术。

  而这门技术的关键,就在于将模型变小,塞进手机(或其他终端)的同时,还能让模型保持不错的性能。

  而在这方面,目前实力较为靠前的企业,当属微软和国内的面壁智能

  早在今年2月,微软就宣布收购了在小模型方面颇有建树的欧洲公司Mistral,而后者的过人之处,正是“四两拨千斤”,通过参数更小的模型,取得比大参数模型更好的效果。

  其主要的代表作,就是参数只有70亿的Mixtral 8x7B。在许多基准测试中,Mistral 8x7B的性能已经达到甚至超越了规模是其25倍的Llama2 70B。

  而微软自己推出的Phi-2.虽然规模更小(仅27亿参数),但得益于“教科书质量”数据的训练,目前已在基准测试中超过了更大的模型,如70亿参数的Mistral和130亿参数的Llama2.

  这性能,这大小,看起来已经“压缩”得很极致了,可国内的面壁智能,在今年2月直接来了个王炸,用20亿参数的MiniCPM,就实现了参数是自己数倍,甚至数十倍模型相媲美的性能,例如Llama2-13B(130亿)、Falcon-40B(400亿)等。

  最厉害的是,MiniCPM不仅能在手机上流畅运行,推理成本还低到令人发指——170万tokens仅1块钱!

  如此一来,在小模型方面,国内已经做到了与国际巨头并驾齐驱,甚至略微反超的水平。

  而将模型变小,除了能更好地将它“塞进”手机之外,更重要的一点,就是小模型比大模型更容易被灵活调度和部署,而这也是在手机上实现Agent技术的关键。

  因为所谓的Agent技术,实际上就是让多个AI分工协作,实现自动化流程的一种技术,而大模型虽性能更强,但却结构复杂,像个不易驯服的大象,而小模型虽小,但胜在结构简单,输出和行为更易于控制。

  这就好像训练十几只分别精通不同任务的猴子,要比训练一个什么活都会干的大象要容易多了。

  之前提到,AI Agent在手机上的应用,是实现各种自动化操作,带来颠覆性体验的关键。而在这方面,上面提到的面壁智能,可以说取得了独占鳌头的优势。

  其凭借自身Agent技术打造的项目ChatDev,甚至得到了斯坦福大学教授、AI科学家吴恩达的盛赞。

吴恩达讲解ChatDev

  ChatDev就是让一群AI智能体扮演不同角色,合伙开发一个软件项目。

  人类开个头,说做啥软件。设计师AI就给出创意界面设计;程序员AI写代码;测试员AI检查Bug。他们会像真人团队似的,反反复复讨论优化,最后呈现一个能运行的软件。

  要是这种技术用在手机AI上,是能实现各种复杂操作的关键。

  因为越是复杂操作,需要分工的环节就越多。比如你去开个会,用手机拍了视频,想剪辑加字幕、校对、配图片标题什么的,再发到某APP上。这么多环节,每一步都得有专门的“岗位”和“角色”在干活。

  现在的一些Agent应用,比如AutoGPT,虽然“自动”、“高效”了,但处理不了这么多不同“角色”之间如何合作的问题。

  面壁智能的ChatDev之所以牛逼,不仅仅在于它让多个AI智能体分工合作,而是在于它如何让这些智能体高效、协调地工作。

  结语

  倘若手机AI的“ChatGPT”时刻真的来了,那么有两种后果,是很可能会出现的。

  其一就是软件和服务的主导权将改变。

  与当前由谷歌、苹果等主导软件和服务不同,未来AI手机,很可能由AI公司或专门的AI应用公司主导生态系统。相较于“半路出家”的手机厂商来说,起步更早,投入也更专一的AI企业,例如OpenAI、面壁智能等,无疑能提供更好的端侧大模型。

  到了那时,手机市场,乃至其他移动硬件市场的主导权,很可能就会变天了。苹果这种起步较晚,且处于“两线作战”(既要顾AI,又要顾硬件)的企业,能不能守住自身的封闭生态,会是个很大的未知数。

  其二,则是“算力枷锁”的打破。

  前面提到,随着手机AI的成熟,端侧小模型将有可能对云端大模型形成一种“农村包围城市”的态势。而在更大的国际尺度上,这种态势会呈现出更复杂的形态。

  因为相较于对算力要求颇大的云端AI而言,手机上的端侧AI,对芯片、硬件的需求,实在是小巫见大巫了。

  基于这一前提,加上华为在芯片领域撕开的缺口,以及中国庞大的移动用户体量,倘若手机AI将来真的盘活了,那相当于中国部分地规避掉了美国在AI算力方面的封锁。

  更进一步地,这样对算力依赖较低的特点,还会让端侧小模型在发展中国家和新兴市场进一步普及。

  如果说,端侧大模型,让人们看到了AI有多强大,而手机AI这样的端侧模型,则将让人看到,AI究竟可以惠及多少普通人。

声明:来源非IT商业科技网的作品均转载自其它媒体,转载请尊重版权保留出处,一切法律责任自负。文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:342 4350 938@qq.com

频道精选
Meta突然发布一颗芯片

Meta突然发布一颗芯片

  Meta 承诺其下一代定制人工智能芯片将更加强大,能够更快地训练其排名模型。  Meta 训练和推理加速器 (MTIA) 旨在与 Meta 的排
2024-04-11
应对ChatGPT风潮 江波龙旗下行业类存储品牌FORESEE新品重磅亮相

应对ChatGPT风潮 江波龙旗下行业类存储品牌FORESEE新品重磅亮相

  随着ChatGPT的面世与发展,AI领域引起新一轮技术升级与产业重构,带动了AI服务器下存储器的需求迅猛增长。作为中国存储企业的佼佼者,
2024-04-11
中汽协:3月中国汽车销售269.4万辆 同比增长9.9%

中汽协:3月中国汽车销售269.4万辆 同比增长9.9%

  根据《中汽协会数据》微信公众号消息,中国汽车工业协会数据显示,中国3月汽车产销分别完成268 7万辆和269 4万辆,月率分别增长78 4%和
2024-04-11
日厂造船订单量续增;积压订单6年9个月来新高

日厂造船订单量续增;积压订单6年9个月来新高

  散装船、油轮需求增加,带动日厂造船订单量续增,积压订单创6年9个月来新高水平。  日本船舶出口商协会10日公布统计数据指出,货柜船
2024-04-11
比英伟达H100快50% 英特尔Gauid 3 AI新芯片4亮点

比英伟达H100快50% 英特尔Gauid 3 AI新芯片4亮点

  英特尔推出了Gaudi 3 AI加速器芯片,与英伟达的H100系统相比,英特尔新芯片显示出显著的效能和效率改进。  英特尔声称Gaudi 3的4
2024-04-11
2023年全球可穿戴腕带设备出货1.85亿台 华为排第三

2023年全球可穿戴腕带设备出货1.85亿台 华为排第三

  4月11日,知名分析机构Canalys发布可穿戴腕带设备市场最新数据。2023年,全球可穿戴腕带设备市场实现1 4%的轻微增长,出货量达185亿台
2024-04-11
大师画质引擎全面赋能 小米电视S 85 Mini LED带来中端大屏画质新体验

大师画质引擎全面赋能 小米电视S 85 Mini LED带来中端大屏画质新体验

  小米发布了全新的电视新品——小米电视 S 85 Mini LED。小米电视S 85 Mini LED提供高亮、高刷、高分区的超高水准的配置,配合自
2024-04-11
“马斯克2.0”最新预判:人形机器人明年就能“上班挣钱”了!

“马斯克2.0”最新预判:人形机器人明年就能“上班挣钱”了!

  今年3月,一段人形机器人视频刷屏。  视频中,机器人根据人类的口头指令执行了一系列简单的抓取和放置动作,例如将苹果递给人类、将
2024-04-11

2017-2019 Copyright © IT商业科技网 备案许可证号粤ICP备2022153948号 豫公网安备110102003388号

紧急处理QQ:133 4673 445@qq.com