随着ChatGPT的推出,谷歌(Google)在人工智能领域的主导地位遭遇了意外挑战,谷歌花了一年时间,终于对这一挑战做出了一系列回应。
本周发布的大型语言模型系列Gemini将为它提供一个更强大的平台,以对抗ChatGPT背后的OpenAI和微软(Microsoft)。微软今年已使用OpenAI的模型来增强其所有软件和云服务。
现在的问题是,Gemini 能否给谷歌现有的服务带来有意义的改变——也许更重要的是,它能否成为一系列新服务的基础,让人工智能更深入地融入日常生活。
随着本周Gemini三种“口味”的公布,谷歌终于在这项自己的研究人员开发、却被OpenAI的ChatGPT带入主流的技术上打上了自己的印记。例如,Pro版的定位与OpenAI的GPT-3.5完全相同,后者是ChatGPT免费版本背后的模型,也是今年其他公司推出的许多首批生成式人工智能应用程序的主力。
较小的Gemini Nano可以与最小版本的LLaMa 2 (Facebook的开源模型)等系统相匹敌,使其能够在移动设备上运行。苹果(Apple)一如既往地在将生成式人工智能引入iPhone之前采取了深思熟虑的态度,但Gemini在谷歌最新款Pixel手机上的出现表明,它等不了太久。
将于明年初推出的顶级模型Gemini Ultra,承载了谷歌的主要希望,即在将生成式人工智能转变为更有用的日常工具的竞赛中,赶上或超越OpenAI的GPT-4。该公司今年在这方面落后了,但有一些明显的优势可以帮助Gemini在2024年进入一个大市场。
其一是分布。例如,谷歌本周表示,将把Gemini添加到占浏览器市场逾60%份额的Chrome浏览器中,使数十亿网络用户即时访问能够分析网页内容等功能的工具。
随着谷歌像这样利用其现有的市场力量来推动其人工智能雄心,竞争监管机构将密切关注。
谷歌的另一个优势是OpenAI的不确定性。上月,OpenAI首席执行官萨姆•奥尔特曼(Sam Altman)被令人震惊地解雇并复职后,许多在OpenAI模型基础上建立了自己的生成式人工智能计划的企业将寻求对冲赌注。
这家搜索公司也希望它的Bard聊天机器人在拥有更好的语言模型后,能更好地与ChatGPT竞争。但该公司重获优势的最大希望可能在于率先推出由生成式人工智能驱动的下一个突破性服务。谷歌声称Gemini具备的一些功能表明,谷歌认为这些功能可能实现。
例如,它对Gemini从一开始就被设计为“多模式”这一事实进行了大量的宣传——也就是说,它不仅能够理解文本,还能够理解图像、视频和音频。根据谷歌的说法,这使得它比GPT-4等模型更适合处理依赖视觉和听觉等感官的日常情况。
这可能是朝着能够更好地在现实世界中运行的人工智能系统迈出的一步。但现在判断这能实现哪些应用,或者谷歌是否真的取得了它所宣称的技术优势,还为时过早。
另一个发展方向在于谷歌所说的Gemini的推理和规划能力。这些技能可以为日后成为能够解决复杂问题并制定行动计划的个人助理打下基础。
如果这些助手与其他互联网服务相连接,它们也可能成为代理,代表用户采取行动。例如,想象一下购物代理,它不仅能帮你找到你想要的产品,还能帮你付款。
这已经成为2024年及以后人工智能领域的关键战役之一。OpenAI上个月在这个方向上迈出了第一步,该公司表示,它的用户将能够在其模型基础上构建初级代理,然后在OpenAI的应用商店中出售。这可能预示着ChatGPT之外的下一个重大人工智能突破——而这一次,谷歌无意被抛在后面。