谷歌2023I/O十大重磅发布:生成式AI杀疯全场,首发折叠屏手机
字数:6,446
谷歌深夜放出生成式AI全家桶,Bard向180个国家及地区开放
2023年5月11日凌晨,谷歌2023年I/O开发者大会上,谷歌CEO桑达尔·皮查伊SundarPichai宣布:对于生成式AI,谷歌正以大胆而负责任方式迈出下一步。生成式AI是这次大会绝对主角。大会开场前,谷歌先发布一款用生成式AI设计的卡牌游戏I/OFLIP,从图像到文本描述都是AI生成。
1、AI大模型:新一代语言模型PaLM2擅长多语言翻译、推理、编程,部分测试表现超过GPT-4,共有4种规格,最轻量级可部署在移动设备,多模态大模型Gemini正在训练中。
2、AI聊天机器人:Bard已取消等候名单,向180多个国家与地区开放,新增支持韩文与日文,2023年夏天将新增对中文等另外40种语言支持;问答新增图片输入输出。
3、Pixel硬件:发布Pixel7a智能手机、谷歌首款折叠屏手机PixelFold、PixelTablet平板电脑。
4、AI搜索:谷歌生成式AI实验版搜索引擎展示对话功能,搜索生成体验开放注册。
5、Workspace:对标微软Office全家桶,让AI写邮件、画图、制表、代写文稿。
6、谷歌云:生成式AI协作工具DuetAI,提供代码辅助与聊天辅助功能,谷歌推出基于NVIDIAH100GPU的A3新实例。
7、AI工具:通过构建评估工具、增加水印与元数据等方式,检测AI生成内容,用AI让照片编辑功能更加简单,谷歌地图沉浸式视图上线在即。
8、安卓:增加由生成式AI驱动的信息回复、生成式AI壁纸功能。
9、3D魔镜:推出最新Starline项目原型,几个标准摄像头就能产生更高质量的逼真3D图像。
10、生命研究:包括谷歌工程师在内的100多名科学家组成的联盟,宣布了世界上第一份人类泛基因组参考草案,论文登上今日国际顶级学术期刊Nature封面。
PaLM2:新一代语言模型,部分基准测试表现超过GPT-4
谷歌新一代大型语言模型PaLM2,采用谷歌最新TPU基础设施进行训练,擅长数学、推理、多语言翻译、编程。在MATH基准测试(用于评估模型数学能力的标准化测试方法)中,PaLM2部分性能表现超过GPT-4。
1、多语言:PaLM2对多语言文本进行更多训练,覆盖100多种语言。PaLM2还通过高级语言能力考试,达到精通水平。
2、推理:PaLM2广泛数据集,包括包含数学表达式的科学论文与网页,因此它在逻辑、常识推理、数学方面比上一代更强。
3、编程:PaLM2是在大量公开可用的源代码数据集上进行预训练,接受超过20种编程语言的预训练,擅长Python、JavaScript等流行编程语言,同时也可以用Prolog、Fortran、Verilog等语言生成专门的代码。它不仅能理解、生成、调试代码,还能解释修复错误背后的原因,以便开发者在世界各地进行协作。
为方便广泛部署,谷歌构建4种规格的PaLM2大模型,分别是壁虎Gecko、水獭Otter、野牛Bison、独角兽Unicorn。
壁虎Gecko非常轻量级,可在移动设备上工作,并且速度足够快,即便在离线情况下,也能在设备上运行出色的交互式应用程序。
谷歌还宣布超过25款由PaLM2驱动的新产品与新功能。例如,谷歌健康研究团队用医学知识对PaLM2进行微调,开发Med-PaLM2。这是第一个在美国医疗执照考试风格的问题上,达到专家水平的大型语言模型,可以检索医学知识、回答问题、生成有用模板、解码医学术语。
谷歌正在为其增加多模式功能来合成信息,比如胸部X光与乳房X光检查等图像,希望有一天能改善病人治疗效果。Med-PaLM2将在2023年夏天晚些时候向一小部分云客户开放。
除了推动科学研究外,PaLM2还帮助改进日常应用。例如,Sec-PaLM是经过安全用例训练的PaLM2的专门版本。通过谷歌云,它使用AI来帮助分析与解释潜在恶意脚本的行为,可以更好检测哪些脚本实际上对个人与组织构成威胁。
最近谷歌大脑与DeepMind合并成一个团队,正专注于安全、负责的构建更强大的系统,包括仍在训练中的下一代基础模型Gemini。Gemini是多模态大模型,在工具与API集成方面效率很高,跟PaLM2将有不同规格。今日起,开发者可注册使用PaLM2模型,谷歌客户可在VertexAI中使用具有企业级隐私、安全与管理的模型。
Bard:引入图片问答,新增多项导出功能
谷歌今日宣布的Bard更新,涉及扩大访问范围、新增图像功能、优化编程功能与应用程序集成。今日起,Bard将完全运行在PaLM2之上。Bard已取消等候名单,向180多个国家与地区开放,并新增对日文与韩文支持。Bard很快将支持40种语言,包括中文。
具体功能上,Bard聊天问答新增图像互动。用户可以问它:新奥尔良有哪些必看景点?Bard回复不仅有文字,还有丰富图片。
也可以向Bard输入图像,比如上传一张两只小狗照片,让Bard写个有趣的标题。
短短几秒钟内,Bard能借助GoogleLens对照片进行分析,检测狗的品种,起草出一些创造性的说明文字。
Bard升级了编程与导出功能,包括:
2、暗黑模式:开发者喜欢这个模式。
3、导出按钮:开发者喜欢导出到Colab的功能,Bard很快将添加导出与运行代码功能,与合作伙伴Replit一起,从Python开始。谷歌还推出另外两个导出操作,方便用户将Bard回复直接导出到Gmail与Docs中。未来谷歌计划将各种谷歌应用程序与服务的功能整合到Bard体验中。
Bard还将能利用网络上各种服务,通过外部合作伙伴进行扩展。接下来几个月,谷歌计划将Adobe创意生成式AI模型家族AdobeFirefly集成到Bard中,用户能轻松快速将自己创意转化成高质量图像,然后进一步编辑或添加到AdobeExpress中的设计中。比如,向Bard输入:在孩子聚会上制作一个独角兽与蛋糕的图像。Bard几秒钟就生成符合要求的全新图像。
Pixel硬件产品上新:智能手机、折叠屏手机、平板电脑
谷歌还推出Pixel7a、PixelFold、PixelTablet平板电脑。Pixel7a即日起可购买,PixelFold与PixelTablet预订现已开放,三款设备都采用谷歌旗舰芯片GoogleTensorG2。
PixelFold是谷歌首款折叠屏手机,谷歌称比市场上任何其他可折叠手机都要薄,拥有折叠屏手机中最好的摄像头,打开后屏幕尺寸7.6英寸,预定价格1,799美元,并将赠送PixelWatch。
PixelTablet平板电脑,拥有11英寸显示屏,预售价499美元,可与充电音箱底座搭配使用。放到音箱上时,相当于变成带屏智能音箱,可以作为智能家居的中控设备。
当它处于Hub模式时,点击GoogleHome图标就能访问所有兼容的智能家居设备,包括查看视频门铃、调节恒温器、打开客厅灯等。它也是第一款内置Chromecast的平板电脑,用户可从手机上播放视频或音乐。为让平板电脑与折叠屏手机更好用,谷歌宣布50多个谷歌应用程序更新,以更充分利用更大屏幕。
谷歌智能家居软件GoogleHome也进行更新,应用程序中新设备选项卡为用户提供了清晰的视图与中央位置来管理所有智能家居设备,包括与Matter配对的设备。
搜索:用生成式AI改变信息组织方式
在搜索中引入生成式AI功能,有助更快理解主题,发现新的观点与见解,更轻松完成任务。
比如输入问题:对有3岁以下孩子与一只狗的家庭来说,brycecanyon与arches哪个更好
生成式AI会迅速整理出可用的关键信息,还提供有相应链接。同时,界面上有建议的后续问题,当用户点击这些按钮,就会进入新的对话模式,然后可以询问更多问题。
谷歌Workspace:AI做图绘表、写文稿
谷歌Workspace中DuetAI,提供Slides幻灯片与Meet视频会议中的图像生成工具、Sheets表格中的创建自定义计划等工具。
首先,谷歌宣布将Gmail智能写作体验带到移动设备上,增加起草回复功能。用户仅输入几个词作为提示词,就能让AI起草完整的邮件回复。谷歌也将DuetAI嵌入到Slides幻灯片中,用户输入几个单词就能生成图像。
制表也更加方便。DuetAI通过自动化数据分类与自定义计划的创建,可以帮助用户比以往更快分析与处理Sheets表格中数据。
将DuetAI整合到Meet视频通讯软件中,点击几下就能生成独特的自定义背景。如果用户在Docs文档中写一份工作描述,DuetAI会帮助写内容,还提供校对功能。
I/O大会上,谷歌介绍了可以体验谷歌早期功能与产品创意的实验室Labs,即日起可报名申请参加一系列实验的有限名额。
1、搜索实验室:在谷歌搜索中探索信息的新方式,如搜索生成体验SGE,提供AI的概述、指针与后续建议。
2、Workspace实验室:在谷歌Workspace中创建与AI协作的新功能,比如在谷歌Docs文档与Gmail中编写建议,在Sheets工作表中组织数据,在Slides幻灯片中生成文本生成图像。
3、Tailwind项目:一个AI笔记本,由用户笔记与资源驱动。
4、MusicLM:把文字描述变成音乐的工具。
谷歌云DuetAI:对战微软Copilot,让云服务更好用
谷歌云宣布推出新的生成式AI协作工具DuetAI,为云服务用户辅助编程,补全上下文代码,提供变成建议,实时生成整个代码函数,以及协助进行代码审查与检查。从功能来看,基本上跟微软Copilot对标。
DuetAI可嵌入到谷歌云接口中,包括集成开发环境IDE、谷歌云Console乃至聊天功能。对希望更简单有效创建生成式AI应用的开发者,谷歌云AI产品还引入新的基础模型与功能。
为继续支持与激励更多客户与合作伙伴,谷歌正在VertexAI中开放生成式AI支持。新的基础模型可在VertexAI中访问:谷歌代码生成基础模型Codey,通过代码生成、代码完成与代码聊天帮助加速软件开发;文生图基础模型Imagen,可以让客户生成与定制工作室级图像;先进语音模型Chirp,支持语音控制、字幕与语音辅助等语音任务。这些模型均可通过API访问,通过生成式AIStudio进行调整,并具有企业级安全性与可靠性。
文本嵌入TextEmbeddingsAPI是一个新的API端点,支持开发者基于对文本或图像的语义理解,构建推荐引擎、分类器、问答系统、相似性匹配与其他复杂的应用程序。
VertexAI是超大规模企业中第一个将人类反馈强化学习RLHF作为托管服务提供的端到端机器学习平台,支持组织结合人类反馈来深度定制与改进模型性能,教会模型避免不适当输出。
支撑所有这些创新的是谷歌AI优化的基础设施。谷歌宣布构建基于NVIDIAH100GPU的新A3虚拟机,这些虚拟机与最近发布的G2虚拟机一起,为训练与服务AI模型提供全面的GPU功能。
A3是第一个使用谷歌定制设计的200GbpsIPU的GPU实例,相比A2虚拟机可实现高达10倍的网络带宽,具有低尾部延迟与高带宽稳定性。A3超级计算机的规模,提供高达26EFLOPS的AI性能。A3虚拟机也非常适合推理工作负载,与谷歌由NVIDIAA100TensorCoreGPU*支持的A2虚拟机相比,推理性能提升30倍。
AI工具:鉴别真伪、照片编辑与沉浸式地图
谷歌还训练了检测合成音频的分类器,准确率接近99%。谷歌相册中魔法编辑器MagicEditor采用生成式AI,让照片编辑变得更简单。它帮助用户对照片中特定区域进行编辑,也可以优化整体构图,将拍摄主体置于最佳位置。无论是更换天空背景,还是挪动照片中的人,操作都非常轻松。
谷歌地图即将上线ImmersiveView沉浸式视图功能。该功能使用计算机视觉与AI技术,将数十亿街景与航拍图像融合在一起,创建丰富的数字世界模型。
用户可以看到所需路线的所有信息,预览自行车道、人行道、十字路口与停车位,查看空气质量信息与路况变化。
通过新的鸟瞰图API,开发者可轻松将兴趣点的3D鸟瞰视频集成到自己应用程序中,为人们提供更多关于一个地方的视觉信息。谷歌还通过MapTilesAPI,推出实验性的Photorealistic3DTiles,来帮助开发者定制3D地图。
安卓:生成式AI驱动的信息回复与个性化壁纸
MagicCompose由生成式AI提供支持,可帮助用户在对话中添加额外个性。它会根据用户信息上下文提供建议回复,甚至能将用户写的内容转换成不同风格,该功能将在夏季推出测试版。
表情壁纸支持用户用自己最喜欢的表情组合、图案与颜色来定制设备。电影壁纸采用机器学习网络,能将用户最喜欢的照片转换成3D图像。生成式AI壁纸,使用谷歌的文本到图像扩散模型,用户输入自己创意想法的描述后,手机就能生成相应的独特壁纸以供选择。
为避免防丢神器被滥用于侵犯用户安全,谷歌将在2023年夏季晚些时候推出全新的查找我的设备体验,在安卓上推出未知追踪器警报。手机确定周围有未知追踪器在移动时,就会自动通知用户。用户可查看物理禁用跟踪器并停止更新位置,并能主动搜索附近未知追踪器。谷歌将继续将安卓带到新的屏幕上,正与三星合作打造基于安卓的全新沉浸式XR平台。
3D魔镜:最新原型大降硬件成本
今日谷歌推出最新的3D视频会议系统Starline项目原型。该项目的演示效果非常神奇,就好像用户坐在一面魔镜前,可以跟远隔千里的另一个人实时交谈,而镜中人拥有宛如真人的立体感与大小,就好像那个人坐在对面一般。
谷歌早期Starline项目原型占据整个房间,需要复杂的硬件,系统规模与复杂性使其难以应用于很多办公室中。因此,对于其最新原型机,谷歌开发了新的AI技术,只需几个标准摄像头就能产生更高质量的逼真3D图像。其原型机现在更像传统的视频会议系统,从一个餐厅摊位的大小缩小到一个平板电视,变得更容易部署与访问。
AI助攻生命研究突破:世界上第一个人类泛基因组参考
包括谷歌研究中心的工程师在内,一个由来自60个机构的119名科学家组成的联盟,在今日登上国际顶级学术期刊Nature封面的一篇论文中,宣布第一份人类泛基因组参考草案。
目前的人类参考基因组只代表一个人在DNA上每个点的数据,与之不同的是,泛基因组参考基因组包括来自每个位置的许多个体的数据。这创造了一种更好代表人类遗传多样性的新资源,使科学家与医生能更准确诊断与治疗疾病,并开发新的治疗方法。
为促进该联盟的努力,谷歌工程师帮助开发与应用深度学习方法来解决基因组学方面的挑战,工程师们采用卷积神经网络识别基因变异的开源工具DeepVariant。
该联盟利用这些改进的方法,改进泛基因组分析技术,并消除人类基因组长而特别难以解码的片段的测序错误。
谷歌DeepConsensus使用transformer来纠正测序仪器数据中的错误,帮助提高用于构建泛基因组的数据的准确性。利用DeepConsensus数据,该联盟能开发出一种长读汇编器,最终准确率超过99.999%。
结语:谷歌自揭AI攻略
皮查伊说,谷歌有15种产品的用户数超过5亿,其中6个产品用户数量超过20亿,这给谷歌很多机会来实现“组织世界上的信息,使其普遍可用与有用”的永恒使命。
展望未来,谷歌将通过4个重要方式让AI对每个人都有帮助:1、增强知识与学习,加深人们对世界的理解;2、激发创造力与生产力;3、让开发者与企业能构建自己的变革性产品与服务,赋能他人创新;4、通过负责任的构建与部署AI,让每个人都能平等受益。
谷歌2023I/O大会,全新PaLM2反超GPT-4,办公全家桶炸裂升级,Bard史诗进化
字数:4,275
谷歌2023I/O大会,对打GPT-4的PaLM2登台、DuetAI装进谷歌办公全家桶Workspace、Bard超强进化向所有人开放、谷歌搜索加入AI快照、AI新功能整合进Android14、AI魔术编辑器加入谷歌相册等。
PALM2秀肌肉
OpenAIGPT-4,已被公认为最强大的语言模型。怎么对打GPT-4,谷歌答案是PaLM2,并在今天发布PaLM2技术报告。
PaLM2被寄予厚望,以缩小谷歌与微软间在AI方面差距。皮查伊介绍说,因为广泛的逻辑与推理训练,PaLM2模型在逻辑与推理方面更加强大。据说,PaLM2在超过100多种语言的多语言文本上进行训练。根据基准测试,对具有思维链prompt或自洽性的MATH、GSM8K、MGSM基准评估,PaLM2的部分结果超越GPT-4。
谷歌高级研究主管SlavPetrov介绍,PaLM2在推理、编码、翻译上都表现更好,与2022年4月发布的第一代PaLM相比,PaLM2有明显改进。
比如,PaLM2能理解不同语言的成语。比起PaLM,在最新专业语言熟练度考试中的表现,PaLM2日语水平达到A级,PaLM达到F级;PaLM2法语水平达到C1级。
再比如,与波斯谚语Naborderanjganjmoyassarnemishavad(NoPain,NoGain)意思相近的中文谚语是什么?
PaLM2有一个基于健康数据训练的版本Med-PaLM2,可以轻松通过美国医学执照考试,达到专家水平。
一个基于网络安全数据训练的版本Sec-PaLM2,可以解释潜在恶意脚本的行为,检测到代码中的威胁。
这两种模型都将通过谷歌云提供给特定客户。目前,PaLM2已应用在25种功能与产品中,包括办公全家桶、聊天机器人Bard、搜索等。
值得称赞的是,PaLM2最轻量版本Gecko,小到可以在手机上运行,每秒可处理20个token,大约每秒16或17个单词。谷歌没有提及具体用什么硬件来测试这个模型,只是说在最新手机上运行。
显然,这次谷歌在大语言模型小型化上,取得非常重要进步。在云端运行这种AI,往往很昂贵,如果能在本地运行,无疑有许多显著优势,比如隐私保护。
英伟达科学家JimFan对此大加赞许。下一波LLM将是移动原生的。一个离线的、永远在线的LLM不仅可降低服务成本,还为用户体验开辟全新的途径。例如,一个元应用程序可以从用户移动工作流程中学习,并为用户实现自动化。在小屏幕上节省的生产力,将比在大屏幕上多得多。
谷歌一直被嘲AI研究上落后微软,PaLM2是谷歌的重大回击。但PaLM2同样也面临一些争议,比如训练语言模型的数据是否合法?谷歌只是提到训练语料库来自网络文档、书籍、代码、数学与对话数据,但并没有进一步细节。
大语言模型的幻觉问题,同样无法避免。谷歌研究副总裁ZoubinGhahramani表示,PaLM2是对早期模型的改进,谷歌投入大量精力,不断改进基础性与归因指标。但他承认,在打击AI产生的虚假信息方面,大家都还有很长的路要走。
除了PALM2,谷歌还宣布正在训练全新基础模型Gemini,这是第一个多模态模型,同样包含参数大小不同的模型。
除了介绍模型,谷歌还特地介绍开发AI技术的社会责任感,包括两个判别AI生成内容的工具:嵌入水印watermarking、嵌入元数据metadata。
DuetAI:办公全家桶新升级
微软Copilot此前把GPT-4整进全系办公产品,掀起震惊全世界的办公软件革命。
谷歌这次祭出DuetAI,给谷歌办公全家桶Workspace来一次全新升级。DuetAI是Docs与Gmail等软件中AI工具的新名字。
谷歌希望,生成式AI能让Gmail、Docs、Sheets、Slides更有用,不过目前,大部分功能还在开发中。DuetAI会涵盖谷歌各种办公软件,包括在文档与Gmail中的写作辅助、幻灯片的图片生成、Meet的自动会议摘要等。
在文档中,只要点Helpmewrite,DuetAI就能自动帮用户生成招聘启事,还可以规定任意文风,比如用古怪的调调写工作描述。
在GoogleSlids中,DuetAI能直接从幻灯片中的文本生成图像。
简单描述一下,合意的图片立马生成。
想做一个遛狗业务的收费表?描述一下,它就自动生成。
I/O大会上一个真正的新事是,写作辅助也会应用在移动端Gmail上,这是对SmartCompose的升级。
现在,如果想试用这些新工具,需注册WorkspaceLabs,加入候补名单。好消息是,现在任何人都可申请加入候补名单,目前尚不清楚用户何时可以访问。谷歌说法是,将在未来几周内将服务扩展到更多用户与国家。
目前唯一可靠的消息是,Gmai的移动程序上会出现HelpmewriteAI助手,此前微软也曾推出类似产品,将Bing集成到iOS与Android的SwiftKey键盘中。
Bard又变强了
发布会上,谷歌还宣布重磅消息。Bard未来也能像ChatGPT一样,接入网络,实时搜索网页。Bard这次上新不少功能,支持两种新语言,日语与韩语,用户目前可更简便把生成的文本导出到谷歌文档与Gmail,可视化搜索,深色模式等。
最令用户开心的,是谷歌决定取消Bard等候名单,将在180个国家或地区提供服务。
与Adobe的AI图像生成功能,以及Instacart与OpenTable等第三方服务的功能整合也正在路上。总的来看,这些上新,给老Bard注入强心剂。
谷歌目前正在使Bard变得更加可视化,让Bard能分析图像,并且能在查询结果中提供图像信息等。关于这方面,谷歌在发布会上展示一个案例。
假如用户问Bard,美国新奥尔良有哪些必看的景点,Bard就能图文并茂解答这个问题,就像用户在谷歌搜图中问同样问题一样。
用户还可以,用Bard起草邮件,并一键导入Gmail,还有文档中。
另一个更好玩的功能是用图像提示系统。该功能由GoogleLens提供,能识别图片中物体。
该功能目前可能还不太完善,虽说潜力无限。未来如何,取决于系统的整合程度。
对Bard来说,这是相当重大的更新,但与OpenAI的ChatGPT,以及微软的Bing之间的差距仍是肉眼可见的。
微软在3月就给Bing增加由OpenAIDALL-E系统支持的AI图像生成功能。而OpenAI与微软一直在探索如何将聊天机器人与更多种的网络服务相结合。
不仅如此,OpenAI早些时候还宣布ChatGPT将与OpenTable预订餐厅,以及Instacart订货配送的功能相结合。
谷歌表示,这些功能自己之后也会有的。谷歌表示,升级后的Bard将会非常擅长处理有关代码的问题,包括调试与解释20多种语言的代码。
只要选中代码,就可以一键导出到Colab或者Replit。
还支持20+种编程语言。基本涵盖程序员所需的所有编程需要。
甚至还能直接询问Bard怎么用某一种语言实现某种功能。只要prompt到位,生成一串代码也就几秒钟的事。
写完以后,还能就着某一行代码进行解释,以及完善。
如此看来,结合了PaLM2的Bard,应该会在生成质量上有明显提升。
对战Bing,谷歌AI搜索已来
此前,整合进GPT的Bing势如破竹,真正威胁到谷歌搜索市场。为与微软Bing竞争,谷歌在今天推出由PaLM2驱动的全新搜索引擎。
它能提供问题回答的摘要,比如问为什么酵母面包仍然如此受欢迎?谷歌搜索就给出几段详细描述酵母的味道、其益生元能力的优势等。另外,在生成内容旁,给出3个链接,以证明摘要中的内容。这样以减少AI在生成内容上出现幻觉问题。
当用户搜索蓝牙音箱,首先顶部有一个简短的摘要,详细说明购买时应注意的事项:电池寿命、防水性、音质。右边是3个购买指南的链接,下面是6个不错选择的购物链接,每个旁边都有一个AI生成的摘要。
可以看到,这是谷歌搜索结果页面的newlook,把AI生成内容放在最开始。比起重新设计的微软Bing,搜索结果顶部的AI框对谷歌来说更像是一个小小的更新。
值得注意的是,要是想要访问这一功能,用户必须选择SGE(SearchGenerativeExperience)这一新功能。并非所有搜索都会有AI生成的答案。只有当谷歌的算法认为它比标准答案更有用时,AI内容才会出现,而像健康、财务等敏感主题完全不会有AI生成。
谷歌表示,改进后的搜索引擎能以对话方式跟踪原始搜索查询的选项,无需重复已提供的上下文或细节。
谷歌搜索也不是无所不能,也存在从未完全解决过的问题,结构编排orchestrationofstructure。因为大部分数据储存在互联网上,甚至谷歌内部,但将所有这些数据放在一起形成连贯的答案很难。目前,已经开放候补名单仅限美国,谷歌表示,未来几个月将考虑更广泛推出这一功能。
一键退款,智能P图,沉浸导航
一键生成退款邮件?谷歌行。
皮查伊在发布会一开始就整了个小活。航班取消了的退款?不会写申请退款的邮件?Gmail会。
只要在prompt栏里输入要求,Gmail快速生成有理有据有节的退款申请邮件。另外,谷歌Map现在也有沉浸式view,用户想去哪,实景导航来了。用户还能顺便问空气质量、天气、交通状况,都能即时演示。
再比如下面这张,MagicEditor一键将长凳上的小孩连着凳子一起移到中间,自动补齐多出来的椅子,还把原画中缺失的气球补齐,天也P蓝。
这项功能还没到最完美地步。比方说,仔细看上面图片,凳子挪动,可底下影子没动。但这项功能对照片本身的理解是革命性的。当然,现在还不用太担心是不是有的图片被MagicEditor处理过。谷歌说了,下半年才会推出这项功能。
AI笔记本ProjectTailwind
ProjectTailwind本质上讲是笔记本,但是加了AI能力。用户可以像问导师或学习搭子一样进行在Tailwind里进行检索。谷歌把这个功能定位为学生服务的工具,但对日常需要处理大量文本的用户来说,也是重大利好。
谷歌产品管理高级总监表示,Tailwind就像真正的笔记本一样,用户在里面记东西,这些内容就是AI学习的对象。用户可简便从谷歌云端硬盘中挑选文件,有效创建兼具个性化与私人属性的AI模型。
隐藏在Tailwind背后的理念是,为什么我们不能为每个用户定制不同的AI语言模型?
这里存在两个问题。一方面是成本问题,训练语言模型所需的计算需求与微调成本都很高,谁来负担这个成本?另一方面是信息安全性,捏造信息这种事一点都不稀奇,谁能保证个性化的笔记本不会出现同样问题。
用户目前可以注册ProjectTailwind进行测试,该功能也是AILabs计划的一部分。
安卓开发小助手
谷歌王炸级更新,PaLM2大模型震撼发布,Bard写代码,哪里不懂点哪里
字数:3,114
近半年AI发展速度就像坐火箭,2022年11月ChatGPT横空出世,2023年2月发布的NewBing、与3月发布的GPT-4,更是让许多大厂难望其项背。
谷歌立刻推出聊天机器人Bard,结果因为演示视频中小错误而导致股价大跌。现在,在谷歌一年一度I/O大会上,谷歌需要让公众、投资人相信在AI方面的实力。
值得肯定的是,谷歌在AI研究方面确实是领头羊。
要知道GPT的T就是Transformer模型,是谷歌2017年推出的NLP经典模型。谷歌这次能否力挽狂澜?来看I/O大会上谷歌发布了哪些王炸级更新。
Bard新功能来袭,私人助理+全自动photoshop
不想写邮件?给导师写邮件不知道用什么语气才显得更客气?
谷歌Bard全新的Helpmewrite,不仅利用生成式AI来辅助用户撰写邮件,而且还提供多种语气选项供用户选择。举个例子,如果用户需要向航空公司请求退款,用户只需告诉它的需求,它就会基于用户提供的航班细节生成一份草稿。这样说的话更加具体明了。
Bard推出全新沉浸式路线视图,这让用户在到达目的地之前,就能提前体验整个旅程。想象一下,用户想在纽约骑自行车,通过沉浸式路线视图,用户可选择沿着海边路线,欣赏美丽风景。用户可缩放地图,得到鸟瞰视图,甚至可看到自行车道细节,这绝对是全新的旅行方式。
沉浸式路线视图计划年底前在15个城市上线,包括伦敦、纽约、东京、旧金山。这意味着,用户可以在这些城市提前体验用户旅行,感受到城市魅力与景点美景。
一键识图功能也来了,不仅帮用户识别图片中人物是谁,用户可在照片中搜索特定人物、景物等元素,还能找到用户朋友的照片。
谷歌不仅相册中应用AI技术,还在其他产品中推出令人惊叹的功能。比如,谷歌在Pixel手机上推出Magic魔法橡皮擦,利用计算摄影的AI技术,可消除照片中不必要的干扰物体。
大学不知道报考什么专业?Bard也能帮忙。假如用户喜欢打游戏,对动画感兴趣,想知道美国宾夕法尼亚州是否有一些大学提供优秀的动画课程。接下来,用户可使用谷歌搜索找到一些师资力量优秀、动画领域颇有建树的大学。
Bard可将它推荐的大学以表格形式展示,并通过谷歌地图展示这些学校位置,这样用户父母可更直观了解学校位置。Bard还能帮用户标注哪些是公立学校和私立学校。
接下来几个月里,Bard还将与AdobeFirefly工具合作,通过使用Bard,用户可以立即通过用户的想象力将其创造出来,并将其转化为全新图片。
例如,如果用户有7岁孩子,特别喜欢独角兽,并即将过生日,用户希望发送有趣的生日邀请函,上面有一个独角兽与蛋糕形状的图片,那么通过与AdobeFirefly的合作,用户可以将这个想法变成现实。
这个工具可以让用户的想象变成可视化的图像。
在新的表格中,用户只需输入一些描述,如客户及遛狗业务费率、与宠物名册,然后点击创建表格。Sheets将根据用户的命令发送到经过训练的模型中,生成一个包含狗名字、客户信息注释等内容的表格。这样的工具大大简化表格工作,让用户能更专注自己喜欢的事情。
Google的幻灯片工具也提供便利的功能,人们经常使用幻灯片讲故事,不论是工作还是个人生活中都经常用到。
举个例子,如果用户家族成员要为父母50周年结婚纪念日制作幻灯片,每个家庭成员都可以贡献一些内容。
用户可选择一个句子作为图像生成提示,然后点击创建幻灯片。系统将根据输入命令发送到文本图像生成模型中,生成6~8张图像供选择。这样用户可随心选择,最终设计出精彩的幻灯片。
这些功能的引入,为人们工作与创作提供巨大便利,让他们能更高效完成任务与实现创意。
想要使用Bard也很简单,谷歌移除了等待名单流程,现在180多个国家与地区可以使用了,更多地区也将很快加入。
不仅如此,谷歌还推出Bard日语与韩语版本,并计划很快支持全球前40种语言。
PaLM2语言大模型发布,支持多模态,代码哪里不懂点哪里
谷歌重磅推出最新的PaLM2模型,基于谷歌基础研究与最新基础设施,新基础模型Gemini也一并发布,是谷歌首个从头开始构建的多模态模型,具有不同规模的高度能力,并能有效与其他工具与API集成。
Med-PaLM2可帮助回答问题,并总结从各种密集医学文本中得出的见解,并在未来将添加处理医学影像的能力。
Sec-PaLM是基于安全情报进行训练的模型,为帮助组织与安全分析师检测、理解与防御威胁提供动力,并支持新的GoogleCloud产品。
PaLM2的模型,在特定领域的数据上进行微调时表现出色,并可根据特定任务要求进行训练。
值得一提的是,Google将两个团队合并成GoogleDeepMind,并得到Google的计算资源支持,以构建更具能力的系统,并确保安全与负责任的部署。
在PaLM2加持下,Bard数学逻辑与推理能力得到大幅提升,可帮助开发者进行更好编程。现在,它可以帮助我们在整个代码生成与代码调试过程中进行解释与协作,并已经学会20多种编程语言,包括C++、Go、JavaScript、Python等。
举个例子,比如有用户想学习下棋,想用Python编写四步杀算法。通过使用Python语言,Bard编写了一个脚本,实现这个算法,并且格式化得非常清晰易懂。
但如果用户不理解此算法,用户可点击代码中某一部分,Bard将能将其关联到原始地址,并能理解代码并提供解释,比如解释chessboard代码的含义与在整行中的作用。这个解释功能非常有用,可以帮助化繁为简,让代码更加清晰易懂。
想要改进用户的代码?Bard也能帮到用户。通过一些建议,如使用压缩列表与生成器函数,用户可以将这些改进合并到Python代码块中,Bart在这方面能力正在不断提高,可以重新修正代码。
英语不好?韩语不会?Bard还能帮用户与韩国同事无障碍跨国协作沟通代码。假如用户需要与韩国同事一起做代码调试,用户可要求他修复错误,并且通过在代码中添加韩文注释来帮助用户队友。首先它识别出这个代码其实是递归性代码,所以它会建议修复,然后会解释修复背后原因,并且按照用户要求会添加韩文注释。
GooglePixelFold与Pixel生态体系全面搭载AI
Google展示了如何扩展Pixel系列,并推出两款新产品:折叠屏手机PixelFold与平板电脑PixelTablet。这些新设备旨在提供更多选择与体验,丰富Pixel产品线,并加强Google在移动设备领域地位。
PixelFold是可折叠手机,可在需要时作为普通手机使用,或展开成为更大平板电脑,带来更丰富视觉体验。通过这种设计,用户可在不同场景中切换使用,享受更灵活的功能。
PixelTablet是面向手持与家庭使用的平板电脑,采用高分辨率显示屏与内置扬声器,提供清晰图像与音频效果。搭载GoogleTensor芯片,为用户提供出色安卓平板体验,并支持个人AI技能。
Google强调PixelTablet在视频通话、照片编辑、语音识别等方面优势。它通过优化相机功能与AI定制,使视频通话更加清晰,提供一些方便的编辑工具。同时,采用TensorG2芯片与PC连接,实现更快速的语音输入体验。
为提升大屏幕设备的应用体验,Google进行大量的应用重新适配工作,并提供多达50多个谷歌应用程序。PixelTablet还支持多个用户切换,每个用户可轻松访问自己应用与内容,它还具备移动设备间的内容传输功能,方便用户在不同设备间共享媒体。
对标GPT-4,谷歌发布大语言模型PaLM2,可在手机运行,云、搜索、电邮等一网打尽
字数:2,961
谷歌2023年I/O发布会,正式发布新的通用大语言模型PaLM2。PaLM2是驱动AI机器人Bard模型升级版,可生成多种文本回应用户。谷歌称PaLM2可以使用100种语言,擅长数学、软件开发、语言翻译推理与自然语言生成。
谷歌发布,旗下产品广泛应用AI技术的功能,从文档等各种协作工具,到电邮、搜索、云等各种服务一网打尽,让新型大模型支持的AI功能在各种产品中全面结合。
谷歌还发布两款手机,包括首次推出的可折叠手机PixelFold,开始预售新款平板电脑Pixel。谷歌确认,新版智能手表WearOS4,将在2023年晚些时候面世,同时会有一批WearOS配套APP与功能出炉。
约20种谷歌产品目前在用PaLM2,PaLM2有版本可用于移动端
谷歌CEOSundarPichai开场指出,过去1年,AI成为热议话题,有了生成式AI,我们将迈出下一步;要让AI对人人都有帮助,通过AI增加知识,提升学习能力、创造力、生产力,让他人能创新,负责任创造与配置。
介绍新的大语言模型时,Pichai说,PaLM2在医学等专业领域具有一些优势,可以回答专家级别的体检问题。
谷歌AI研究实验室DeepMind副总裁ZoubinGhahramani称PaLM2,比谷歌以前最先进的语言模型还好,PaLM2使用谷歌定制的AI芯片,比初版PaLM运行效率更高。PaLM2能使用Fortran等20多种编程语言,还可以用100多种口头语言。Ghahramani透露,现在约有20种谷歌产品使用PaLM2,轻量级的PaLM2版本可在移动设备上运行。
Pichai认为,AI生成图像真实性在未来可能会成为问题。Pichai表示,通过添加图像元数据,可以更轻松识别合成图像。谷歌有另一个AI模型Gemini,可以识别合成生成的内容,即由AI创建的文本、图像、镜头。Gemini与其他AI模型,将检查水印、即内容中集成的元数据,以及其他技术,告诉用户哪些是原始未变的,哪些是AI创造的。
PaLM2驱动的升级版Bard,向180个国家地区开放,将可用40种语言回复
谷歌宣布,升级AI聊天机器人Bard,改由PaLM2驱动,可提供更高明的回复,从本周三起,约180个国家地区的用户可以开放申请使用Bard。
谷歌称Bard编程能力已有所改善,Bard现在接入多种编程工具。Bard学习了C++、Go、Python等20多种编程语言,以及与谷歌表格GoogleSheets的函数。
谷歌副总裁SissieHsiao说,Bard拥有让双眼观看更舒适的深色主题,还称用户可将Bard回复导出到Gmail、谷歌文档、谷歌的Colab交互式编码工具与第三方协作编程APP。
Bard未来将适时与音乐流媒体Spotify、零售巨头沃尔玛、房产平台Redfin、送餐服务UberEats、旅游网站Tripadvisor与招聘网站ZipRecruiter融合。
谷歌产品主管、Bard负责人JackKrawczyk称,Bard将能用英语、日语与韩语回复,谷歌将很快让Bard适用的语言达到40种。
Bard将很快在回复中包含图片,在接下来几个月里,谷歌将使通过GoogleLens工具,让Bard更容易回应用户的图片提示。比如,用户可以用智能手机指着满抽屉的艺术品与手工艺品工具与配件,问Bard它们可以用来做什么。
Krawczyk说,未来Bard能将谷歌地图、文档、表格与Gmail信息带入对话中。Bard还将能在Adobe等第三方工具帮助下回复用户。他提到Adobe生成式AI服务Firefly,说它可以根据文字描述创建图像。
Gmail、谷歌地图与相册的AI功能
Pichai介绍,AI已结合到谷歌一些产品中,谷歌还将融入新的产品。其中一种是,Gmail将利用生成式AI推出实现帮我写HelpMeWrite的功能,帮助用户写邮件。
Pichai展示一个例子,通过写一封信,获得航空公司全额退款。谷歌有些设置能让生成的文本更长或更短,并且可以用之前消息作为上下文,帮助AI编写内容。他说:只要输入用户想要的提示词,点击创建,就会出现完整的草稿。
谷歌地图将提供沉浸式视图ImmersiveView的AI工具,该工具将获取空气质量与天气的信息,为谷歌地图用户选出一条路线,并将路线可视化。
Pichai展示一条位于曼哈顿的自行车骑行路线。用户可以看到,走这条路线,沿着西区高速公路骑车会有什么情景,其中有AI支持的交通、天气与路线本身的渲染图。从演示中可以看到具备flyover功能,可帮助将出行信息叠加到用户界面。
Pichai说,沉浸式视图将在未来几个月内推广到十几个大城市。
谷歌相册将推出神奇编辑MagicEditor功能,用生成式AI帮助用户重新构建照片,可以选择编辑照片的任何一部分,无论是画面的主角、天空还是背景,都可以编辑,可以抓取、可以移除。
比如用户主要想拍的是瀑布,可以把瀑布边的人挪开,拍照时人忘取下背带,可以把拍到的背带抹去,可以把拍出的天空调得更明亮。
神奇编辑功能将于2023年晚些时候在谷歌相册上线。
Workspace的DuetAI,AI搜索功能Converse
谷歌称,谷歌协作与生产力工具Workspace将很快能让用户借助AI生成完整的文档,并填写电子表格。这种AI服务名为DuetAI,将在2023年晚些时候面向订阅者推出。
谷歌没有透露具体何时上线Converse、哪些地区用户可用,但这种功能属于搜索生成体验SGE的部分成果。谷歌称,Labs用户可在未来几周内使用,可通过点击谷歌APP或桌面版Chrome中Labs图标访问。
谷歌云推出DuetAI服务与A3超级计算机虚拟机
谷歌云也有自己DuetAI服务。谷歌云CEOThomasKurian称,所有谷歌云服务合作伙伴,都可以付费使用谷歌AI模型,以及算力。
2023年夏季,连锁汉堡餐厅Wendy’s将运用谷歌技术,在俄亥俄州一家门店接受用户订单,避免用户排长队。谷歌强调,经过其调整的大语言模型,可以理解Wendy’s的产品名,比如简称JBC的产品是培根芝士汉堡。
谷歌推出Tailwind项目,可以记录开发者笔记,并可以在云端网盘中整理不同笔记。它还能建学习指南,提取笔记中关键概念。用户可以要求Tailwind整理信息,或根据所做笔记向它提问,它也显示引用内容。
升级安卓系统查找设备功能,安卓手机可用生成式AI定制壁纸
谷歌将在2023年夏季为安卓系统用户升级查找、锁定或清空设备的功能,找我的设备FindMyDevice。这种新功能将利用安卓设备的网络,同多种生态系统的设备合作,帮助用户寻找设备,与苹果FindMy功能依赖其他苹果设备定位遗失设备类似。
2023年5月初,谷歌与苹果宣布,将联手为用户提供受到非必要跟踪的警报,作为重视隐私与安全的部分工作。谷歌将在2023年夏天晚些时候上线这一服务,让用户知道,是否被未知的追踪方式跟踪。
安卓手机将很快能依靠谷歌生成式AI技术,根据用户提示词,生成可定制的壁纸,该功能将在2023年秋季上线。
谷歌发布新手机Pixel7a、首款可折叠手机PixelFold、平板电脑Pixel
硬件方面,谷歌发布新一代安卓手机Pixel7a,售价499美元,搭载谷歌自研TensorG2芯片,运行内存8GB,比Pixel7与Pixel7Pro更平价。
谷歌还发布首款可折叠手机PixelFold,售价1,799美元,也搭载TensorG2芯片,全部展开时手机显示屏7.6英寸大小,本周三开始接受预订,下月发货。
谷歌宣布本周三起,新版平板电脑Pixel接受预订,配置TensorG2芯片,起售价499美元,有128GB与256GB两种内存的版本可选。
新大模型性能超GPT-4,Bard全面升级,谷歌反击ChatGPT
字数:2,505
谷歌CEO桑达尔皮查伊SundarPichai说谷歌以AIFirst已有7年,我们正处于转折点,通过生成式AI技术,我们正在迈出下一步。
ChatGPT推出之后,人们都很关心谷歌反击策略。在今天凌晨长达2个小时的演讲中,谷歌从算法、软件到硬件,通篇都在讲AI,最新的大模型技术,已应用在谷歌产品体系方方面面。
PaLM二代模型支持多语言、更强的数学、代码能力
谷歌给出对标GPT-4的大模型PaLM2。这波AI技术突破源头,可追溯到2017年谷歌提出的transformer架构,已成为绝大多数现代大语言模型基石。
过去几年里,谷歌除在大模型上不断进步外,也采用许多创造性新技术来构建功能更强大、用途更广的模型,这些技术是新一代语言模型PaLM2的核心。PaLM基于谷歌Pathways架构,第一个版本的模型2022年4月发布。
谷歌I/O大会上,皮查伊宣布推出PaLM2预览版本,改进数学、代码、推理、多语言翻译与自然语言生成能力,利用谷歌最新的TPU算力基础设施提升训练速度。由于它的构建方式是将计算、优化扩展、改进的数据集混合,以及模型架构改进结合在一起,因此服务效率更高,同时整体表现更好。
会上,谷歌并没有给出有关PaLM2具体技术细节,只说明它是构建在谷歌最新JAX与TPUv4之上。PaLM2模型提供了不同尺寸规模的四个版本,从小到大依次为Gecko、Otter、Bison、Unicorn,更易于针对各种用例进行部署,轻量级的Gecko模型可在移动设备上运行,速度非常快,不联网也能在设备上运行出色的交互式应用程序。
皮查伊表示,PaLM2模型在常识推理、数学与逻辑领域表现更好。为此,谷歌在大量包含数学表达式的科学论文与网页上进行训练,可轻松解决数学难题、推理文本甚至可输出图表。
从基准测试上可以看到,对于具有思维链prompt或自洽性的MATH、GSM8K、MGSM基准评估,PaLM2部分结果超越GPT-4。
PaLM2是在具有100+语言的语料库上进行训练,因此它更擅长多语言任务,能理解、生成、翻译比以往模型更细致多样化的文本,包括习语、诗歌、谜语等。PaLM2通过精通mastery级别的高级语言能力考试。
与此同时,PaLM2改进对代码编写与调试的支持,在20种编程语言上进行训练,包括Python与JavaScript等流行语言,以及Prolog、Verilog、Fortran等其他更专业的语言。PaLM2构成Codey基础,它是谷歌用于编码与调试的专用模型,作为代码补全与生成服务的一部分推出。
皮查伊现场演示PaLM2代码调试功能,输入指令“你能修复这段代码的一个bug,并添加一行一行的韩文注释吗?”,结果如下动图所示。
谷歌内部已有超过70个产品团队正在使用PaLM2构建产品,包括分别针对安全知识与医疗知识微调而成的Sec-PaLM与Med-PaLM2。
Sec-PaLM,专注安全用例的版本,使用AI帮助分析与解释具有潜在恶意脚本的行为,并检测哪些脚本对个人或组织构成威胁。
Med-PaLM2,可检索医学知识、回答问题、生成有用的模板、解码医学术语,甚至还可从图像中合成患者信息,例如胸部X光检查或乳房X光检查。值得强调的是,Med-PaLM2是首个达到专家水平的大语言模型。
目前,开发者可通过谷歌PaLMAPI、Firebase、Colab访问PaLM2。皮查伊表示,PaLM2将继续为谷歌最新的Bard提供支持。
皮查伊演讲同时,谷歌放出91页的PaLM2论文。令人失望的是,PaLM2论文远没初代PaLM有诚意,与GPT-4一样,更像是技术报告。
GoogleBrain与DeepMind合并之后,新的大模型也在研制过程当中。皮查伊表示现在谷歌研究重心正在转向Gemini,这是多模态与高效的机器学习工具。
谷歌并未透露Gemini更多信息,只知道该模型是2023年才开始研发,将具有像GPT-4一样的万亿参数。目前Gemini仍在训练中,但已展示出以往模型中从未见过的多模态能力。一旦经过微调与严格的安全性测试,谷歌将提供不同尺寸与功能的Gemini版本,以确保部署在不同的产品、应用与设备上。
多模态版Bard,能用AdobeFirefly画图
皮查伊表示,现在谷歌Bard已完全运行在新一代模型PaLM2上。I/O大会上,Bard经历大幅更新,包括图像功能、编码功能、应用程序集成。
PaLM2模型在逻辑与推理方面,比以往模型更强大,这要归功于对逻辑与推理的广泛训练,还接受100多种语言的多语言文本训练。
Bard将在回复与用户给更复杂提示后给出更加直观的内容。用户可问诸如新奥尔良有哪些必看景点之类问题,除文本之外,用户可获得更有意义的回复,以及丰富的视觉内容。
与GPT-4一样,用户还可在自己要求中附加图像与文本。比如像这样,为这张照片想一个有趣的标题。
其次是导出按钮。如果AI生成的内容接近实用化,我们肯定会希望能更快捷使用这些结果。现在,人们能把内容快速导出到Colab与Replit上,进一步构建与迭代自己的想法。当然文字也可以,如果用户让Bard写邮件,那么它也可以一键直接用Gmail发送,或新建Docs文件。
未来,谷歌计划集成的应用还包括Sheets、Slides、Calendar、Keep、Tasks、Maps、Photos、Messages、Flights、YouTube、YTMusic、GoogleImages、Imagen、OpenTable、Replit,以及Adobe的Firefly。
谷歌表示,Bard很快就会支持各种第三方扩展,例如AI可以自动根据用户输入的文本生成图像,使用的还是Adobe那个神奇的Firefly。
人们反映最多的问题是:Bard一直仅限英国与美国使用。谷歌这次直接宣布Bard覆盖全球180个国家与地区,并取消候选名单,现在立即人人可用。语言方面,谷歌这次增加日语与韩语,预计会在2023年7月让Bard支持全球使用量排名前40的语言。
下一代安卓,AI可以帮用户回短信
I/O大会上,谷歌还展示了下一代移动操作系统Android14新能力。
MagicCompose将于2023年夏天在谷歌默认短信应用Message中推出测试版,它是一种基于AI生成模型的工具,让用户在回短信时根据聊天内容获得大量提示。它会学习用户说话方式,用户也可让自己回复内容看起来有不同语气,或用莎士比亚风格来写。
谷歌还使用生成式AI来帮用户制作独一无二的手机壁纸,与AI画图一样使用语言提示完成。
谷歌发布了Pixel7a、PixelTablet,还有谷歌首款折叠屏手机PixelFold,售价1,799美元,新的硬件将于夏天正式开卖。
随着新模型PaLM2引入,全系列工具的AI化升级,谷歌在大语言模型应用上来到了与微软同一个身位,甚至可能再次领先。