2024年Google I/O大会主题演讲摘要

随着科技的不断进步，Google I/O大会如期而至，带来了一系列令人兴奋的创新和更新。以下是这次大会的主要内容摘要。

全新AI搜索引擎体验

Google宣布将在美国推出全新的AI搜索引擎体验，并计划很快扩展到其他国家。这项名为Gemini的技术将彻底改变我们的搜索方式。例如，在停车场支付时，只需简单提问，Gemini就能识别出你的车辆，并提供车牌号。此外，Gemini还能识别不同的上下文，如在泳池游泳与在海洋中浮潜的区别。

多模态和长文本搜索

多模态搜索极大地扩展了我们可以提出的问题类型以及我们能得到的答案。长文本搜索允许我们引入更多信息，如数百页的文本、数小时的音频、完整的视频或整个代码库。现在，Gemini 1.5 Pro可以实现1百万个标记的上下文窗口，并且Google宣布将把上下文窗口扩展到200万个标记，朝着无限上下文的最终目标迈出了下一步。

Gemini 1.5 Pro和1.5 Flash

Gemini 1.5 Pro现在向全球开发者提供，支持1百万个上下文，并且可以在35种语言中使用。此外，Google还推出了Gemini 1.5 Flash，这是一个与Pro相比更轻量级的模型，可以在Google AI工作室和Vertex AI中使用，支持高达1百万个标记。

项目Astra和AI辅助

Google分享了关于AI辅助未来发展的一些令人兴奋的进展，称为项目Astra。Astra将能够识别声音并提供详细的解释，如扬声器的高音单元（Tweeter）的作用。

全新的生成媒体工具

Google还介绍了全新的生成媒体工具，包括图像、音乐和视频。Imagine 3是一个更逼真的图像生成模型，可以清晰地看到动物的胡须。此外，Google与YouTube合作开发了音乐AI沙盒，一套专业的音乐AI工具，可以从头开始创作新的器乐部分，转换曲目的风格等。

新的视频生成模型VEO

VEO是一个新的视频生成模型，可以从文本、图像和视频提示中创建高质量的1080p视频。它能够捕捉到指令的细节，并以不同的视觉和电影风格呈现。

第六代TPU：Trillium

Google宣布了第六代TPU（张量处理单元），称为Trillium，与前一代相比，每个芯片的计算性能提高了4.7倍。Trillium将从2024年底开始向云客户开放。

Google搜索的多步推理

Google正在为Google搜索引入多步推理功能，使AI概览更加有用，能够回答更复杂的问题。例如，用户可以询问在波士顿找到最好的瑜伽或普拉提工作室，并获取关于他们的介绍优惠和从Beacon Hill步行时间的详细信息。

新的Gmail移动功能

Google为Gmail移动版推出了三项新功能，包括摘要、问答和自动化工作流程。这些功能将从本月开始向实验室用户推出。

虚拟Gemini助手Chip

Google正在开发一个名为Chip的虚拟Gemini助手，它将被赋予特定的工作角色，并根据一组描述来帮助团队。Chip不仅会搜索它能够访问的所有信息，还会综合所发现的内容，并提供最新的回应。

个性化专家：Gems

Google推出了一个名为Gems的新功能，允许用户根据自己的需求创建个性化的专家。例如，可以创建一个作为个人写作教练的Gem，专门处理带有神秘转折的短篇故事。

新的旅行规划体验

在Gemini Advanced中，Google正在开发一种新的旅行规划体验，可以根据用户的个性化需求，如艺术和海鲜喜好，以及航班和酒店的详细信息，提供一个个性化的度假计划。

AI辅助学习

Google还计划将AI辅助学习带入教育领域。通过上传论文、资料、笔记和研究，AI可以帮助学生分析主要观点，识别改进点，并进行专业模拟。

Gemini的上下文感知

Google正在使Gemini具备上下文感知能力，以便更好地理解和回应用户的查询。例如，当用户在观看视频时，Gemini可以主动显示相关的信息和选项。

价格和未来的更新

Gemini 1.5 Pro的价格为每1百万个标记7美元，对于128k以下的提示，价格将降低50%，为3.50美元。此外，Google还宣布了即将推出的新模型Gemini 2，以及将合成ID扩展到文本和视频模态，并计划在未来几个月开源合成ID文本水印。

总结

2024年的Google I/O大会展示了AI技术在各个领域的应用和潜力。从搜索引擎的创新到个性化AI辅助工具，Google正致力于使AI更加智能、有用和易于访问。随着这些新功能的推出，我们有理由期待AI将在未来发挥更大的作用，为人们的生活带来更多便利。

内容由MiX Copilot生成