2024人工智能现状报告
毫无疑问,人工智能行业发展迅速,可用的技术也不断涌现——而所有这些活动都伴随着炒作、怀疑、焦虑和好奇。就我们而言,我们感兴趣的是务实的态度,所以我们会重新审视,以了解开发人员真正使用人工智能构建了什么以及如何构建——以及哪些方法对企业真正有效。
我们是否正在摆脱演示软件和商品化模型,转而采用实际用例和实际投资回报率?我们是否在这个聊天机器人时代蓬勃发展?一般的人工智能堆栈_到底有多实用?_
我们邀请了约 750 名技术人员(包括开发人员、数据团队、领导层以及跨技术岗位和跨行业的其他人员)分享他们的看法。让我们来看看。
重点数据如下:
以下是Retool博客文章中提到的2024年AI状态报告的重点数据总结:
- AI情绪和采用情况:
- 大多数受访者认为AI略微被高估,评分平均在5分左右。
- 约30%的受访者认为他们的公司在AI采用方面表现良好(“running”或“flying”)。
- 64.2%的受访者现在被允许在工作中使用AI,高于六个月前的54%。
- 生产力提升:
- 64.4%的日常用户报告由于使用AI工具生产力显著提升。
- 每周使用AI工具的用户中,17%报告生产力提升,偶尔使用的用户中这一比例为6.6%。
- AI工具和模型:
- OpenAI的模型最常用于生产环境,占76.7%。其中,GPT-4占45%,GPT-3.5占25%。
- 多数受访者对其使用的模型感到满意,其中35.5%非常或大部分满意。
- 自定义和内部模型:
- 29.3%的受访者对现有模型进行微调,23.2%使用向量数据库或RAG。
- 17.7%的公司正在自行构建模型。
- 向量数据库:
- 63.6%的受访者使用向量数据库,这一比例从2023年的20%大幅增长。
- MongoDB和Chroma在用户满意度方面表现最佳。
- GPU使用:
- 38.9%的公司从主要云提供商租用GPU,15.8%从新兴提供商租用。
- 53.7%的受访者报告其GPU投资有正向ROI。
- 未来预期:
- 59.9%的受访者认为在未来10年内实现AGI(通用人工智能)的可能性很高、非常高或确定。
- 2.7%的受访者认为AGI已经存在。
这些数据展示了AI在企业中的实际应用、生产力提升以及在技术堆栈中的使用情况和满意度。以下是原文内容:
第一部分:全是氛围还是好氛围?
对人工智能情绪的最新看法
在我们的 2023 年报告中,受访者对人工智能持谨慎态度,大多数人认为它被高估了。到目前为止,这种情况在 2024 年并没有太大变化:
即使按角色细分情绪,情况也是如此,所有级别人员的评分平均为 5 分(“评级合理”至略微“高估”)。在 2023 年的炒作风暴之后(有人可能会说,这让任何人工智能都难以达到预期),人们似乎开始更加清晰地认识到人工智能的相对不成熟、当前的局限性以及巨大的潜力。
在读者的反馈中,我们发现激进的炒作暂时掩盖了人工智能的真正潜力:
- AI 被强行塞进产品中,但并没有真正增加价值。(有人想起“我们用 $HOTLANG 重写了一切”吗?)
- “AI” 被用来作为机器学习、法学硕士和自动化的总称。
- 人工智能被视为一把神奇的锤子,包括在传统编程足以胜过人工智能的情况,而无需应对繁琐的提示和幻觉。
似乎还有大量的垃圾需要筛选才能发现人工智能在日常技术和商业用例中真正有用的应用,但受访者对人工智能的实用性和应用广度将会出现持乐观态度。
一句话(或几句话):当谈到可操作的人工智能时,这仅仅是一个开始。
人工智能的采用真的在飙升吗?
尽管主流媒体对人工智能的报道是,它的采用和效用正在激增,并正在接管世界,但就目前而言,现实情况还是比较温和。
也许每个人都在使用它,但大多数受访者都清楚自己距离顶尖还很远。许多受访者对自己公司的评价很高——约 30% 的人认为自己在采用时处于“奔跑”或“飞翔”状态,咨询(46%)、房地产(46%)和消费品行业(37%)的受访者排名最高。但总体而言,那些认为自己处于领先地位(即飞翔)的人从 2023 年的 13.4% 下降到 2024 年的 9.8%。
材料行业的 100% 受访者表示成熟度滞后(尽管样本量相对较小);非营利组织的 80% 受访者也表示了同样的情况。
此外,受访者指出的进展在很大程度上并不具有_变革性_(正如报告的异常值可能会让你相信的那样)——或者至少现在还没有,这些用例的影响平均评分为 6.7 分(满分 10 分)。随着我们越来越清楚地了解采用方面的障碍和挑战,现实情况将得到检验。
领导层希望对人工智能进行更多投资!
在所有职位、团队和资历中,只有一小部分(4.5%)的受访者认为他们的公司在人工智能方面投资过度,而认为“刚刚好”(42%)和认为“投资不足”(40.5%)的受访者比例相当均衡。
更深层次地讲,亲力亲为的领导者(董事、经理和副总裁)比 IC 更希望获得投资。
从公司规模来看,拥有 50-99 名员工的企业最倾向于增加 AI(50%),其次是拥有 5000 多名员工的企业(45%)。(所有其他规模的公司比例在 33-42% 之间,没有线性关系。)在技术团队中,IT 员工最看好增加对 AI 的投资(49%)。我们在设计团队的朋友不太相信(33%)。
产品和工程引领人工智能的采用
近四分之三的受访者每周至少在工作中使用 copilots 和其他 AI 工具(例如 ChatGPT、Claude 等),其中 56.4% 的人几乎每天都在使用。在规模最小的公司(1-9 名员工)中,这些每日数字飙升至 72%,其次是 10-49 名员工的公司,这一数字为 59%。(虽然大多数其他规模的公司的比例在 50% 左右徘徊,但在拥有 1000-4999 名员工的公司,这一比例下降至 43%。)
从角色来看,产品和工程在日常采用率方面领先,分别为 68% 和 62.6%,而设计则落后,为 39%。(我们看好 AI 的 IT 朋友处于中间位置,为 50.1%。)
谁的生产效率提高最多?
总体而言,绝大多数在工作中使用副驾驶或其他人工智能工具的受访者表示,这样做可以提高工作效率:
事实证明,你使用人工智能工具的次数越多,你就越有可能发现它们有价值:64.4% 的日常用户报告工作效率显著提高,而每周用户和偶尔用户的比例分别为 17% 和 6.6%。(够公平吗?)
人工智能的秘密
上一轮,我们大声问了_一个奇怪的问题:**你在工作中偷偷使用人工智能吗?**很多人都这样做了(34.4%)。这一次,我们想看看这种趋势如何,更好地了解到底发生了什么。_所以让我们来分析一下。
如今,被允许在工作中使用人工智能的受访者比例比 6 个月前更高(64.2% vs 54%),但超过四分之一(27.3%)的受访者仍在秘密使用人工智能。这一比例从 2023 年开始呈下降趋势,但考虑到现在整个企业堆栈中可用的人工智能功能激增,这有点令人惊讶。那么,为什么要对此保持谨慎呢?
在秘密使用人工智能的人中,只有约 9% 的人直接违反了公司政策——其他动机则围绕着内部协调和对使用人工智能的看法,或政策不明确。自去年以来,人们对使用人工智能进行工作的兴趣总体上有所上升(甚至可能用于总结会议记录等可以说是良性的用例),再加上监管跟不上采用的步伐,可能会造成一种有点混乱的环境……
(就这一点而言,62.9% 的受访者至少关注了新兴的人工智能法规和政策。)
工作,工作,工作(没有?)着火了......
如果你最近上网,你可能会说,关于谁的工作可能会因人工智能而消失的讨论很热门_。_随着“日常人工智能”逐渐成熟,成为实际用例和投资回报,我们真的应该担心人与机器的较量吗?软件工程会过时吗?
我们的受访者有一些想法。虽然有 15.3% 的人有充分的理由认为没有人真的面临 被人工智能取代的风险(新技术 = 更多需求 = 需要更多工程资源,对吗?),但 45.7% 的人认为入门级 IC 最有可能被人工智能取代。在写入中,事情变得更加微妙——改变是合理的预期。毕竟,如果入门级 IC 被取代,当世界仍然需要比它能构建的更多的软件时,中高级 IC 将从何而来?🤔
中层管理人员位居第二(13.2%),但在中层管理人员主要负责监督而非战略的公司中,很容易想象这些职能在某种程度上会实现自动化。(另一方面,通过自动化腾出时间可能会让这些中层管理人员更具战略性……!)
高级 IC 和执行/高级领导层被视为低风险。
与此相关(或无关)的是,高管们对采用 AI 的热情一直很强烈:C 级受访者是 AI 的最大日常用户,约占 72%(其他角色占约 45-56%)。他们还报告称,与其他角色相比,AI 的影响和生产率提升最高,这进一步表明 AI 与其说是一种威胁,不如说是一种工具。(我们的 2023 年报告发现,C 级和副总裁对 AI 改变其角色的期望最大,因此投资于 AI 技能提升是一致的。)
也许这一切都表明了一个机会:利用人工智能作为杠杆可以帮助领导者和 IC 为自己创造护城河。可以说,竞争可能不是人类与人工智能之间的竞争,而是人类与使用人工智能的人类之间的竞争。(这一观点得到了众多书面回复的支持!)
第二部分:这是聊天机器人的世界(真的是这样吗?)
真实的人工智能用例和投资回报率
您将获得一个由人工智能驱动的聊天机器人,您将获得一个由人工智能驱动的聊天机器人……
超过一半的受访者(55.1%)已经构建了一个人工智能聊天机器人或者他们的公司已经构建了一个人工智能聊天机器人。(16.8% 的人构建了三个或更多。)
尽管(或正因为)聊天机器人的普及,我们还是听到受访者对聊天机器人有些厌倦,他们哀叹这些就是所有新“人工智能”功能或产品的全部。虽然有传闻称,聊天机器人似乎在面向公众的人工智能应用中占据主导地位(包括 RAG 增强型支持机器人,例如 Klarna 推出的那种大张旗鼓的机器人),但这些可能是最引人注目的,因为它们数量众多,而且目前是最容易实现的用例。观察这种情况的发展,看看这种光彩(或疲劳)是否会消退,对我们来说会很有趣。
预测:
实时内部用例
支持聊天机器人通常是“首选”用例和示例,但对于受访者来说,它只是第三大最受欢迎的实时内部用例,其中编写代码或查询排在首位,占 42.1%,其次是知识库问答,占 36.4%。内容生成用例有点混杂。
- 值得一提的是,我们保留了老派风格,没有使用人工智能来生成本报告的内容。
虽然大多数用例与我们上次在 2023 年末检查时相比相差了几个百分点,但有几个领域出现了约 5 个百分点的波动,我们将密切关注这些趋势:
- 编写代码或查询的比例从 47.5% 下降到 42.1%,下降了 5.4 个百分点;文案写作的比例从 32.9% 下降到 28%。
- 支持聊天机器人跃升 5 个百分点,从 28.9% 升至 33.9%
- 自动化工作流程从 12.9% 跃升至 17.8%,增幅近 5 个百分点
这些团队使用人工智能!
我们还看到人工智能的使用在各个部门之间的分布多样化。
乍一看,支持部门在采用方面落后于其他部门(排在工程、营销、数据科学、产品管理和运营之后,排在第六位)似乎是矛盾的,特别是因为支持聊天机器人在实时内部用例中仍然排在第三位。
实际上,正在使用的支持聊天机器人和使用人工智能应用程序的支持团队的实际百分比只相差几个百分点 - 但看到一些人不愿向客户推出人工智能支持也并非不合理:
- 受访者认为开发 AI 应用的三大痛点中的两个是模型输出准确性/幻觉(38.9%)和数据访问/安全性(33.5%),与 2023 年的调查相比基本没有变化。
- 所有角色对模型输出的信任度大多为低到中等,平均为 6.1(满分 10 分)(即使受访者普遍喜欢并希望继续使用这些模型!)。
在这里,在那里
只有 8.5% 的受访者认为人工智能在外部使用案例中更有前景,而 57.9% 的受访者认为内部和外部使用案例前景相同,33.7% 的受访者认为内部使用案例前景更乐观。
它认为,公司可能希望降低风险,并尝试使用内部人工智能应用程序,使团队成员能够在将客户暴露于这些风险之前提供自助服务。
未来的用例(以及可能的用例)
因此,我们大体上知道了受访者正在开发哪些类型的 AI 应用,以及为谁开发——但接下来会是什么呢?哪些用例、应用、重大变化或小细节让他们兴奋地开发——并且只是_使用_——AI?我们在写入的内容中看到了一些趋势。
总体而言,一些受访者对当前的“AI 事物”充满热情——帮助生成初稿和宣传资料、分析文本以及帮助编写和调试代码——但其他人则表示,当前 AI 的用途有限。总的来说,随着技术(以及我们利用该技术进行构建的集体能力)的成熟,人们期待看到新的创新用途的发展。
第三部分:(AI)甲板上的货物堆
看看——你猜对了——人工智能堆栈
随着越来越多的开发人员构建更多 AI 应用程序并探索最有效的方法,我们希望更多地了解他们使用的工具来实现这一切。堆栈中哪些运行良好,哪些运行不良?进行了多少模型定制?是否有人真正知道 GPU 是否分配正确?让我们深入研究。
在模型方面,OpenAI 仍然占据最大份额
OpenAI 模型仍然是生产中最常用的模型,约占 AI 用户选择模型的四分之三(76.7%)。GPT-4 以 45% 领先,其次是 GPT-3.5:25%。(我们没有询问 4o,因为它在调查时才刚刚出现,但我们敢打赌受访者正在尝试它。)这种模式也适用于行业和公司规模,OpenAI 在各方面都处于领先地位。
尽管如此,还是有一些有趣的亮点——仅 Anthropic 的 Claude 3 的销量就比我们上一份报告中 Anthropic 的销量高出四倍多。(这还不包括早期的 Claudes。)最近筹集了相当多资金的 Mistral 也出现在名单上。
当然,我们听到了一些对各种 GPT 的常见抱怨(“我希望它告诉我它不知道什么,而不是提供虚假信息”),但受访者对他们的模型情况非常满意。略多于三分之一(35.5%)的人非常满意或基本满意;34.5% 的人至少有点满意;11.9% 的人并没有真正考虑过这一点。在那些想要改变他们的 AI 堆栈的人中,只有 17.1% 的人对他们的模型提供商不满意;12.3% 的人只是想切换到同一提供商的不同模型。
定制模型
大多数受访者都在一定程度上定制了他们的模型,其中大多数对现有模型进行微调(29.3%)或使用向量数据库或 RAG(23.2%)。(在后者方面,5000 家以上的公司平均领先约 10 个百分点,约为 33%。)
在研究人们如何保持应用程序的准确性时,团队使用了多种方法:来自用户的反馈循环是最受欢迎的(39.5%),其次是及时的工程迭代(36.4%)和模型监控和评估(35.9%)。
我们还听到了受访者在写信中对模型的偏见和公平性表示普遍担忧,这些担忧并非毫无根据:近 30% 的受访者表示,他们不在乎或不知道如何解决模型中的偏见和公平性问题。 (另有 25.9% 的人表示他们目前没有解决这个问题,但想要解决。)这里面有几个层次:一些公司可能已经期望基础模型能够内置偏见校正,一些偏见问题可能似乎不适用于他们使用 AI 的输入和任务类型(例如,编写单元测试与营销文案),然后……有些人真的不在乎。😩
_在那些解决_偏见和公平问题的人中,最受欢迎的方法是定期审计和审查(30.4%)、数据增强和偏见校正等预处理技术(23.8%)以及后处理公平调整(17.8%)。
在室内建造模型
进一步深入研究发现,17.7% 的受访者所在公司正在构建自己的模型。值得注意的是,金融服务公司落后 11%。一些公司可能会从定制 LLM 中受益,因为它提供高级数据安全性、适应市场变化的能力以及定制服务和工具,但考虑到训练模型和持续维护的初始成本很高,看到这么多公司走这条路可能会令人惊讶。
话虽如此,这里有一些非常清晰的界限:
载体数据库正在崛起
如今,大多数受访者表示正在使用载体数据库(63.6%),较 2023 年的 20% 有了很大的飞跃。(而且,使用载体数据库的人越多,他们就越推荐它。先有鸡还是先有蛋的数据库?)
更进一步说,最大公司的公司最有可能使用矢量数据库或 RAG 来定制他们的模型。(规模超过 5000 人的公司中这一比例为 33%)。
以下是排行榜:
确实,使用矢量数据库可能会在配置检索块长度、如何将数据输入模型等方面引入更多“旋钮”,因此值得表扬那些常规用户特别满意的数据库。MongoDB 保持了我们在去年报告中看到的强劲表现,根据 NPS 衡量,其常规用户满意度最高。Chroma 在 NPS 排行榜上攀升,紧随 MongoDB 之后,位居第二。(特别要表扬 Qdrant,虽然样本量小得多,但他们的用户同样满意。)
在评估和比较项目的矢量数据库时,最流行的方法是使用性能基准(40%),其次是用户评论和社区反馈(39.3%)和概念验证实验(38%)。
推理平台尚未成为常态
略多的受访者(51.9%)根本没有使用推理平台,考虑到相关的硬件要求和训练成本,这可能并不令人意外。(开发 AI 应用的第二大痛点是缺乏可用的技术专业知识/资源,占 38.2%。)
在使用推理平台的用户中,Amazon Sagemaker(13%)和 Databricks(8.6%)的使用频率最高,其余用户的比例也相当均匀。(Databricks 在用户满意度方面得分最高。)
拥抱你的开发工具
大多数公司 (59.1%) 都在使用_某种_形式的附加工具进行 AI 开发,无论是自主开发还是现成的。(呼?呼!)对于那些报告只使用一种工具的人来说,HuggingFace 处于领先地位——15.8% 的人报告使用它(并且按比例计算,比调查中的任何其他工具、模型、推理平台或数据库都更喜欢它!)。自定义工具 (10.6%) 是第二大使用的解决方案。(在使用率方面,Braintrust 处于中等水平,但在满意度方面位居第二。)
在使用多种解决方案的用户中,LangChain(21.3%)和 HuggingFace(20.1%)使用得最多。略多于一半的用户(56%)使用框架来构建 UI。
请记住,40.9% 的受访者没有为 AI 开发引入任何额外的工具——因此随着团队构建其 AI 开发堆栈,格局将发生变化并稳定下来。
这些是你的 GPU 吗?
由于模型训练和实施的成本是许多工程领导者最关心的问题,我们想知道公司如何处理 AI 硬件和资源分配。少数公司自己拥有或运营 GPU(13.2%),其余公司则从主要云提供商(38.9%)和新兴提供商(15.8%)租用 GPU。近三分之一的公司根本没有直接使用 GPU。
目前,对于 GPU(租用或自有)的运营成本是否能带来投资回报,尚无定论:略微多数(53.7%)的人认为能,而 30.6% 的人认为不能或不知道(分别为 5.1% 和 25.5%)——或许这表明衡量投资回报率存在挑战。
也就是说,对 GPU 的投资可能与规模一致:最大的公司(5000+ 家)最有可能报告 GPU 使用带来的正投资回报率 (ROI),为 40%,而最小的公司(1-9 家公司)最不可能实现盈亏平衡或更好的投资回报率 (19%)。
当尝试评估公司如何分配 GPU 资源时,事情变得更加模糊,其中 47.7% 的受访者表示是,而 52.3% 表示不是或不知道:
有趣的是,GPU 的感知投资回报率并不一定与分配的感知“正确性”相关。当被问及公司 GPU 分配时,回答“否”或“我不知道”的受访者中,近一半 (46.8%) 仍表示从公司的 GPU 投资中看到了至少一些投资回报。🤔
认为公司正确分配 GPU 的受访者 (72.7%) 更有可能报告其 GPU 投资获得了正投资回报。随着 AI 堆栈的不断发展,对 GPU 分配的持续重新评估可能是必然趋势。
对堆栈的感受
虽然并非_全_是阳光和玫瑰,但是有阳光就有玫瑰。
我们询问了开发人工智能应用程序的最大痛点:
综合考虑这些痛点,我们发现大部分障碍实际上并非特定于 AI 技术本身。数据安全、资源、成本以及获得认可等组织挑战仍然是最大的障碍 —— 无论是文件还是绊脚石。
而且,至少就目前而言,受访者发现人工智能堆栈中他们已经比较适应的领域以及还有待改进的领域。
总体而言,受访者对自己的堆栈比较满意:
而在两极,表示非常满意的人数(10.2%)是希望_完全_重新开始的人数(4.5%)的两倍多。
从行业来看,医疗保健 (45%)、教育 (43%)、咨询 (42%) 和非营利行业 (40%) 的受访者最有可能表示对自己的堆栈非常满意或基本满意。(材料行业的排名也很高,但样本量明显较小。)能源 (15%) 和政府 (21%) 行业则落后很多。从公司规模来看,所有公司的堆栈都下降了 30-40%,没有例外。
接下来:大多数人(72.1%) 知道他们需要改变什么,有时是多件事:
似乎在堆栈中间还有一些工作要做——而且,虽然事情总体看起来不错,但在工具和模型之间切换的更多灵活性可能会使那些使用人工智能的人获得他们想要的结果(和满意度)。
为了进一步了解 AI 未来的发展趋势,受访者们分享了他们对 AI 堆栈如何发展的希望、梦想和期望:
结束语:2024 年迄今为止的人工智能状况
显然,从个人层面来看,人工智能对人们的工作方式有着重大影响,无论是 IC 开发人员、产品团队还是高层领导。同样明显的是,企业仍在研究如何最_有效_地利用不断发展的技术。但有迹象表明,开发人员正在构建和关注的内容以及各行各业对人工智能在生产中的作用的看法正在走向成熟和完善。
综合起来,这或许是一份路线图的开端,或者至少是一些指示灯,表明领导层如何帮助开发人员进入下一章。开发人员需要的不仅仅是更好的人工智能技术和工具来构建具有真正投资回报率的人工智能应用——他们还需要高管的支持、充足的人员和资金以及强大的数据治理,才能成功完成人工智能项目。
这是一个以身作则的机会,可以明确对人工智能的期望,并确保开发人员拥有正确的工具来快速构建、迭代和学习。
为了结束这个话题,让我们花一分钟来探讨一下存在主义。
59.9% 的受访者认为未来 10 年内 AGI 出现的可能性很高、非常高或肯定存在。2.7% 的受访者认为 AGI 已经存在。聊天机器人会怎么看待_这个问题呢?_
--
本报告中的见解来自 2024 年 4 月对 730 人的公开调查。排名**前五的行业:**技术 (37.3%); 咨询/专业服务 (9.5%); 金融服务 (7.8%)、媒体/通信 (7.2%)、教育 (6.6%) ||**排名前五的团队:**工程师 (31%)、运营 (19.5%)、产品 (15.4%)、数据 (11%)、IT (10.9%) ||**排名前五的职位:**中高级 (30.8%)、总监/经理 (30.1%)、高管 (17.4%)、初级 (12.4%)、副总裁 (6.4%) ||按公司规模细分: 1-99 名员工 (59.3%)、100-999 名员工 (28.1%)、1000 名以上员工 (12.6% 的受访者)
内容和设计: John Choura、 Rebecca Dodd、Willa Gross、Matthew Isabel、Keanan Koppenhaver、Kelsey McKeon、Nate Medina、Sid Orlando、Justin Pervorse、Mathew Pregasen、Cam Sackett、Chris Sandlin 等。
Read the newest State of AI report | Retool Blog | Cache 内容由MiX Copilot基于大语言模型生成,有可能存在错误的风险。