神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:你付了钱,AI却总给你“阉割版”?这份指南教你榨干AI全部价值。文章来自编译。
每隔几个月,我都会写一份关于如何使用AI的主观指南,但现在我写这篇文章时,全球已有大约10%的人每周都在使用AI。这其中绝大多数使用的是免费AI工具,这通常没什么问题……但偶尔也会出问题。OpenAI最近发布了一份用户使用ChatGPT的详细数据(随意聊天的比你想象的少得多,寻求信息的则远超预期)。这意味着我终于可以根据真实的用户模式,而不是凭直觉来给你提建议了。我在OpenAI的图表上加了标注,提供了一些关于何时使用免费模型、何时使用高级模型的建议。
作者从事工作构成及使用哪些AI模型/套餐的建议
如果图表显示免费模型已足够满足你的AI使用需求,那就选一个你最喜欢的用,不必再关心本指南的其他任何内容。你基本上有九种左右的选择,因为能做出尖端模型的公司屈指可数。它们都提供一些免费使用渠道。四个最先进的AI系统是:Anthropic公司的Claude、谷歌的Gemini、OpenAI的ChatGPT,以及埃隆·马斯克xAI旗下的Grok。其次是那些“开放权重”的AI家族,它们几乎(但还不完全)一样好:来自中国的Deepseek(深度求索)、Kimi(月之暗面)、Z(智谱)以及Qwen(通义千问),以及法国的Mistral。在几乎所有的AI评级系统中,这些AI模型的变体共同占据了前35名的位置。你使用的任何其他提供尖端AI的服务——从Microsoft Copilot到Perplexity(两者都提供一些免费使用)——都是以这九个AI中的一个或多个作为其基础的。
你应该怎么在它们之间做选择呢?有些免费系统(如Gemini和Perplexity)在网页搜索方面做得很好,而有的则根本搜索不了网页。如果你想要免费的图像创作,最好的选择是Gemini,ChatGPT和Grok次之。但归根结底,这些AI在许多细微之处都有所不同,包括隐私政策、访问级别、功能、处理道德问题的方式以及“个性”。所有这些都会随着时间而变化。因此,你得根据这些因素选择一个自己喜欢的模型来使用。但是,如果你正考虑是否升级到付费账户,我建议你从Anthropic、谷歌或OpenAI的免费账户开始用起。如果你只想用免费模型,那么那些开放权重的模型以及像Microsoft Copilot这样的聚合服务使用额度会更大。
现在来说说“硬核”的部分。
如果你想“正经”使用高级AI,每月就得付20美元或约200美元的费用,具体取决于你的需求(尽管各公司目前正在世界某些地区试验其他定价模式)。20美元的档位能满足绝大多数人的需求,而200美元的档位则适合那些有复杂技术和编码需求的人。
你会想在这三个系统(Anthropic的Claude、谷歌的Gemini和OpenAI的ChatGPT)中选择一个来花费你的20美元。这几个选项都能让你使用先进的、有“智能体”(agentic)能力、响应快速的模型,还有语音模式、查看图像和文档的能力、执行代码的能力、好用的移动应用、创建图像和视频的能力(不过Claude目前缺少这项),以及进行“深度研究”的能力。它们都有不同的个性、优点和缺点,但对大多数人来说,只管选那个自己最喜欢的就足够了。有些人,特别是X平台的重度用户,可能会想考虑埃隆·马斯克xAI旗下的Grok,它拥有一些最强大的AI模型,并且正在迅速增加新功能,但在产品安全方面的透明度不如其他几家公司。微软的Copilot提供了ChatGPT的许多功能,用户可以通过Windows系统访问,但你很难控制你正在使用的是哪个模型以及何时使用。所以,对大多数人来说,用Gemini、Claude或ChatGPT就好。
ChatGPT、Claude和Gemini功能特性对比
然而,光三选一是不够的,因为每个AI系统都有多个AI模型可供选择。“聊天模型”通常是可以免费得到的那些,最适合对话,因为它们回答迅速,而且通常最有人情味。“智能体模型”需要更长时间来回答,但可以自主执行许多步骤(搜索网页、使用代码、制作文档),完成复杂的工作。“巫师模型”则需要很长时间,用于处理非常复杂的学术任务。对于真正重要的工作,我建议使用“智能体模型”,它们能力更强、表现更稳定,而且出错的可能性要小得多(但请记住,所有AI模型仍然具有很大的随机性,如果你再次问同一个问题,它们可能会给出不同的答案)。
并排对比了聊天模型和智能体模型对同一提示词的回答,前者答案模糊,后者则经过了详细研究。
向聊天模型和智能体模型问了同一个问题。你可以看到,聊天模型是“拍脑袋”式的回答,而智能体模型在回答之前做了外部研究,并核实了许多假设。
对于ChatGPT,无论你用的是免费版还是付费版,你得到的默认模型都是“ChatGPT 5”。问题在于,GPT-5不是一个模型,而是涵盖了从非常弱的GPT-5 mini,到非常好的GPT-5 Thinking,再到极其强大的GPT-5 Pro等多个模型。当你选择GPT-5时,你真正得到的是“自动”模式,即由AI来决定使用哪个模型,而它往往会选一个没那么强大的。成为付费用户后,你就可以自己决定使用哪个模型,而且,更复杂的是,你还可以选择模型对答案“思考”的深入程度。对于任何复杂的事情,我总是会手动选择GPT-5 Thinking Extended(20美元套餐)或GPT-5 Thinking Heavy(如果你付的是200美元的套餐)。对于需要大量思考的超级难题,你可以选择最强的模型GPT-5 Pro,它只在最高价格档位提供。
ChatGPT界面的图片,显示了模型选择下拉菜单,突出显示了GPT-5 Thinking Extended和GPT-5 Pro。
对于Gemini,你只有两个选项:Gemini 2.5 Flash和Gemini 2.5 Pro,但是,如果你购买了Ultra套餐,你就可以使用Gemini Deep Think(它在另一个菜单里)。目前来看,Gemini 2.5是几大AI模型中最弱的(虽然依然很强,并且Deep Think非常强大),但预计在未来几个月内会推出新的Gemini 3。
Gemini界面的图片,显示了Flash、Pro和Deep Think的模型选择选项。
最后,Claude在模型选择上做得相对简单。你可能想用Sonnet 4.5来处理所有事情,唯一的问题是是否选择“扩展思考”(extended thinking)(用于更难的问题)。目前,Claude还没有与GPT-5 Pro相对应的模型。
Claude界面的图片,显示了Sonnet 4.5的模型选择以及“扩展思考”的开关
如果你正在使用这些模型的任何付费版本,并希望确保你的数据永远不会被用来训练未来的AI,关闭替ChatGPT和Claude训练的功能也很简单,而且不会损失任何功用;但对Gemini来说,这样做会牺牲掉一些功能。所有的AI还带有一系列其他功能,比如“项目”和“记忆”,你可以在熟悉它们的过程中去探索。
AI最大的用途是提供实用指导和获取信息。对于这类问题,有两种方法可以显著提高结果的质量:一是触发“深度研究”模式,二是将AI连接到你自己的数据(如果你对此感到放心的话)。
“深度研究”是一种AI在回答前会进行10-15分钟广泛网络研究的模式。对大多数人来说,这是一个关键的AI功能,即便他们自己还没意识到。它很有用,因为它能生成质量非常高的报告,常常给我交流过的信息专业人士(律师、会计师、顾问、市场研究员)留下深刻印象。深度研究报告并非全无错误,但它们远比直接向AI提问要准确得多,而且引用的资料也往往是正确的。另外请注意,每种深度研究工具的工作方式略有不同,各有优劣。就算不开启深度研究,GPT-5 Thinking自己也会做大量的研究;而Claude有一个“中度研究”选项,你可以在打开网页搜索的同时不开启研究功能。
如何触发深度研究模式,以及如何将你的数据连接到Claude和ChatGPT,图片显示了在Claude和ChatGPT的AI界面中哪里可以找到“深度研究”的开关。
将AI连接到你自己的数据这一点非常强大,而且现在支持从Gmail到SharePoint等各种应用。我发现Claude在整合搜索电子邮件、日历、各种云盘等方面尤其出色——当你把它连接到你的账户后,你试着让它“给我一份今天的详细简报”,结果很可能会让你惊艳。这是AI公司正在投入大量精力的领域,相关功能也在迅速迭代。
我以前提到过,使用AI的一个简单方法是从语音模式开始。目前语音模式做得最好的是Gemini和ChatGPT的应用及网站。Claude的语音模式比另外两个要弱。请注意,语音模型是为聊天优化的(包括所有那些旨在让你感觉像在和真人交谈的微小停顿和吸气声),所以你无法通过这种方式使用那些更强大的模型。
所有的模型也都允许你向它们输入各种数据:你现在可以上传PDF、图片,甚至视频(ChatGPT和Gemini支持)。对于App版本,特别是ChatGPT和Gemini,一个很棒的功能是共享你的屏幕或摄像头。把你的手机对准一个坏掉的电器、一道数学题、你正在照着做的食谱,或者一个外语标识。AI能看到你所看到的,并实时作出回应。这让Siri和Alexa那些老派助手显得非常原始。
Claude和ChatGPT现在可以制作高质量的PowerPoint和Excel文件(目前,Claude在这两种文档格式上处于领先,但这随时可能改变)。这三个系统也都能通过编写代码生成各种其他输出。要想让Gemini可靠地做到这一点,且希望系统运行代码或生成单独的输出,得选Canvas选项。Claude有一个专门的“产出物”(artifacts)区,用来展示可用代码做出的一些示例。这些模型各自也都提供了非常强大的专用编码工具,但那些工具过于复杂,本指南就不深入介绍了。
ChatGPT和Gemini也可以生图(Claude不能)。Gemini目前拥有最强的人工智能图像生成模型。Gemini(谷歌)和OpenAI的Veo 3.1和Sora 2上也拥有强大的视频生成能力。Sora 2的定位更像是一个社交媒体应用,可以把你植入到任何视频里面;而Veo 3.1的用途则更为广泛。它们生成的视频都带有声音。
熟悉我的人都知道,我测试任何AI图像或视频新模型的标准,是看它能否制作出“一只在飞机上使用Wi-Fi的水獭”。现在看来这已不再构成挑战。Sora 2可以制作自然纪录片风格……80年代音乐录影带风格……现代惊悚片风格……50年代低成本科幻片风格……飞行安全指南风格……黑色电影风格……日式动漫风格……90年代游戏过场动画风格……以及法国艺术电影风格的视频。
我已经预警过好几年,你真的不能再相信网上看到的任何东西了。请对所有视频持保留态度。顺便提醒一下,四年前,当你提示AI提供一张飞机上的水獭的图像时,你得到的是下面这个东西。世界变化太快了。
一张约2021年AI生成的“飞机上的水獭”图像,画面扭曲、荒诞,甚至有点吓人。
除了选择模型的基础知识外,还有一些经常出现的问题值得考虑:
幻觉:从很多方面来说,“幻觉”(即AI胡说八道)已远不像过去那样令人担忧,因为较新的AI模型在不产生幻觉方面做得更好了。不过,不管AI再怎么好,它仍然会犯错,仍然会在它出错的地方给你自信满满的答案。它们甚至会对自己的能力和行为产生幻觉。当答案来自高级模型,或者AI进行了网页搜索时,其正确的可能性会更高。请记住,AI并不知道它“为什么”要那么做,所以让它解释其逻辑是行不通的。不过,如果你发现了问题,AI模型的“思考轨迹”(thinking trace)可能会有所帮助。
“谄媚”与个性:所有的AI聊天机器人都变得越来越吸引人、越来越讨人喜欢。一方面,这让它们用起来更有趣;另一方面,这也带来了风险,即AI看起来像人但并不是人,这可能导致人们对AI产生更强烈的情感依恋。一个相关的问题是“谄媚”,即AI会附和你所说的话。这背后的原因很复杂,但当你需要真实反馈时,请明确告诉AI扮演批评者的角色。否则,你可能只是在和一个非常老练的“应声虫”对话。
给AI提供上下文。尽管“记忆”功能正在被添加进来,但大多数AI模型只知道基本的用户数据和当前聊天中的信息,除此之外,它们不会记住或学习关于你的任何事情。所以,你需要为AI提供上下文:文档、图片、PPT,甚至只是一段关于你自己的介绍性文字都会有帮助——随时使用文件选项上传文件和图片,或者用我们前面讨论过的“连接器”。
别太担心提示词写得“好不好”:老一代AI模型需要你用像“思维链”这样的技巧来生成提示词。但随着AI模型变得越来越好,这一点的重要性正在褪去,模型们越来越能搞清楚你到底想要什么。在我们最近的一系列实验中,我们发现这些技巧(平均而言)已经没什么用了(另外,威胁或善待模型,似乎也没什么帮助)。
去试,去玩:“玩”常常是了解AI能做什么的好方法。让视频或图像模型制作一部卡通片,让高级AI把你的报告或文章改编成一个游戏,就你感兴趣的主题做一份深度研究报告,让AI根据一张照片猜猜你来自哪里,给AI看一张你冰箱的照片并向它要点食谱建议,和AI一起策划一次梦幻之旅。大胆去尝试,你就会了解到这个系统的局限。
我在本指南的开头提到,全球有10%的人每周都在使用AI。等到几个月后我写下一篇更新时,这个数字很可能会更高,模型会变得更好,而我今天提出的一些具体建议将会过时。但有一样东西不会变,那就是:那些学会了如何用好这些系统的人,将找到从中受益的方法,并为未来建立起直觉。
文章开头的那张图表显示了今天的人们用AI来做什么。但我敢打赌,两年后,那张图表看起来将截然不同。这不仅仅是因为AI能做的事情变了,更是因为用户们搞清楚了它“应该”做什么。所以,选一个系统,从一件对你真正重要的事情开始,比如一份你需要写的报告、一个你正试图解决的问题,或者一个你一直拖着没做的项目。然后,再去尝试一些荒唐的事情,只为看看会发生什么。我们的目标不是要成为AI专家,而是要建立起关于这些系统“能做什么”和“不能做什么”的直觉,因为随着这些工具的不断进化,这种直觉才是至关重要的。
AI的未来,不仅仅在于更好的模型,更在于人们搞清楚了该拿它们来做什么。
译者:boxi。
发布时间:2025-11-19 08:20