非客观人工智能使用指南-新糖宝胶囊官方网站

神译局是36氪旗下编译团队，关注科技、商业、职场、生活等领域，重点介绍国外的新技术、新观点、新风向。

编者按：你付了钱，AI却总给你“阉割版”？这份指南教你榨干AI全部价值。文章来自编译。

每隔几个月，我都会写一份关于如何使用AI的主观指南，但现在我写这篇文章时，全球已有大约10%的人每周都在使用AI。这其中绝大多数使用的是免费AI工具，这通常没什么问题……但偶尔也会出问题。OpenAI最近发布了一份用户使用ChatGPT的详细数据（随意聊天的比你想象的少得多，寻求信息的则远超预期）。这意味着我终于可以根据真实的用户模式，而不是凭直觉来给你提建议了。我在OpenAI的图表上加了标注，提供了一些关于何时使用免费模型、何时使用高级模型的建议。

作者从事工作构成及使用哪些AI模型/套餐的建议

如果图表显示免费模型已足够满足你的AI使用需求，那就选一个你最喜欢的用，不必再关心本指南的其他任何内容。你基本上有九种左右的选择，因为能做出尖端模型的公司屈指可数。它们都提供一些免费使用渠道。四个最先进的AI系统是：Anthropic公司的Claude、谷歌的Gemini、OpenAI的ChatGPT，以及埃隆·马斯克xAI旗下的Grok。其次是那些“开放权重”的AI家族，它们几乎（但还不完全）一样好：来自中国的Deepseek（深度求索）、Kimi（月之暗面）、Z（智谱）以及Qwen（通义千问），以及法国的Mistral。在几乎所有的AI评级系统中，这些AI模型的变体共同占据了前35名的位置。你使用的任何其他提供尖端AI的服务——从Microsoft Copilot到Perplexity（两者都提供一些免费使用）——都是以这九个AI中的一个或多个作为其基础的。

你应该怎么在它们之间做选择呢？有些免费系统（如Gemini和Perplexity）在网页搜索方面做得很好，而有的则根本搜索不了网页。如果你想要免费的图像创作，最好的选择是Gemini，ChatGPT和Grok次之。但归根结底，这些AI在许多细微之处都有所不同，包括隐私政策、访问级别、功能、处理道德问题的方式以及“个性”。所有这些都会随着时间而变化。因此，你得根据这些因素选择一个自己喜欢的模型来使用。但是，如果你正考虑是否升级到付费账户，我建议你从Anthropic、谷歌或OpenAI的免费账户开始用起。如果你只想用免费模型，那么那些开放权重的模型以及像Microsoft Copilot这样的聚合服务使用额度会更大。

现在来说说“硬核”的部分。

选定一个高级AI系统

如果你想“正经”使用高级AI，每月就得付20美元或约200美元的费用，具体取决于你的需求（尽管各公司目前正在世界某些地区试验其他定价模式）。20美元的档位能满足绝大多数人的需求，而200美元的档位则适合那些有复杂技术和编码需求的人。

你会想在这三个系统（Anthropic的Claude、谷歌的Gemini和OpenAI的ChatGPT）中选择一个来花费你的20美元。这几个选项都能让你使用先进的、有“智能体”（agentic）能力、响应快速的模型，还有语音模式、查看图像和文档的能力、执行代码的能力、好用的移动应用、创建图像和视频的能力（不过Claude目前缺少这项），以及进行“深度研究”的能力。它们都有不同的个性、优点和缺点，但对大多数人来说，只管选那个自己最喜欢的就足够了。有些人，特别是X平台的重度用户，可能会想考虑埃隆·马斯克xAI旗下的Grok，它拥有一些最强大的AI模型，并且正在迅速增加新功能，但在产品安全方面的透明度不如其他几家公司。微软的Copilot提供了ChatGPT的许多功能，用户可以通过Windows系统访问，但你很难控制你正在使用的是哪个模型以及何时使用。所以，对大多数人来说，用Gemini、Claude或ChatGPT就好。

ChatGPT、Claude和Gemini功能特性对比

然而，光三选一是不够的，因为每个AI系统都有多个AI模型可供选择。“聊天模型”通常是可以免费得到的那些，最适合对话，因为它们回答迅速，而且通常最有人情味。“智能体模型”需要更长时间来回答，但可以自主执行许多步骤（搜索网页、使用代码、制作文档），完成复杂的工作。“巫师模型”则需要很长时间，用于处理非常复杂的学术任务。对于真正重要的工作，我建议使用“智能体模型”，它们能力更强、表现更稳定，而且出错的可能性要小得多（但请记住，所有AI模型仍然具有很大的随机性，如果你再次问同一个问题，它们可能会给出不同的答案）。

并排对比了聊天模型和智能体模型对同一提示词的回答，前者答案模糊，后者则经过了详细研究。

向聊天模型和智能体模型问了同一个问题。你可以看到，聊天模型是“拍脑袋”式的回答，而智能体模型在回答之前做了外部研究，并核实了许多假设。

模型选择

对于ChatGPT，无论你用的是免费版还是付费版，你得到的默认模型都是“ChatGPT 5”。问题在于，GPT-5不是一个模型，而是涵盖了从非常弱的GPT-5 mini，到非常好的GPT-5 Thinking，再到极其强大的GPT-5 Pro等多个模型。当你选择GPT-5时，你真正得到的是“自动”模式，即由AI来决定使用哪个模型，而它往往会选一个没那么强大的。成为付费用户后，你就可以自己决定使用哪个模型，而且，更复杂的是，你还可以选择模型对答案“思考”的深入程度。对于任何复杂的事情，我总是会手动选择GPT-5 Thinking Extended（20美元套餐）或GPT-5 Thinking Heavy（如果你付的是200美元的套餐）。对于需要大量思考的超级难题，你可以选择最强的模型GPT-5 Pro，它只在最高价格档位提供。

ChatGPT界面的图片，显示了模型选择下拉菜单，突出显示了GPT-5 Thinking Extended和GPT-5 Pro。

对于Gemini，你只有两个选项：Gemini 2.5 Flash和Gemini 2.5 Pro，但是，如果你购买了Ultra套餐，你就可以使用Gemini Deep Think（它在另一个菜单里）。目前来看，Gemini 2.5是几大AI模型中最弱的（虽然依然很强，并且Deep Think非常强大），但预计在未来几个月内会推出新的Gemini 3。

Gemini界面的图片，显示了Flash、Pro和Deep Think的模型选择选项。

最后，Claude在模型选择上做得相对简单。你可能想用Sonnet 4.5来处理所有事情，唯一的问题是是否选择“扩展思考”（extended thinking）（用于更难的问题）。目前，Claude还没有与GPT-5 Pro相对应的模型。

Claude界面的图片，显示了Sonnet 4.5的模型选择以及“扩展思考”的开关

如果你正在使用这些模型的任何付费版本，并希望确保你的数据永远不会被用来训练未来的AI，关闭替ChatGPT和Claude训练的功能也很简单，而且不会损失任何功用；但对Gemini来说，这样做会牺牲掉一些功能。所有的AI还带有一系列其他功能，比如“项目”和“记忆”，你可以在熟悉它们的过程中去探索。

获得更好的答案

AI最大的用途是提供实用指导和获取信息。对于这类问题，有两种方法可以显著提高结果的质量：一是触发“深度研究”模式，二是将AI连接到你自己的数据（如果你对此感到放心的话）。

“深度研究”是一种AI在回答前会进行10-15分钟广泛网络研究的模式。对大多数人来说，这是一个关键的AI功能，即便他们自己还没意识到。它很有用，因为它能生成质量非常高的报告，常常给我交流过的信息专业人士（律师、会计师、顾问、市场研究员）留下深刻印象。深度研究报告并非全无错误，但它们远比直接向AI提问要准确得多，而且引用的资料也往往是正确的。另外请注意，每种深度研究工具的工作方式略有不同，各有优劣。就算不开启深度研究，GPT-5 Thinking自己也会做大量的研究；而Claude有一个“中度研究”选项，你可以在打开网页搜索的同时不开启研究功能。

如何触发深度研究模式，以及如何将你的数据连接到Claude和ChatGPT，图片显示了在Claude和ChatGPT的AI界面中哪里可以找到“深度研究”的开关。

将AI连接到你自己的数据这一点非常强大，而且现在支持从Gmail到SharePoint等各种应用。我发现Claude在整合搜索电子邮件、日历、各种云盘等方面尤其出色——当你把它连接到你的账户后，你试着让它“给我一份今天的详细简报”，结果很可能会让你惊艳。这是AI公司正在投入大量精力的领域，相关功能也在迅速迭代。

多模态输入

我以前提到过，使用AI的一个简单方法是从语音模式开始。目前语音模式做得最好的是Gemini和ChatGPT的应用及网站。Claude的语音模式比另外两个要弱。请注意，语音模型是为聊天优化的（包括所有那些旨在让你感觉像在和真人交谈的微小停顿和吸气声），所以你无法通过这种方式使用那些更强大的模型。

所有的模型也都允许你向它们输入各种数据：你现在可以上传PDF、图片，甚至视频（ChatGPT和Gemini支持）。对于App版本，特别是ChatGPT和Gemini，一个很棒的功能是共享你的屏幕或摄像头。把你的手机对准一个坏掉的电器、一道数学题、你正在照着做的食谱，或者一个外语标识。AI能看到你所看到的，并实时作出回应。这让Siri和Alexa那些老派助手显得非常原始。

为你创作：图像、视频、代码和文档

Claude和ChatGPT现在可以制作高质量的PowerPoint和Excel文件（目前，Claude在这两种文档格式上处于领先，但这随时可能改变）。这三个系统也都能通过编写代码生成各种其他输出。要想让Gemini可靠地做到这一点，且希望系统运行代码或生成单独的输出，得选Canvas选项。Claude有一个专门的“产出物”(artifacts)区，用来展示可用代码做出的一些示例。这些模型各自也都提供了非常强大的专用编码工具，但那些工具过于复杂，本指南就不深入介绍了。

ChatGPT和Gemini也可以生图（Claude不能）。Gemini目前拥有最强的人工智能图像生成模型。Gemini（谷歌）和OpenAI的Veo 3.1和Sora 2上也拥有强大的视频生成能力。Sora 2的定位更像是一个社交媒体应用，可以把你植入到任何视频里面；而Veo 3.1的用途则更为广泛。它们生成的视频都带有声音。

熟悉我的人都知道，我测试任何AI图像或视频新模型的标准，是看它能否制作出“一只在飞机上使用Wi-Fi的水獭”。现在看来这已不再构成挑战。Sora 2可以制作自然纪录片风格……80年代音乐录影带风格……现代惊悚片风格……50年代低成本科幻片风格……飞行安全指南风格……黑色电影风格……日式动漫风格……90年代游戏过场动画风格……以及法国艺术电影风格的视频。

我已经预警过好几年，你真的不能再相信网上看到的任何东西了。请对所有视频持保留态度。顺便提醒一下，四年前，当你提示AI提供一张飞机上的水獭的图像时，你得到的是下面这个东西。世界变化太快了。

一张约2021年AI生成的“飞机上的水獭”图像，画面扭曲、荒诞，甚至有点吓人。

速成技巧

除了选择模型的基础知识外，还有一些经常出现的问题值得考虑：

幻觉：从很多方面来说，“幻觉”（即AI胡说八道）已远不像过去那样令人担忧，因为较新的AI模型在不产生幻觉方面做得更好了。不过，不管AI再怎么好，它仍然会犯错，仍然会在它出错的地方给你自信满满的答案。它们甚至会对自己的能力和行为产生幻觉。当答案来自高级模型，或者AI进行了网页搜索时，其正确的可能性会更高。请记住，AI并不知道它“为什么”要那么做，所以让它解释其逻辑是行不通的。不过，如果你发现了问题，AI模型的“思考轨迹”（thinking trace）可能会有所帮助。
“谄媚”与个性：所有的AI聊天机器人都变得越来越吸引人、越来越讨人喜欢。一方面，这让它们用起来更有趣；另一方面，这也带来了风险，即AI看起来像人但并不是人，这可能导致人们对AI产生更强烈的情感依恋。一个相关的问题是“谄媚”，即AI会附和你所说的话。这背后的原因很复杂，但当你需要真实反馈时，请明确告诉AI扮演批评者的角色。否则，你可能只是在和一个非常老练的“应声虫”对话。
给AI提供上下文。尽管“记忆”功能正在被添加进来，但大多数AI模型只知道基本的用户数据和当前聊天中的信息，除此之外，它们不会记住或学习关于你的任何事情。所以，你需要为AI提供上下文：文档、图片、PPT，甚至只是一段关于你自己的介绍性文字都会有帮助——随时使用文件选项上传文件和图片，或者用我们前面讨论过的“连接器”。
别太担心提示词写得“好不好”：老一代AI模型需要你用像“思维链”这样的技巧来生成提示词。但随着AI模型变得越来越好，这一点的重要性正在褪去，模型们越来越能搞清楚你到底想要什么。在我们最近的一系列实验中，我们发现这些技巧（平均而言）已经没什么用了（另外，威胁或善待模型，似乎也没什么帮助）。
去试，去玩：“玩”常常是了解AI能做什么的好方法。让视频或图像模型制作一部卡通片，让高级AI把你的报告或文章改编成一个游戏，就你感兴趣的主题做一份深度研究报告，让AI根据一张照片猜猜你来自哪里，给AI看一张你冰箱的照片并向它要点食谱建议，和AI一起策划一次梦幻之旅。大胆去尝试，你就会了解到这个系统的局限。

未来走向

我在本指南的开头提到，全球有10%的人每周都在使用AI。等到几个月后我写下一篇更新时，这个数字很可能会更高，模型会变得更好，而我今天提出的一些具体建议将会过时。但有一样东西不会变，那就是：那些学会了如何用好这些系统的人，将找到从中受益的方法，并为未来建立起直觉。

文章开头的那张图表显示了今天的人们用AI来做什么。但我敢打赌，两年后，那张图表看起来将截然不同。这不仅仅是因为AI能做的事情变了，更是因为用户们搞清楚了它“应该”做什么。所以，选一个系统，从一件对你真正重要的事情开始，比如一份你需要写的报告、一个你正试图解决的问题，或者一个你一直拖着没做的项目。然后，再去尝试一些荒唐的事情，只为看看会发生什么。我们的目标不是要成为AI专家，而是要建立起关于这些系统“能做什么”和“不能做什么”的直觉，因为随着这些工具的不断进化，这种直觉才是至关重要的。

AI的未来，不仅仅在于更好的模型，更在于人们搞清楚了该拿它们来做什么。

译者：boxi。

发布时间：2025-11-19 08:20

非客观人工智能使用指南