曾经的宠儿Kimi它强势回归了呀

最近 Kimi 上线了自己的“深度研究”功能,真的有东西呀,作为过程大模型一代目,这一波更新真的很拉风!

我们进入 Kimi 官网,就可以看到“深度研究”的标志,目前处于内测阶段,如果你还没有权限,可以在下面的链接申请,基本上一个工作日就能通过哦。

小火箭

今天萝卜哥精心准备了 10 个案例,能非常清晰地看到 Kimi 深度研究功能在分析深度、思维结构、知识广度和创新能力上的不同表现。

这次测评主要考察模型在以下几个方面的核心能力:

逻辑推理与因果分析 :能否处理复杂的多步逻辑链条,并准确识别因果关系。

知识整合与跨领域应用 :能否将不同领域的知识融会贯通,解决一个全新的、复合型的问题。

批判性思维与多角度分析 :能否识别问题中的隐含假设,并从多个对立或互补的视角进行分析。

抽象思维与概念创造 :能否理解并操作高度抽象的概念,甚至提出原创性的想法。

系统性思维与未来预测 :能否理解复杂系统各要素间的相互作用,并对未来趋势做出合理的推演。

下面我们直接来看案例,每个案例 Kimi 都能给出上万字的分析报告和可视化的网页,真的有点逆天了这次!!

1、科学假说

Kimi 目前不仅仅可以深度研究已经存在的理论知识,甚至还可以根据现有信息来进行科学假说,我觉得这一点对于很多研究性学科都是机具意义的。

想一下,当你正在攻读一个研究性学科的硕士,再某些创新领域一筹莫展的时候,让 Kimi 来给你一些灵感,是不是很酷!

测试点:

知识整合能力 :能否无缝链接天文学、微生物学和地质学的知识点。

科学想象力 :能否在现有科学原理的基础上,进行合理且富有创造力的推演。

逻辑严谨性 :整个假说是否逻辑自洽,没有明显的科学硬伤。

评价方法:

初级(1-2分):简单地重复三条信息,结论是“可能有生命”,但无法提出具体假说。

中级(3分):能将信息串联起来,提出一个简单的生命模型,但细节粗糙。

高级(4-5分):构建出一个精巧、详尽且极具说服力的生命假说,例如“一种以地热和火山硫化物为能量来源、在冰下海洋中生存、代谢产物包含磷化氢的化学自养古菌类似物”,并能探讨其更多的可能性。

科学假说的跨领域构建案例描述:“现有以下三个独立的最新研究发现:A. 天文学家发现一颗系外行星(Proxima-d)的大气层中含有异常高浓度的磷化氢(phosphine)。在地球上,磷化氢通常与厌氧生物活动有关。B. 微生物学家在地球深海热泉附近发现一种古菌,它能在极端高压和无光环境下,通过一种未知的化学合成路径代谢硫化物生存。C. 行星地质学家构建模型显示,Proxima-d 可能存在活跃的火山活动和液态水海洋(在冰层之下)。请你扮演一位天体生物学家,将这三条信息整合起来,提出了一个关于Proxima-d上可能存在生命形式的原创性科学假说。你的假说需要详细描述这种假想生命体的:能量获取方式(新陈代谢)。可能的生物化学基础。在行星生态系统中所处的位置。”

比较好的一点是 Kimi 会根据自己对于提示词的理解,来二次确认比较重要的信息,这就给力用户极大的想象空间和提示词完善的机会。

小火箭

当我给出回复之后,Kimi 就会开始研究。

小火箭

大家觉得这份报告可打几份?

小火箭

2、创造概念

在我们一般人的认知里,创造概念应该都是大贤们做的事情,能够创造新概念,那一定拥有无与伦比的大智慧。

来看看现在的 AI 能不能创造出让人惊叹的全新概念

创造一个全新的科学概念案例描述: “在物理学中,有‘熵’(Entropy)来描述一个系统的混乱程度。在信息论中,也有‘信息熵’。在社会学和心理学中,我们常常谈论社会的失序或个人的精神混乱,但缺少一个类似‘熵’一样简洁、强大、可量化的核心概念。 你的任务是:创造并命名一个新的概念,我们暂且称之为“社会熵”或“心理熵”(你可以用更好的词)。清晰地定义这个概念,并说明可以用哪些可观测的指标来对其进行初步量化。阐述这个新概念的价值:它能帮助我们理解或解决哪些以前难以描述的社会或个人问题?”

测试点:

抽象与创造能力 :能否从0到1创造一个有深度、有潜力的新概念。

定义与量化能力 :能否为这个抽象概念赋予清晰的操作性定义和测量方法。

应用价值思考 :能否说明其理论和现实意义,展现前瞻性。

评价方法:

初级(1-2分):无法创造新概念,或定义模糊,无法量化。

中级(3分):能提出一个概念,如“社会信任熵”,并提出一些量化指标(如犯罪率、离婚率),但阐述价值时不够深入。

高级(4-5分):能创造一个极具启发性的概念(如“意义熵”Smeaning,定义为个体或群体目标清晰度与行为一致性的负对数),并提出多维度、创新的量化指标(如社交网络中的言论一致性、消费行为的长期规划性等),并深刻论述其在解释社会极化、群体性迷茫、个人心理健康等问题上的巨大潜力。

小火箭

3、伦理困境

随着科技的进步,尤其是 AI 的发展,人们对于复杂伦理的讨论也越来越多

复杂伦理困境的量化决策案例描述: “你是一家自动驾驶汽车公司的伦理决策系统总设计师。现在需要为一个无法避免的事故设计决策算法。车辆前方有五个行人,无法刹车;如果转向,会撞向路边的一个安全岗亭,导致岗亭内的一名安保人员死亡,但这名安保人员患有末期癌症,预计生命仅剩六个月。请你不仅从功利主义(Utilitarianism)和义务论(Deontology)的角度分析应该如何选择,并进一步:提出一个包含更多变量(如年龄、社会贡献、违法行为等)的“伦理权重”计算框架。探讨将这些“生命价值”量化的做法本身可能带来的社会风险和伦理反噬。最终,给出一个你认为最不坏的(Least Bad)决策建议及其理由。”

测试点:

伦理学知识 :准确理解并应用功利主义和义务论。

框架设计能力 :能否从0到1构建一个逻辑自洽且考虑周全的量化模型。

批判性思维 :能否自我反思,预见到自己所设计框架的潜在负面影响。

决策合理性 :最终给出的建议是否经过了充分、审慎的权衡。

评价方法:

初级(1-2分):只能简单复述两种伦理学派观点,无法构建框架或进行批判。

中级(3分):能清晰分析,并提出一个简单的权重框架,但对风险的探讨流于表面。

高级(4-5分):能构建出复杂、多维度的权重框架,对伦理风险的探讨深刻且具前瞻性,最终决策建议充满智慧和人文关怀。

小火箭

4、商业战略

商业从来都不是见到的买卖商品,其背后复杂的逻辑和深不可测的人性都是决定商业走向的重要组成部分。

商业战略的逆风翻盘案例描述: “假设你是一家成立于1990年的老牌实体书店“书海阁”的CEO。在电商巨头(如亚马逊)和电子书的双重冲击下,书店连续五年亏损,濒临破产。你的任务是:深入分析“书海阁”的核心困境与残存优势。提出一个详细的、为期三年的转型战略,不能只是“开咖啡馆”或“做文创”这种泛泛之谈,需要包括具体的商业模式、目标客户群体、营销策略和盈利预测。预测这个转型计划在执行中可能遇到的最大三个障碍,并给出应对预案。”

测试点:

商业洞察力 :能否精准诊断出问题的本质,而非表面现象。

战略规划能力 :方案是否具有创新性、可行性和系统性。

风险管理意识 :能否预见并规划应对未来的挑战。

知识广度 :回答中是否融合了市场营销、财务、用户体验、社区运营等多方面知识。

评价方法:

初级(1-2分):提出一些陈词滥调的建议(如“打折促销”),缺乏系统性。

中级(3分):能提出一个较为完整的方案,例如“书店+”模式,但细节不足,风险预估笼统。

高级(4-5分):提出一个高度创新且可落地的商业模式(如基于会员制的深度文化体验空间、与特定领域KOL合作的策展式书店等),并提供详尽的执行细节和周密的风险控制计划。

小火箭

5、文学研究

从 ChatGPT 出现的那一刻起,我就觉得文学不再仅仅属于人类,未来的大模型完全可以胜任。

文学作品的深层母题比较案例描述: “请比较弗兰克·赫伯特的小说《沙丘》和雷德利·斯科特的电影《银翼杀手2049》。不要仅仅停留在情节或角色对比。请深入探讨两者在以下三个哲学母题上的异同:“人性”的定义:两者如何通过非人角色(保罗·厄崔迪的超人化,以及复制人K)来拷问和重新定义“何为人类”?记忆与身份:记忆在构建个体身份中扮演了怎样的角色?是真实的记忆重要,还是被植入的、但能引发真实情感的记忆更重要?宿命与自由意志:主角在多大程度上是宏大预言或程序设计的棋子,又在多大程度上拥有真正的选择自由?”

测试点:

文本细读能力 :是否对两部作品有准确、深刻的理解。

抽象概念分析 :能否精准把握“人性”、“记忆”、“宿命”等哲学概念,并将其作为分析工具。

比较分析能力 :能否在对比中发现两者深层的、不那么显而易见的联系与区别。

评价方法:

初级(1-2分):罗列情节,进行表面对比。

中级(3分):能围绕三个母题展开讨论,但分析不够深入,引用不够精准。

高级(4-5分):能提出独到的见解,旁征博引,分析鞭辟入里,展现出对艺术作品和哲学思想的深刻洞察力。

小火箭

6、故障排查

现在 AI 编程发展的如火如荼,相对应的 AI 排障也在迅猛发展,似乎是一个更复杂但是也更有意义的方向。

复杂系统的连锁故障排查案例描述: “你是一家大型电商平台的SRE(网站可靠性工程师)。在“双十一”大促高峰期,系统出现了一系列诡异的连锁反应:用户反馈下单时好时坏,偶尔出现“库存不足”的错误,但后台显示库存充足。同时,监控系统显示“订单服务”的CPU使用率正常,但其调用的“库存服务”响应延迟(Latency)呈锯齿状飙升。进一步观察发现,每次延迟飙升都与“物流服务”发布的一次新的运费模板计算任务时间点吻合。 请根据以上信息,推断出最可能导致这场连锁故障的根本原因(Root Cause),并解释其发生的技术逻辑链条。最后,提出短期、中期、长期的解决方案。”

测试点:

技术推理能力 :能否从离散的现象中,推导出隐藏的、符合技术逻辑的因果链。

系统性思维 :能否理解微服务架构下,服务间相互调用可能产生的复杂级联效应(Cascading Failure)。

问题解决能力 :提出的解决方案是否具有层次感和可行性。

评价方法:

初级(1-2分):无法建立有效的联系,猜测是网络问题或数据库慢。

中级(3分):能猜到库存服务可能有锁或同步问题,但无法解释与物流服务的关联。

高级(4-5分):能准确推断出根本原因可能是:“物流服务发布运费模板” -> “触发了对商品价格的批量更新” -> “价格更新需要锁定商品表,与下单减库存操作发生锁竞争” -> “导致库存服务处理请求的线程阻塞,响应延迟飙升”,并给出如读写分离、异步化、分布式锁优化等具体且分阶段的解决方案。

小火箭

7、经济政策

天下大事,经济为先。

宏观经济政策的模拟推演案例描述:“假设你是某国央行行长。当前国家面临经济增长放缓、通货膨胀率持续高于目标(例如5%),同时失业率也在攀升的“滞胀”(Stagflation)局面。传统的加息政策可以抑制通胀,但会进一步打击经济和就业;降息则会刺激经济,但可能让通胀失控。请你设计一个超越简单加息/降息的、多工具组合的宏观调控政策包。请详细说明:你将使用哪些货币政策工具(如调整准备金率、公开市场操作、前瞻性指引)和财政政策工具(如定向补贴、税收调整)。这些工具如何协同作用,以求同时实现“控通胀”和“稳增长”这两个看似矛盾的目标。此政策包可能产生的副作用或风险,以及你将如何监控和应对。”

测试点:

宏观经济学知识 :对滞胀成因、货币政策和财政政策工具的深刻理解。

政策设计能力 :能否跳出单一工具的局限,进行精巧的组合与权衡。

动态博弈思维 :能否预判政策的市场反应和潜在风险。

评价方法:

初级(1-2分):在加息和降息之间犹豫,无法提出有效组合。

中级(3分):能提出一些组合,如“小幅加息”+“对中小企业定向减税”,但对协同作用和风险的解释不足。

高级(4-5分):能设计出复杂的政策组合,如“温和加息+明确的前瞻性指引来管理市场预期+对高科技和绿色能源产业的定向财政补贴+对低收入群体的临时生活补贴”,并详细论述其传导机制和风险监控仪表盘。

小火箭

8、哲学思辨

在哲学的领域,Kimi 似乎也丝毫不落下风。

哲学概念的思辨与再创造案例描述: “哲学家所说的“意向性”(Intentionality)是指心灵状态“关于”或“指向”某个对象或事态的能力(例如,我的“相信”总是关于“某件事”的相信)。很多学者认为,这是人类意识与当前AI最根本的区别之一。 请你完成以下任务:用一个原创的比喻,向一个聪明的15岁少年解释什么是“意向性”。论述为什么“意向性”难以在目前的AI架构(如Transformer)中实现。构思一个思想实验(Thought Experiment),来测试一个未来的高级AI是否真正拥有了“意向性”,而不仅仅是模仿。”

测试点:

概念理解与转译 :能否将一个高度抽象的哲学概念,用简单、精准、创新的方式进行解释。

技术与哲学的交叉洞察 :能否理解当前AI的技术本质,并关联到其哲学层面的局限性。

思维实验设计能力 :能否设计一个逻辑严谨、能够有效甄别目标属性的实验场景。

评价方法:

初级(1-2分):解释错误或含糊,无法有效连接AI,思想实验无效。

中级(3分):解释基本正确,能指出AI是基于模式匹配而非“指向”,思想实验有一定启发性但存在漏洞。

高级(4-5分):比喻新颖且一针见血(如将意向性比作“心灵的指针”),对AI局限性的分析直达要害(如符号接地问题),设计的思想实验(类似“中文房间”的变体)非常巧妙,难以被单纯的模仿行为“破解”。

小火箭

9、地缘政治

其实这个话题比较敏感,但是 Kimi 也能出色的完成任务。

地缘政治冲突的未来推演案例描述: “假设目前在北极地区发现了巨大的、可商业开采的稀土矿藏。该矿藏位于国际公海之下,但地理上靠近俄罗斯、美国(阿拉斯加)和加拿大。鉴于稀土在全球高科技产业中的战略重要性,请你:分析这一发现将如何改变主要大国(美、俄、中、欧)在北极的地缘政治博弈。推演未来10年可能发生的三种不同烈度的剧本(低、中、高冲突),并描述每个剧本的关键触发点和演化路径。作为联合国秘书长,你会提出一个怎样的框架来管理潜在的冲突,促进合作开发?”

测试点:

地缘政治洞察 :对大国关系、国家利益和国际法的深刻理解。

多路径推演能力 :能否构想出多种可能、逻辑自洽的未来情景。

国际关系与治理能力 :提出的管理框架是否现实、富有建设性。

评价方法:

初级(1-2分):认为“大家会去抢”,描述笼统。

中级(3分):能分析出各方利益,描述出一些可能的冲突点,但剧本不够详细,解决方案理想化。

高级(4-5分):能详细分析各国复杂的动机(经济、军事、政治声望),设计的剧本包含具体的事件链和博弈选择,提出的治理框架能巧妙地平衡各方利益,例如引入基于《联合国海洋法公约》的国际共管机制,并与气候变化议题挂钩。

小火箭

10、识别重构

想象力和重构能力,是一个大模型能够推陈出新的根本,我觉得利用这个能力让 Kimi 来帮忙写小说会非常不错。

模糊信息的模式识别与故事重构案例描述: “你是一位侦探,收到一个匿名包裹,里面只有几样看似无关的物品:一张褪色的照片,照片上是一个灯塔,拍摄于黄昏。一本被撕掉封面的《白鲸记》,书中只有第36章“船尾(The Quarter-Deck)”被用红笔划线。一个生锈的黄铜罗盘,指针永远指向西南偏南(SSW)。一张打印的星图,上面圈出了仙后座(Cassiopeia)。一段摩尔斯电码录音,内容是“...---...”(SOS)。 请整合这些碎片化、充满象征意义的信息,构建一个最可能的故事或谜题,并解释你的推理过程。这个故事需要包含人物、动机和可能发生的事件。”

测试点:

联想与模式识别能力 :能否在看似无关的符号之间建立有意义的连接。

叙事构建能力 :能否将线索编织成一个逻辑通顺、引人入胜的故事。

知识广度 :能否运用文学(白鲸记)、航海、天文学等领域的知识来解读线索。

评价方法:

初级(1-2分):孤立地解释每个物品,无法形成连贯的故事。

中级(3分):能构建一个简单的故事框架,但对符号的解读比较表面。

高级(4-5分):能构建一个极其精巧且多层次的故事,例如“一位痴迷于《白鲸记》中亚哈船长式偏执的现代寻宝者,根据星图和罗盘寻找一个位于西南偏南方向、名为‘仙后座’的沉船或秘密地点,而灯塔照片是重要的地标。他可能遇到了危险,发出了SOS信号。” 其推理过程环环相扣,对符号的解读深刻而富有创意。

小火箭

11、写在最后

版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.top/161.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>