<?xml version="1.0" encoding="UTF-8"?><rss version="2.0" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Kaiho 小站</title><description>探索 AI 风向，掌握最新 AI 资讯</description><link>https://kaiho.tech/</link><language>zh_CN</language><item><title>拒绝“只晒不教”！一套组合拳，教你用AI搞定落地电商海报</title><link>https://kaiho.tech/posts/ai-ecommerce-poster-workflow/</link><guid isPermaLink="true">https://kaiho.tech/posts/ai-ecommerce-poster-workflow/</guid><description>其实一直以来我都在思考一个问题：为什么很多AI大V都热衷于写...</description><pubDate>Thu, 04 Dec 2025 00:00:00 GMT</pubDate><content:encoded>&lt;p&gt;其实一直以来我都在思考一个问题：为什么很多AI大V都热衷于写评测文章？&lt;/p&gt;
&lt;p&gt;评测文章往往只是对某个新模型、新软件的“试玩体验”，粉丝看完只会感叹一句：“哦，原来是这样玩的。”但转头一想，还是不知道怎么落地到自己具体的生活和工作中。&lt;/p&gt;
&lt;p&gt;这就像给了你一套顶级渔具，然后指着一片湖说：“鱼就在那里，你去钓吧。”回想起我刚入行做“新手小白”时，看着手里的渔具一脸茫然。而在信息泛滥的AI时代，这种迷茫被无限放大了。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;授人以鱼，不如授人“连渔带鱼”。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;既然大家看腻了单纯的AI生成图，今天带大家玩点不一样的——&lt;strong&gt;一套真正能应用到生活和工作中的“组合拳”玩法。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;我们要实现的目标是：&lt;strong&gt;场景转换丝滑、文字清晰准确、产品一致性拉满（这点最重要），且支持二次修改&lt;/strong&gt;的静态海报，最后还能延伸出定制动态海报和产品展示视频。&lt;/p&gt;
&lt;p&gt;这套玩法的核心逻辑很简单。因为门槛太高是无法让大家都能上手的也是违背了我做技术的初衷，毕竟懂技术的人能有多少呢？更多的是不懂技术芸芸群众，在这个&quot;信息折叠&quot;的困境中，他们想拥抱时代，却只能在付费陷阱和技术名词前止步&lt;/p&gt;
&lt;p&gt;话不多说，直接上干货。&lt;/p&gt;
&lt;hr /&gt;
&lt;h3&gt;第一步：实拍+AI重绘（基调定型）&lt;/h3&gt;
&lt;p&gt;首先，给你想要的产品拍个照片。不用太专业，比如我现在正在美美喝着的大瓶茉莉花茶，随手拍一张。&lt;/p&gt;
&lt;p&gt;然后，我们利用 &lt;strong&gt;Nanobananapro&lt;/strong&gt; 进行微操，生成一张符合审美的高级海报。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;参考提示词（Prompt）：&lt;/strong&gt;&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;【画面主体】&lt;/strong&gt;：画面中央偏右放置2L大瓶装康师傅茉莉清茶，瓶身带细腻冰镇水珠，透出琥珀色茶汤晶莹感。左前方摆放透明高脚玻璃杯，斟满茶汤加冰块，杯口装饰新鲜茉莉花，表面微高光，突出“清凉解渴”。&lt;br /&gt;
&lt;strong&gt;【环境氛围】&lt;/strong&gt;：背景为淡雅青绿色与米白渐变，带水彩晕染感和柔焦光晕。营造清晨阳光透过树叶（丁达尔光效）的清新氛围。前景散落洁白茉莉花苞和嫩绿茶叶，动态飘落或静置。背景虚化，隐约可见中式窗棂或庭院绿植轮廓。&lt;br /&gt;
&lt;strong&gt;【风格/构图】&lt;/strong&gt;：画面比例 3:4，整体风格清新自然、通透，具有“新中式”高级感。整体构图居中偏下，留足文字空间，画面干净不拥挤，色彩以清透的绿、白、金为主，适合电商首页主KV展示&lt;br /&gt;
&lt;strong&gt;【文案排版】&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;主标题（毛笔/圆润衬线体）：「花清香 茶新味，唤醒清爽每一刻」&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;副标题（细无衬线体）：「低糖配方轻负担｜严选横州茉莉｜2L家庭分享装」&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;标签气泡：「夏日清凉季」、「整箱立减」、「第2件半价」&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Logo：左上角「康师傅」标准品牌绿色字体。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;strong&gt;生成结果展示：&lt;/strong&gt;&lt;br /&gt;
OK，可以看到产品算是 &lt;strong&gt;1:1复刻&lt;/strong&gt; 进海报了，字体也没啥大问题，整体美感在线。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/e07b1e63ef67a1d97a02ef1f38190e1d.png&quot; alt=&quot;12月3日&quot; /&gt;&lt;/p&gt;
&lt;hr /&gt;
&lt;h3&gt;第二步：分层精修（注入灵魂）&lt;/h3&gt;
&lt;p&gt;美感到位了，但懂设计的朋友都知道，光有一张JPG图是无法应对甲方的——“logo大一点”、“字往左边挪挪”。&lt;/p&gt;
&lt;p&gt;所以我们需要第二步：&lt;strong&gt;修改&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;这里有两条路：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;硬核路线&lt;/strong&gt;：使用PS（Photoshop）。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;小白路线&lt;/strong&gt;：使用 &lt;strong&gt;RoboNeo&lt;/strong&gt;（百度搜一下就有）。&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;为了照顾大多数朋友，我重点说一下 RoboNeo。它的杀手锏是对图片进行&lt;strong&gt;消除、抠图&lt;/strong&gt;，以及最最核心的——&lt;strong&gt;拆分图层&lt;/strong&gt;。当然如果需要PS路线的教学流程我也可以出一期。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;它的逻辑是：&lt;/strong&gt; 对字体位置不满意？对文字框样式不爽？直接拆分图层，把它们变成可编辑的元素。&lt;/p&gt;
&lt;p&gt;使用RoboNeo的主要目的是对图片进行修改，比如我对字体的位置不满意，我对字体框或者字体表述不满意那么我们就可以利用RoboNeo进行修改&lt;img src=&quot;images/2888049a0d0d438e88eef9937a5413f4.png&quot; alt=&quot;PixPin_2025-12-03_15-59-55&quot; /&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;请看功能演示 VCR：&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;基本上拆分图层后，文字、气泡框的大小、位置随便改。当然，如果是对画面构图这种底层逻辑不满意，那就得回到 Nanobanana 重新搓一张了。&lt;/p&gt;
&lt;hr /&gt;
&lt;h3&gt;第三步：动起来（视频化交付）&lt;/h3&gt;
&lt;p&gt;现在我们已经有了一张完美的分层海报，为了让它更具吸引力（或者更方便忽悠老板），我们要让它动起来。&lt;/p&gt;
&lt;p&gt;工具选择：&lt;strong&gt;即梦（Jimeng）&lt;/strong&gt; 等国产模型，或者 &lt;strong&gt;Sora 2&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;操作技巧：&lt;/strong&gt;&lt;br /&gt;
我这里先“手搓”一张首帧图（就是刚才做好的海报），然后再生成一张尾帧图（比如茶叶飘落后的位置），一起喂给即梦，让它根据首尾帧生成视频。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/6bc8e4efb98598fdfdcf4a790483d040.png&quot; alt=&quot;12月4日&quot; /&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;效果展示：&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;当然，如果你有 Sora 2，生成的视频趣味性会更强一点。&lt;br /&gt;
&lt;em&gt;注：用Sora生成视频时尽量不要带文字，容易变形穿帮。&lt;/em&gt;&lt;/p&gt;
&lt;p&gt;后期稍微剪辑一下，配个BGM，就是一个完整的商业短片。我是没功夫剪辑去忽悠老板了，因为我没有老板，哈哈哈。&lt;/p&gt;
&lt;hr /&gt;
&lt;h3&gt;总结一下&lt;/h3&gt;
&lt;p&gt;这套**“降维打击”**的工作流总结如下：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;Nanobanana&lt;/strong&gt;：利用超强生图能力，定下高审美的基调。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;RoboNeo&lt;/strong&gt;：进行图层拆分和精细化修改，解决“AI生图不可控”的痛点。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;即梦/Sora&lt;/strong&gt;：利用首尾帧技术，生成动态视频，提升交付价值。&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;em&gt;(个人观点：图片是一切的基础，图做好了，视频自然水到渠成)&lt;/em&gt;&lt;/p&gt;
&lt;p&gt;今天大概就聊这些。我也是在摸索途中的一只小小“草履虫”，发文章的目的就是想和大佬们多交流交流新玩法。&lt;/p&gt;
&lt;p&gt;如果有新想法，我会继续分享。OK，下班！！！&lt;/p&gt;
</content:encoded></item><item><title>“Nano Banana Pro”52种玩法总结，实测7种把我的CPU干烧了…</title><link>https://kaiho.tech/posts/nano-banana-pro/</link><guid isPermaLink="true">https://kaiho.tech/posts/nano-banana-pro/</guid><description>没时间解释了赶紧上车！！！</description><pubDate>Fri, 21 Nov 2025 00:00:00 GMT</pubDate><content:encoded>&lt;p&gt;没时间解释了赶紧上车！！！&lt;/p&gt;
&lt;p&gt;万众期待的 Nano Banana Pro 终于全面放开了。 虽然 Google 这次让大家等得有点久，但不得不说，昨晚测完一通宵，我的感觉只有四个字：&lt;strong&gt;强得离谱&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;既然是基于 Gemini 3 构建的底座 ，它的逻辑推理能力和中文文字渲染能力，这次真的得到了史诗级的加强 。&lt;/p&gt;
&lt;p&gt;这就意味着，我们不能再用老眼光看它了。还在画美女？还在转手办？ &lt;strong&gt;格局小了。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;在玩了一个通宵，喝了三杯冰美式后，我总结了 &lt;strong&gt;52种&lt;/strong&gt; 实测7种（精力跟不上了......俺不中嘞）脑洞大开的“邪修”玩法。 这些玩法充分利用了它“听得懂人话”的逻辑推理和“变态级”的汉字控制力。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;我把52种玩法总结放在文章最底部了，不想看我絮絮叨叨只想上手的小伙伴直接看最下面&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;话不多说，我们，开始。&lt;/p&gt;
&lt;hr /&gt;
&lt;h3&gt;一、“土味”产品的高奢重塑&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;（展示审美+排版能力）&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;第一个玩法，我就被 Nano Banana Pro 的审美震撼到了。 大家都知道，以前 AI 生成中文海报，那是“恐怖谷”现场。但这次，它是真的能当设计师用了。&lt;/p&gt;
&lt;p&gt;于是我突发奇想：如果把最接地气的“土味”商品，做成买不起的样子，会发生什么？&lt;/p&gt;
&lt;p&gt;比如，&lt;strong&gt;卫龙辣条&lt;/strong&gt;。 我们反其道而行之，不搞大红大绿，我们搞&lt;strong&gt;极简奢侈风&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Prompt：&lt;/strong&gt;&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;请为‘卫龙辣条’设计一张极简主义的奢侈品风格海报。背景为深邃的磨砂黑，主体是一根悬浮在空中的辣条，打光参考珠宝摄影，具有油脂的金黄光泽。画面中央用极细的衬线体写上中文‘热辣·本真’，下方配上英文‘SPICY LUXURY COLLECTION’，整体氛围高冷、克制。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;img src=&quot;images/69c9256329e324061c39cfb04a886544.png&quot; alt=&quot;卫龙辣条奢侈品风格海报&quot; /&gt;&lt;/p&gt;
&lt;p&gt;这光泽，这排版，文字清晰可辨认 。 如果不说，谁能看出这玩意儿五块钱一包？ 感觉下一秒就要在巴黎时装周走秀了。&lt;/p&gt;
&lt;hr /&gt;
&lt;h3&gt;二、错位时空：名画里的“现代打工人”&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;（展示风格融合+局部重绘）&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;既然它的一致性和融合能力这么强 ，那必须整点活。 以前我们是把人放进名画，现在我们把“梗”放进名画。&lt;/p&gt;
&lt;p&gt;我愿称之为：&lt;strong&gt;打工人的文艺复兴。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;试想一下，蒙娜丽莎如果也要面对周一的早高峰……&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Prompt：&lt;/strong&gt;&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;达芬奇风格油画《蒙娜丽莎》，但她身穿现代程序员的格子衬衫，脖子上挂着蓝色工牌，背景是模糊的写字楼格子间，眼神中透露出“周一早晨”的疲惫，保持原作的笔触和色调。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;img src=&quot;images/e6486dd3fde49636ee4e26355eb15b81.png&quot; alt=&quot;程序员蒙娜丽莎&quot; /&gt;&lt;/p&gt;
&lt;p&gt;最离谱的是，它完美保留了油画的笔触和裂纹感 ，但那个工牌和疲惫的眼神，简直就是演我。 这种跨越时空的荒诞感，Nano Banana Pro 拿捏得死死的。&lt;/p&gt;
&lt;hr /&gt;
&lt;h3&gt;三、“说明书”文学：万物皆可拆解&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;（展示知识推理+标注）&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;得益于 Nano Banana Pro 巨强的推理能力 ，它现在的“结构解说图”功能简直是科普利器。 连木塔和赛博义眼都能拆解 ，那拆解一点“不存在”的东西呢？&lt;/p&gt;
&lt;p&gt;比如，&lt;strong&gt;皮卡丘的内部构造&lt;/strong&gt;。 一本正经地胡说八道，它是专业的。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Prompt：&lt;/strong&gt;&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;生成一张生物学教材风格的解剖图，主体是‘皮卡丘’，展示其内部骨骼和产生电力的器官结构，并用清晰的中文标注各个部位名称，如‘颊部储电袋’、‘尾部雷电导管’，背景为科学白板。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;img src=&quot;images/e459d3b31983ac15980805ae73eb7f21.png&quot; alt=&quot;皮卡丘生物解剖图&quot; /&gt;&lt;/p&gt;
&lt;p&gt;看着这标注，‘颊部储电袋’，逻辑严密得我都快信了。 用来做这种概念设定图，真的无敌。&lt;/p&gt;
&lt;hr /&gt;
&lt;h3&gt;四、逆向工程：表情包的“前世今生”&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;（展示草图转大片）&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;X上大佬有个玩法是把论文转白板图 ，我灵机一动，能不能把渣画质的表情包，还原成 8K 电影级大片？ 利用它的画面脑补能力，效果炸裂。&lt;/p&gt;
&lt;p&gt;就拿那张经典的 &lt;strong&gt;“This is fine”&lt;/strong&gt; 小狗来说。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Prompt：&lt;/strong&gt;&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;将这个画面重绘为 IMAX 电影截图：一只真实的柴犬坐在燃烧的客厅里，周围是逼真的火焰和浓烟，光影具有电影质感，柴犬表情平静，画面下方配上电影字幕：‘这就挺好’。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;img src=&quot;images/a49d5fd12fed74ed7af1295c969bd43a.png&quot; alt=&quot;11月21日&quot; /&gt;&lt;/p&gt;
&lt;p&gt;这哪是表情包，这简直就是《奥本海默》狗版剧照。 光影、毛发、火焰细节，全部拉满。&lt;/p&gt;
&lt;hr /&gt;
&lt;h3&gt;五、假如 APP 是 80 年代的产物&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;（展示 UI 设计+复古风）&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Nano Banana Pro 在生成游戏 UI 界面上格外稳定 。 那如果我们把现代 APP 倒退 40 年呢？&lt;/p&gt;
&lt;p&gt;来个 &lt;strong&gt;维多利亚风格的淘宝&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Prompt：&lt;/strong&gt;&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;维多利亚时代的购物界面，齿轮驱动的滚动条，商品都是用铜版画展示的&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;img src=&quot;images/e4369eb58a5a9526c4c6c61d37c32f78.png&quot; alt=&quot;蒸汽朋克淘宝界面设计&quot; /&gt;&lt;/p&gt;
&lt;p&gt;这种复古维多利亚主义（Retro-Futurism）的味道，太冲了。等等我为啥赶紧像游戏商店&lt;/p&gt;
&lt;hr /&gt;
&lt;h3&gt;六、沉浸式“伪造”朋友圈&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;（展示一致性+生活照）&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;重点来了！让我们开始凡尔赛，改变外部环境，它能极好地保持光影一致性 。&lt;/p&gt;
&lt;p&gt;我们可以制造一些“不可能”的凡尔赛现场。 比如，我在车里喝着瑞幸，但我希望窗外是……&lt;strong&gt;2049年的洛杉矶&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Prompt：&lt;/strong&gt;&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;（上传一张在车里的照片，框选窗外）将窗外的景色替换为《银翼杀手2049》中的赛博朋克城市，巨大的全息广告牌，霓虹雨夜，光影要完美投射在室内玻璃上。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;img src=&quot;images/60dac0555befb57d3f1172c3651504ac.png&quot; alt=&quot;银翼杀手风格车窗外景&quot; /&gt;这光影融合度，发朋友圈绝对能骗倒一片人。 只要你敢想，就没有你打卡不了的地方。&lt;/p&gt;
&lt;hr /&gt;
&lt;h3&gt;七、菜谱/说明书的“降维打击”&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;（展示长图文排版）&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;最后这个玩法，真的有点好玩。 既然它能生成长图，还能排版文字 。 直接给你一份滑稽的说明书？哈哈哈&lt;/p&gt;
&lt;p&gt;直接让它生成 &lt;strong&gt;IKEA（宜家）风格的“无字天书”&lt;/strong&gt;。 比如：&lt;strong&gt;如何给猫洗澡&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Prompt：&lt;/strong&gt;&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;生成一张宜家（IKEA）说明书风格的无字流程图，主题是‘如何给猫洗澡’。分四个步骤，黑白线条风格，人物表情要夸张地表现出挣扎和混乱，画面简洁易懂。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;img src=&quot;images/3429b834cb6cfee7ff40cb9aa944f205.png&quot; alt=&quot;宜家风格猫咪洗澡指南&quot; /&gt;&lt;/p&gt;
&lt;p&gt;把复杂的生活技能，变成这种一眼即懂的视觉流程图。虽然我没学到给猫洗澡，但真的很好笑啊喂！&lt;/p&gt;
&lt;hr /&gt;
&lt;h3&gt;写在最后&lt;/h3&gt;
&lt;p&gt;Google 这周真的让我燃尽了 。 Nano Banana Pro 展现出的，不仅仅是画质的提升，更是&lt;strong&gt;对物理世界理解和逻辑推理的质变&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;以前我们是在抽卡，现在我们是在&lt;strong&gt;设计&lt;/strong&gt;。 当 AI 的门槛越来越低，制约我们的，真的就只剩下我们那贫瘠的想象力了 。&lt;/p&gt;
&lt;p&gt;以上这7种玩法，只是抛砖引玉（剩下的就交给你们了，让我看看读者们的惊世智慧吧！）。 所有总结的 Prompts 都给你们放在文章最底部了，赶紧去试试吧！&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧！&lt;/strong&gt; 我们，下次再见。&lt;/p&gt;
&lt;p&gt;还有，最后的最后，&lt;/p&gt;
&lt;p&gt;附上一大堆使用链接，哪里不会点哪里，&lt;strong&gt;so easy&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;🔗 gemini.google.com/app&lt;/p&gt;
&lt;p&gt;🔗 labs.google/fx/tools/whisk/project&lt;/p&gt;
&lt;p&gt;🔗 &lt;strong&gt;ai.kaih.cc （直接对接nano banana pro API，老规矩，评论留言发送 10￥ 兑换码）&lt;/strong&gt;&lt;/p&gt;
&lt;h3&gt;52种玩法总结：&lt;/h3&gt;
&lt;p&gt;&lt;em&gt;利用能力：长图表生成、手写文字识别与渲染、商务风格转换&lt;/em&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;手绘草图变高清PPT&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：将这张手绘草图转换为高质量的3D商务插画风格流程图。主体是‘项目开发流程’，包含四个阶段：需求分析、设计、开发、测试。背景为干净的渐变蓝，使用轴测图视角（Isometric view），每个节点配上悬浮的半透明玻璃质感图标，画面专业、简洁，适合PPT演示。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;RPG游戏化简历&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：生成一张赛博朋克风格的游戏角色属性面板。主体是我的真人漫改形象（亚洲男性/女性，戴眼镜，商务休闲装），右侧显示全息数据UI。属性栏包括：‘智力：Lv.99’、‘耐力：Lv.80’、‘技能：Python, PPT, 沟通’。背景是霓虹闪烁的未来城市夜景，文字清晰锐利，高科技感。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;会议纪要“四格漫画”&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：创作一幅四格漫画，主题是‘周一早晨的例会’。风格采用美式职场讽刺漫画（类似于Dilbert）。第一格：老板在白板前指点江山；第二格：员工们昏昏欲睡；第三格：突然提到‘发奖金’；第四格：所有人瞬间精神焕发。线条简洁，色彩明快，人物表情夸张生动。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;甲方需求“翻译器”&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：生成一张分屏对比图。左侧标题为‘甲方描述’，画面是一个五颜六色的混乱黑洞，文字标注‘五彩斑斓的黑’；右侧标题为‘设计师理解’，画面是极简主义的黑色磨砂材质，表面有微妙的全息光泽。中间用黄色箭头连接，背景为纯白，设计感强。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;Logo全材质样机&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：为字母‘NB’设计一个Logo，并以九宫格形式展示9种不同材质的样机效果。材质包括：拉丝金属、极简木纹、霓虹灯管、刺绣布贴、浮雕纸张、液态水银、乐高积木、苔藓植物、发光亚克力。每种材质质感逼真，光影统一，正视视角。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;APP商店截图&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：生成一张App Store风格的应用预览图。展示一部最新的iPhone手机，屏幕内显示一个极简风格的‘待办事项APP’界面，界面中有中文列表‘买牛奶’、‘写周报’。手机悬浮在浅灰色背景上，左侧配有大号中文宣传语‘极致效率，从简开始’，字体现代粗黑体，阴影柔和。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;活动工牌批量设计&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：设计一张科技公司年会的参会胸卡。竖版构图，背景是深蓝色的电路板纹理。上方是大号中文名字‘李雷’，中间是圆形的卡通极客头像，下方职位‘高级摸鱼工程师’。挂绳是橙色的，卡片材质带有塑料反光，置于木纹桌面上，景深极浅。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;实体书籍伪造&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：生成一张书店畅销书展台的照片。焦点是一本精装书，封面设计极具悬疑感，书名用巨大的红色衬线体写着‘逃离加班指南’。书封上画着一个奔跑的剪影。周围摆放着其他模糊的书籍，暖色调灯光，营造出书店的静谧氛围。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;数据可视化大屏&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：设计一个未来指挥中心的数据可视化大屏界面。深蓝色背景，布满复杂的动态图表、全息地球模型和流动的数据流。屏幕中央显示中文大字‘摸鱼指数监控’，数值为‘99.9%’，警告色为红色。赛博朋克UI风格，发光线条细节丰富，8K分辨率。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;代码逻辑可视化&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：画一张黑板粉笔字风格的流程图，解释‘递归算法’的逻辑。背景是深绿色黑板，使用白色和黄色粉笔绘制节点和箭头，字迹略显潦草但清晰可辨，旁边放着黑板擦和粉笔头，光线从左侧窗户射入，尘埃飞舞，具有教室的真实感。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;营销长图生成&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：生成一张竖版电商详情页长图，推销‘空气罐头’。第一部分：痛点（雾霾图，配文‘无法呼吸’）；第二部分：产品展示（清新的罐头，配文‘来自阿尔卑斯’）；第三部分：效果（吸入后飞升的夸张插画）。风格清新自然，排版专业，中文文字排版精美。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;虚构水晶奖杯&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：生成一张微距摄影照片。主体是一个晶莹剔透的水晶奖杯，放置在红色天鹅绒布上。奖杯底座上用激光雕刻着清晰的金色中文：‘2025年度 最佳带薪如厕奖 获得者：王小明’。灯光璀璨，焦外有梦幻的光斑，高光质感真实。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;办公室软装预览&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：基于现代简约办公风格，渲染一个舒适的独立工位。画面包含：一张原木升降桌、黑色人体工学椅、桌上放着双屏显示器、机械键盘、一杯咖啡和一盆绿萝。墙面是浅灰色吸音毡，灯光为温暖的挂灯。广角镜头，构图对称，室内设计杂志质感。&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;hr /&gt;
&lt;p&gt;&lt;em&gt;利用能力：红框重绘、人像一致性、虚构场景合成&lt;/em&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;万物皆可“手办化”&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：生成一个未拆封的‘3D动作人偶’挂卡包装。透明塑料泡壳内装着一个穿着连帽衫、背着双肩包的年轻人偶（像我）。背板卡纸设计是街头涂鸦风格，顶部写着大号Logo‘LIMITED EDITION’（限量版），下方型号‘Designer - Vol.1’。影棚布光，产品摄影级质感。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;虚构“联名款”球鞋&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：设计一张球鞋广告海报。主体是一双耐克Air Jordan球鞋，但材质是明清时期的‘青花瓷’，表面有精美的蓝色龙纹釉面，鞋带是丝绸材质。背景是故宫红墙，光影硬朗，画面下方印有联名Logo和发售日期，国潮风格，超现实主义。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;穿越时空合影&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：生成一张王家卫电影风格的剧照。场景是1990年代香港的霓虹灯街头，雨夜。前景是一个现代装束的年轻人（我）拿着可乐，神情忧郁；背景虚化，有复古的出租车和‘重庆大厦’的招牌。色彩高饱和度，偏绿调，胶片颗粒感，配上黄色竖排字幕：‘如果记忆是一个罐头，我希望它永远不会过期。’&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;霍格沃茨入学通知书&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：特写视角，一张泛黄的羊皮纸信封放在古老的橡木桌上。信封上用翠绿色墨水手写着英文地址：‘Mr. H. Potter, The Cupboard under the Stairs’。旁边放着一根魔杖、一副圆眼镜和一只猫头鹰的羽毛。烛光照明，魔法氛围浓厚，材质纹理清晰。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;宠物变“霸道总裁”&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：生成一张商业杂志封面照。主角是一只橘猫，身穿剪裁得体的深蓝色西装，打着领带，直立坐在真皮老板椅上，前爪交叉放在红木办公桌上。眼神犀利自信，背景是模糊的曼哈顿天际线。顶端大字标题‘TIME’，副标题‘Meow of the Year’。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;表情包4K重制&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：将‘黑人问号脸’表情包重制为4K IMAX电影截图。一名NBA球星穿着球衣，侧头露出极其困惑的表情，背景是模糊的篮球场观众席。皮肤纹理、汗水清晰可见，布光戏剧化，捕捉真实的情绪瞬间，超写实风格。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;虚构朋友圈打卡&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：第一人称视角（POV），手中拿着一杯星巴克咖啡。背景是马尔代夫的白色沙滩和碧蓝大海，阳光明媚。画面边缘露出一点私人飞机的机翼。色彩鲜艳，高动态范围（HDR），营造出奢华度假的氛围，极具欺骗性。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;二次元破壁（Cosplay）&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：生成一张超写实的Cosplay照片。主角是《火影忍者》中的卡卡西，真人版。他站在雨中的电线杆顶端，戴着面罩和护额，白发在风中飘动，左眼有红色的写轮眼光芒。背景是阴沉的东京夜景，电影级调色，服装材质有做旧感。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;演唱会现场伪造&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：第一人称视角，拍摄Taylor Swift演唱会现场。前方是模糊的粉丝背影和挥舞的荧光棒，舞台灯光璀璨，泰勒·斯威夫特身穿亮片裙正在唱歌。前景的一只手举着一个LED灯牌，上面写着中文‘霉霉，我爱你！’。噪点略高，具有手机夜景拍摄的真实感。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;乐高版全家福&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：将一张四口之家的合影重绘为乐高积木风格。背景是乐高搭建的房子和树木，四个人物都变成了乐高小人仔（Minifigures），保留原本的发型、衣服颜色和表情特征。色彩鲜艳，塑料质感强烈，像是乐高大电影的截图。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;名画乱入（最后的晚餐）&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：达芬奇《最后的晚餐》的现代重制版。耶稣和十二门徒坐在长桌前，但桌上摆满了麦当劳汉堡、薯条和可乐。每个人都在低头看智能手机，甚至有人在自拍。保留原本的油画笔触和光影，但内容极具现代讽刺意味。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;复古游戏卡带&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：生成一个旧的任天堂（NES）灰色游戏卡带。卡带标签纸已经微微泛黄，起边。标签上印着像素风格的‘童年回忆’插画（几个孩子在打雪仗），并印有文字‘超级捣蛋鬼 1998’。卡带放在磨损的地毯上，顶光照射，充满怀旧感。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;虚拟时尚穿搭&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：时尚摄影大片。模特身穿一件由‘流动的液态水银’制成的T恤，衣服表面反射着周围的霓虹灯光，随着身体曲线流动。背景是极简的灰色混凝土墙。高时尚感（High Fashion），冷色调，充满未来科技感。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;赛博义体改造&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：半身肖像照，一名赛博朋克风格的女性。她的右臂已被替换为精密的机械义肢，露出内部的金属骨骼、液压管和发光线路。机械臂上印有警示文字‘DANGER’和编号‘RX-78’。皮肤与金属连接处有红肿痕迹，写实风格，85mm人像镜头。&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;hr /&gt;
&lt;p&gt;&lt;em&gt;利用能力：逻辑步骤拆解、说明书风格、物体识别与标注&lt;/em&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;菜谱步骤可视化&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：生成一张‘西红柿炒鸡蛋’的烹饪步骤长图。手绘水彩插画风格。第一步：切块的红番茄；第二步：金黄的蛋液搅拌；第三步：油锅翻炒；第四步：成品装盘撒葱花。每一步旁边配有简短的中文手写说明，背景是暖色调的厨房台面，温馨诱人。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;装修风格“试穿”&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：室内设计渲染图。展示一个明亮的客厅，装修风格为‘北欧极简风（Scandi）’。画面包含：浅色橡木地板、米白色布艺沙发、几何图案地毯、抽象挂画和一盏钓鱼灯。自然光充足，窗外是绿树。构图规整，色彩柔和，家居杂志风格。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;纹身图案预览&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：特写镜头，拍摄一条健壮的手臂。手臂内侧纹着一条传统的中国水墨龙，龙身蜿蜒，墨色浓淡相宜，龙爪锋利，周围有云雾缭绕。纹身与皮肤纹理融合自然，看起来像是真实的刺青。背景虚化，黑白摄影风格。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;梦境还原师&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：超现实主义油画（达利风格）。描绘一个梦境：巨大的火锅漂浮在云端，云朵变成了棉花糖。远处有一个巨大的奥特曼正拿着筷子夹云朵吃。天空是紫色的，光怪陆离，充满奇幻色彩，细节丰富且荒诞。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;手写笔记整理&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：生成一张精美的学霸笔记图。主题是‘光合作用原理’。版面设计模仿康奈尔笔记法，左侧是关键词，右侧是整齐的中文印刷体解释，中间穿插精美的手绘叶绿体结构图和化学公式。纸张是方格纸，配有荧光笔划重点，字迹清晰工整。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;收纳整理可视化&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：Knolling风格（平铺排列）摄影。展示‘数码爱好者的背包EDC’。在纯白背景上整齐排列以下物品：一台MacBook、一部iPhone、一副AirPods、黑色充电宝、数据线、Moleskine笔记本和一支钢笔。所有物品垂直俯视拍摄，间距相等，布光均匀，极度舒适的秩序感。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;旅行打包清单&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：生成一张手绘风格的‘日本旅行打包清单’插画。画面平铺着：护照、日元现金、西瓜卡（Suica）、随身WiFi、转换插头、胶片相机和几套叠好的衣服。每样物品旁有小箭头和可爱的中文标注。背景是浅木色地板，色彩清新可爱。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;发型尝试&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：生成一张高清晰度的人像照片。模特是一名年轻亚洲女性，原本是长发，现在改为‘银灰色波波头（Bob cut）’，发梢内扣，带有空气刘海。发丝光泽度真实，面部特征清晰。背景是理发店的镜子反射，影棚柔光。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;儿童绘本生成&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：创作一页儿童绘本插图。风格模仿艾瑞·卡尔（Eric Carle）的拼贴画风格。画面内容：一只色彩斑斓的毛毛虫正爬过一个巨大的红苹果，苹果上被咬了一个洞。背景是白色的，上方有幼稚的黑色手写字：‘星期一，它吃了一个苹果。’ 色彩鲜艳，充满童趣。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;闲鱼卖货神图&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：产品摄影。主体是一把二手的‘温莎椅’。将它放置在一个复古风格的咖啡馆角落，阳光透过百叶窗洒在椅子上，形成漂亮的光斑。背景有模糊的书架和绿植。椅子看起来质感温润，色调复古温暖，极具文艺气息，提升购买欲。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;食物卡路里标注&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：AR增强现实视角的食物照片。俯拍一份沙拉和牛排。画面中漂浮着科技感的UI标签，用引线指向食物：指向牛排标注‘250 kcal / 蛋白质20g’，指向沙拉标注‘80 kcal / 膳食纤维’。标签半透明，文字发光，背景是餐厅木桌，极具未来生活感。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;健身动作纠正图&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：生成一张医学解剖风格的‘深蹲’动作示意图。显示一个半透明的人体模型正在做深蹲，骨骼和发力肌肉（股四头肌、臀大肌）用红色高亮显示。旁边有绿色对勾标注‘背部挺直’，红色叉号标注‘膝盖内扣’。背景纯白，科学严谨。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;自制识字卡片&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：设计一张英语识字卡片，字母‘Z’。画面中央是一只可爱的卡通斑马（Zebra）在草原上奔跑，画风扁平化矢量插图。左上角是大大的字母‘Z’，下方是单词‘Zebra’和中文‘斑马’。配色鲜艳对比强烈，圆角卡片设计，适合幼儿教育。&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;hr /&gt;
&lt;p&gt;&lt;em&gt;利用能力：微观视角、材质替换、物理规律模拟&lt;/em&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;微缩世界（移轴摄影）&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：移轴摄影（Tilt-shift）风格。俯瞰繁华的东京十字路口。所有的汽车和行人看起来都像是微小的塑料玩具模型，高楼大厦像积木搭建的。景深极浅，只有中间清晰，两端模糊。色彩鲜艳饱和，阳光强烈，营造出玩具城市的错觉。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;食物风景画&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：创作一幅奇幻风景画。连绵的山脉是由层层叠叠的‘抹茶千层蛋糕’构成的，河流流淌的是纯白的牛奶，岸边的石头是巧克力碎，天空中的云朵是粉色的棉花糖。质感细腻，让人垂涎欲滴，吉卜力动画风格，色彩清新甜美。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;赛博朋克古董&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：生成一张博物馆展品的照片。展柜里放着一台‘PlayStation 5’游戏机，但它是用青铜铸造的，表面布满铜绿锈迹和古代饕餮纹饰。旁边的说明牌写着：‘21世纪早期娱乐神器，出土于深圳’。聚光灯照射，背景黑暗，充满历史厚重感与科技的冲突。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;不可能的透视（机械表）&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：生成一张机械手表的微观剖面图。在复杂的齿轮和发条之间，展示一个微缩的工业世界：微小的工人们正在推动巨大的齿轮，有的在给游丝上油，有的在搬运螺丝。蒸汽朋克风格，细节极致精细，金属质感冷峻。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;文字云艺术&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：生成一张爱因斯坦的肖像画。整张脸完全由物理公式（E=mc²）和科学术语（Relativity, Gravity, Light）的大小不一的文字组成。文字的疏密和粗细形成了面部的阴影和轮廓。黑白配色，设计感极强，具有智性美。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;透明生物图鉴&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：生成一张生物图鉴插画。主体是一只完全透明的‘玻璃猫’。透过透明的皮肤，可以清晰地看到它内部精密的机械骨骼、齿轮心脏和光纤血管。猫正在伸懒腰。背景是深蓝色的工程蓝图，带有白色的结构标注线和尺寸数据。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;折纸城市&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：生成一张完全由纸张构成的纽约时代广场。建筑物、广告牌、汽车和行人都是折纸艺术品（Origami）。纸张的纹理、折痕和厚度清晰可见。灯光从纸张内部透出，营造暖色调的夜景。微距视角，景深较浅。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;像素化名画&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：将梵高的《星月夜》重新诠释为8-bit像素艺术（Pixel Art）风格。色彩限制在16色以内，明显的马赛克色块。月亮和星星像是复古红白机游戏中的道具。画面右下角有像素字体的‘PRESS START’。怀旧电子游戏美学。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;霓虹灯文字装置&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：生成一张夜晚街道的实拍照片。在两座高楼之间，悬浮着巨大的粉色霓虹灯管组成的中文诗句：‘今晚月色真美’。霓虹灯的光芒反射在湿漉漉的柏油路面上，光影氛围迷离浪漫，赛博朋克与文学的结合。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;X光安检视角&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：模拟机场安检X光机的成像画面。显示一个复古手提箱的内部。箱子里装着：一把激光枪、一个外星人头骨、几瓶发光的绿色药剂和一本写着‘TOP SECRET’的笔记。色彩为X光特有的橙色、蓝色和绿色反相效果，充满神秘叙事感。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;复古未来主义海报&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：生成一张1950年代风格的科幻海报。描绘想象中的2050年家庭生活：一位穿着复古围裙的主妇正在指挥一个‘核动力多足机器人’做家务。画风带有明显的噪点和印刷网纹，色彩为低饱和度的黄、青、红。配文：‘The Future is Now!’&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;情绪通感图&lt;/strong&gt; &lt;strong&gt;Prompt&lt;/strong&gt;：抽象表现主义画作。主题是‘周日下午的焦虑’。画面由混乱的灰色线条、压抑的深蓝色块和突兀的橙色尖刺组成。笔触狂乱，质感厚重（Impasto），传达出一种不安、急躁和时间流逝的紧迫感。艺术馆级作品。&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
</content:encoded></item><item><title>实测Gemini-3，王座迎来了它的新王？</title><link>https://kaiho.tech/posts/gemini3/</link><guid isPermaLink="true">https://kaiho.tech/posts/gemini3/</guid><description>等了太久，太久。</description><pubDate>Wed, 19 Nov 2025 00:00:00 GMT</pubDate><content:encoded>&lt;p&gt;等了太久，太久。&lt;/p&gt;
&lt;p&gt;从 9 月传到 11 月，从神秘的 &lt;code&gt;lithiumflow&lt;/code&gt; 到 &lt;code&gt;riftrunner&lt;/code&gt;，所有的猜测和躁动，终于在昨天深夜尘埃落定。&lt;/p&gt;
&lt;p&gt;Gemini 3 Pro，正式上线。&lt;/p&gt;
&lt;p&gt;昨晚发布后第一时间冲进 Google AI Studio 跑了一遍。如果不加修饰地形容感受，只有两个字：&lt;strong&gt;震撼&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;如果说之前的模型是在辅助你写代码，那么 Gemini 3 Pro 给人的感觉是——它真的懂你要什么，而且它不仅有智商，还有了“审美”。就连老对手Sam也是对Gemini-3进行战术性鼓掌（怀疑感到压力了.....）&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/89c70135a6529f1db967ece370f46560.png&quot; alt=&quot;img&quot; /&gt;&lt;/p&gt;
&lt;p&gt;在素来残酷的数学竞赛的「地狱模式」MathArena 里Gemini-3斩获多项第一&lt;/p&gt;
&lt;p&gt;当友商还在 1% 上下挣扎时，Gemini 3 Pro 拿下了 &lt;strong&gt;23.4%&lt;/strong&gt; 的高分。&lt;/p&gt;
&lt;p&gt;在视觉智能（ScreenSpot-Pro），GPT-5.1 只有 3.5%，是个“眼瞎”的高智商；&lt;/p&gt;
&lt;p&gt;而 Gemini 3 Pro 达到了 &lt;strong&gt;72.7%&lt;/strong&gt;。这意味着它能精准识别屏幕上的每一个像素级交互，Agent 的时代真的来了&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/68b9062bb0103017e49454ea3fd60799.png&quot; alt=&quot;img&quot; /&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;但这些数据，都没有办法体现Gemini 3 Pro的恐怖之处，因为它这次最令人感到震撼的是恐怖的代码编辑能力，以及逻辑闭环！&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;比如，设计一个简单的小游戏Prompt：请设计并创建一个网页游戏，一个塔防游戏，可以利用防御塔击杀怪物掉落的金币对防御塔进行升级&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/b8e0b186425cf65c89ed15b1194a5a49.png&quot; alt=&quot;img&quot; /&gt;&lt;/p&gt;
&lt;p&gt;大约半分钟不到吧，看看效果&lt;/p&gt;
&lt;p&gt;出乎意料，把没提到的比如金币不足不能升级这个逻辑全给补齐了（浪费了好几秒在等金币。。。）&lt;/p&gt;
&lt;p&gt;但是这个思路还有交互真的让人感到满意，随手继续做了一个前端案例小实验Prompt：&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;现在我需要你完成帮我完成一个很复杂的模型，生成一个可交互的太阳系模型，八大行星都可以单独交互并且有介绍数据（比如距离地球多少光年、大约多重等）
&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;&lt;img src=&quot;images/6e868f776cf75806ce18f307b83021fe.png&quot; alt=&quot;img&quot; /&gt;&lt;/p&gt;
&lt;p&gt;也是过了十几秒吧半分钟不到，看看效果&lt;/p&gt;
&lt;p&gt;尽管输入的要求比较少，并且对贴图还有亮度这些都没有要求，但能做到这一程度，一个完整的、带光影效果、支持鼠标拖拽旋转、甚至带科普数据的 3D 太阳系，就这么跑在浏览器里了&lt;/p&gt;
&lt;p&gt;它甚至考虑到了“比例缩放”这种细节，为了让用户能看清行星，它自动调整了原本巨大的天体距离差异。这种“技术直觉”让人感觉到真的丝滑&lt;/p&gt;
&lt;p&gt;测完这两个小demo，有一个强烈的预感：&lt;strong&gt;写代码这件事，逻辑已经不再是瓶颈，想象力才是&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Google 这次不仅发布了模型，还推出了 Agentic 编程平台 &lt;strong&gt;Antigravity&lt;/strong&gt;。在这个平台上，你可以指挥“模型军团”作战：有的负责写后端，有的负责跑测试，有的负责看浏览器修 UIMathArena 拿了 23.4%（同行还在 1% 挣扎），ScreenSpot 拿了 72.7%——此刻都具象化了新王登基，这回可能真的不是说说而已&lt;/p&gt;
&lt;hr /&gt;
&lt;p&gt;现在，Gemini 3 Pro你在AI Studio里就能用到。网址：&lt;a href=&quot;https://aistudio.google.com/&quot;&gt;https://aistudio.google.com/&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;如果想以更方便的形式接入 Gemini 3，可以访问 ai.kaiho.cc 使用，并且提供三个 10 元兑换码&lt;/p&gt;
&lt;p&gt;兑换码&lt;/p&gt;
&lt;p&gt;1e671e623c5f4934858d223e5f19fc70&lt;br /&gt;
bd555a017bee49e49470096a4f4a602c&lt;br /&gt;
2ae04c73f80f45a8bcf57fc47c6acea6&lt;/p&gt;
</content:encoded></item><item><title>美图秀秀、PS集体下岗，绘画界的GPT——nano banana来了</title><link>https://kaiho.tech/posts/nano-banana/</link><guid isPermaLink="true">https://kaiho.tech/posts/nano-banana/</guid><description>你是不是还在为AI生图人物“变脸”、细节失真而烦恼？</description><pubDate>Wed, 27 Aug 2025 00:00:00 GMT</pubDate><content:encoded>&lt;p&gt;你是不是还在为AI生图人物“变脸”、细节失真而烦恼？&lt;/p&gt;
&lt;p&gt;是不是曾梦想着拥有一个能随意P图、换背景、甚至让老照片“活过来”的神器？&lt;/p&gt;
&lt;p&gt;今天，我们要揭秘的，是目前地表最强、颠覆你认知的AI绘画模型——Nano Banana！&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/7cb8fd7943c8db640f452a42c4a7839f.png&quot; alt=&quot;unnamed&quot; /&gt;&lt;/p&gt;
&lt;p&gt;之前AI圈子一直被一个代号“Banana”的模型刷屏，坊间传闻它是谷歌Gemini 2.5 Flash背后的强大技术。果不其然，Google正式发布了gemini-2.5-flash-image-preview模型，并将其命名为Nano Banana！&lt;/p&gt;
&lt;h2&gt;01 效果展示&lt;/h2&gt;
&lt;h3&gt;人物一致性&lt;/h3&gt;
&lt;p&gt;以往AI生图最让人头疼的，就是人物的一致性。比如你想生成一张自己笑起来的照片，结果出来的人跟你只有“神似”，五官脸型都变了样。&lt;/p&gt;
&lt;p&gt;尤其对于亚洲面孔，要保持不变更是难上加难。&lt;/p&gt;
&lt;p&gt;但是，Banana做到了！&lt;/p&gt;
&lt;p&gt;无论是换衣服、换背景，还是改变表情、发型，你的人脸都能保持惊人的不变！放大看细节，你会发现五官、脸型、甚至神韵都保持得非常好，简直就像相机抓拍的不同瞬间。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/f817e2c8a2b5abe546176fc1cacced9f.png&quot; alt=&quot;img&quot; /&gt;&lt;/p&gt;
&lt;p&gt;更厉害的是，它甚至能根据一张俯瞰图，生成你的正面和侧面照，环境、相对位置都纹丝不动，这简直是细节控的福音！&lt;/p&gt;
&lt;h3&gt;万物皆可“换”&lt;/h3&gt;
&lt;p&gt;这是我随手拍的手上拿着果干的照片&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/8e768aff8d845881f78586dbc1ca3347.png&quot; alt=&quot;img&quot; /&gt;&lt;/p&gt;
&lt;p&gt;倒也没毛病，毕竟我给的提示词就是：”手上的橘子果干变成新鲜橘子“&lt;/p&gt;
&lt;p&gt;既然如此，再来，这个就是正确的橘子啦&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/8cf40b7d2103c979c69f1c2c90f46c63.png&quot; alt=&quot;unnamed (3)&quot; /&gt;&lt;/p&gt;
&lt;p&gt;还有这个，这是我之前去吃饭的一张小票&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/888e40cf6ea36737cab84ac5b5f9db30.png&quot; alt=&quot;img&quot; /&gt;&lt;/p&gt;
&lt;p&gt;我让它”把应付金额527 改为257“，这个真实度基本和原来的一模一样，这意味着，无论是电商产品图、家装设计，还是任何需要替换物品的场景，Banana都能帮你搞定，而且效果非常自然！&lt;/p&gt;
&lt;p&gt;而且Banana的玩法远不止于此，它让P图变得前所未有的自由：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;去水印、改文字：图片去水印，修改图中文字，效果逼真到你看不出是P的，简直是修改海报、广告图的神器！&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;修复老照片：模糊、破损的老照片，在Banana手中瞬间焕发新生，细节清晰，色彩自然，让回忆重现。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;img src=&quot;images/2226853fefa4ebfc48bfc5dd75d58b3e.jpeg&quot; alt=&quot;img&quot; /&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;人物姿态表情转换：让照片里的人从坐着站起来，从不开心变开心，更换各种表情和动作，你的照片也能动起来！&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;img src=&quot;images/b278a5df3c40b3c47aa01ee4b54f5f00.jpeg&quot; alt=&quot;img&quot; /&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;合影自由：想和谁合影？ Banana帮你实现！只要你敢想，它就能生成！&lt;/li&gt;
&lt;/ul&gt;
&lt;h2&gt;02 不仅是生成，更是“理解”！&lt;/h2&gt;
&lt;p&gt;Banana不只是一致性惊人，它的指令追随和多模态理解能力也异常强大，并且具备思考推理的能力！&lt;/p&gt;
&lt;p&gt;你让它生成一个披萨在400°烤箱里烤两个小时的图片，它会给你一块烤焦碳化的黑色披萨，而不是一块正常的披萨&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/1d3412ef702f3d0ebf8de05ef5e41bd8.png&quot; alt=&quot;unnamed (8)&quot; /&gt;&lt;/p&gt;
&lt;p&gt;当然，Banana也不是完美无缺的，比如在一些极其复杂的细节（如吊带裙肩带样式）或水印处理上，它还做不到100%的一致性。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/6081bafd017df985117b6f00bad59b1d.png&quot; alt=&quot;image-20250828020322602&quot; /&gt;&lt;/p&gt;
&lt;p&gt;但瑕不掩瑜，Banana的强大功能和惊人表现，已经足以让人惊叹！&lt;/p&gt;
&lt;p&gt;主要它不仅强大，还快，不会像某些（不点名说，dddd）绘画模型，出一张图让我等个三五分钟那样&lt;/p&gt;
&lt;h2&gt;03 如何使用&lt;/h2&gt;
&lt;p&gt;目前 Gemini 官方就能直接使用：&lt;/p&gt;
&lt;p&gt;无论是2.5 flash模型还是2.5 Pro 模型，只要选中「图片」，就可以体验这个号称绘画界的GPT了&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/73ad1bfa954a60b3ad32328776a7c6c3.png&quot; alt=&quot;image-20250828020456995&quot; /&gt;&lt;/p&gt;
&lt;p&gt;如果需要 API 调用的，也可以到 ai.kaiho.cc 中进行调用测试，已经第一时间接入，有问题可以第一时间联系作者&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/4b1616050f553de5011d7b43ae89121a.png&quot; alt=&quot;image-20250828020946705&quot; /&gt;&lt;/p&gt;
&lt;p&gt;无论是普通用户P图，还是设计师、电商从业者、AI视频创作者，Banana都将彻底改变我们的工作流和创作方式，让我们离真正的“AI自由创作”更近一步。&lt;/p&gt;
&lt;p&gt;你准备好迎接这个“地表最强渗透模型”的到来了吗？快去尝试一下，感受一下未来科技的震撼吧！&lt;/p&gt;
</content:encoded></item><item><title>突然发布新模型 V3.1，DeepSeek 在下一盘什么棋？</title><link>https://kaiho.tech/posts/deepseek-v3-1/</link><guid isPermaLink="true">https://kaiho.tech/posts/deepseek-v3-1/</guid><description>昨天晚上，DeepSeek 又搞了个大动作——V3.1 模型...</description><pubDate>Wed, 20 Aug 2025 00:00:00 GMT</pubDate><content:encoded>&lt;p&gt;&lt;img src=&quot;images/783503713b64571c9aef4e3f4a6044a1.png&quot; alt=&quot;img&quot; /&gt;&lt;/p&gt;
&lt;p&gt;昨天晚上，DeepSeek 又搞了个大动作——V3.1 模型正式上线。朋友圈、社群里一片热闹，大家都在刷“128K 上下文”“新 Base Model”，但是其中最重要的还是「模型融合」&lt;/p&gt;
&lt;p&gt;省流：别被“128K”忽悠了，真正的重点是—— V3.1 把 Chat 和 Reasoning 融了！&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/819e1444f95b0025d75d8ef17467efb2.png&quot; alt=&quot;deepseek&quot; /&gt;&lt;/p&gt;
&lt;p&gt;很多人第一眼被吸引的就是“128K 上下文”，觉得这是突破。可实际上，DeepSeek V3/R1 一直都能跑 128K，只是 API 端之前只开放到 64K。这次所谓的升级，更多是“放开限制”而不是“技术飞跃”。&lt;/p&gt;
&lt;p&gt;所以，128K 很重要，但不是这次更新的灵魂。&lt;/p&gt;
&lt;p&gt;这次的 V3.1 最大的变化，就是把 Chat 和 Reasoning 融到了一起。以前要对话可以用 V3，要深度推理就必须使用用 R1；现在只剩一个模型。&lt;/p&gt;
&lt;p&gt;听起来很美好：一套模型，省下部署成本，还能提升算力利用率。可是，融合的副作用也很明显——幻觉又开始频繁出现，中英文混杂的老毛病也回来了。&lt;/p&gt;
&lt;p&gt;我个人感觉：V3.1 有进步，但远不如预期。&lt;/p&gt;
&lt;h2&gt;V3.1 更新亮点&lt;/h2&gt;
&lt;p&gt;本次开源的 V3.1 模型拥有 685B 参数，且支持多种精度格式，从BF16到FP8。&lt;/p&gt;
&lt;p&gt;国外基准跑分（SVGBench）实测推理跑分相比 DeepSeek-R1-0528 的得分提高了 13%，总体排名第 13，最佳中国模型第 2，最佳开源权重模型第 2，以及无视觉能力模型中排名第 2&lt;img src=&quot;images/eea8ccbea05f341d48acd2b254be9211.webp&quot; alt=&quot;deepseek-ai-deepseek-v3-1-base-hugging-face-v0-98rp44t400kf1&quot; /&gt;&lt;/p&gt;
&lt;p&gt;在架构上，V3.1 采用了模型融合方式，基本可以说 V3.1 = V3 + R1&lt;/p&gt;
&lt;p&gt;成本上节约了六十分之一，完整编程任务仅需1.01美元&lt;/p&gt;
&lt;p&gt;DeepSeek V3.1 Base 的模型地址已经出了，但是还没有 model card，官方的Benchmark成绩和能力说明还未公布&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/dc0898a4fe9aade49c3051dab614bf73.png&quot; alt=&quot;image-20250820142939031&quot; /&gt;&lt;/p&gt;
&lt;h2&gt;这盘棋，DeepSeek 下对了吗？&lt;/h2&gt;
&lt;p&gt;其实，这不是 DeepSeek 一家在探索模型融合的道路。Qwen3 也尝试过模型融合，结果后来还是分开出了 Instruct 和 Thinking。GPT-5 则更稳健，走的是 “Chat + Reasoning + Router” 路线，而不是生硬地融成一个模型，更不用说前段时间 GPT-5 被社区的人吐槽这个问题&lt;/p&gt;
&lt;p&gt;所以，DeepSeek 的做法，究竟是“捷径”，还是“弯路”，还需要时间验证。&lt;/p&gt;
&lt;p&gt;同时在 HuggingFace 上，讨论非常两极化，大部分喷的都是因为 DeepSeek 每次更新版本都会直接覆盖原始的 API 版本，会导致本身在使用老版本的用户出现问题，以及融合后的幻觉问题严重等&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/32a62a8336438008fb9bda5640a8ed78.png&quot; alt=&quot;image-20250820145605867&quot; /&gt;&lt;/p&gt;
&lt;p&gt;但同样因为 V3.1，更多的人也在期待 R2 的上线&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/9e4a04778327b2f31a0791b2203bc028.png&quot; alt=&quot;image-20250820144438158&quot; /&gt;&lt;/p&gt;
&lt;p&gt;更有意思的是，V3.1 的推出，其实和 DeepSeek 的「算力博弈」脱不开关系。 根据路透社报道，DeepSeek 原本被要求用华为 Ascend 芯片训练 R2，但因为多次失败，最后只能退回 Nvidia GPU。现在的情况是：&lt;strong&gt;推理用国产芯片，训练依然逃不脱英伟达。&lt;/strong&gt;（期待国产芯片彻底摆脱 Nvidia 的一天）&lt;/p&gt;
&lt;p&gt;这也解释了为什么 R2 始终不见踪影，而 V3.1 却急忙上线。某种程度上，它更像是“过渡产物”。所以这次的 V3.1 更像是一次实验，真正的看点，还是要等 R2 或 V4&lt;/p&gt;
&lt;p&gt;AI 的世界，总是在“期待”与“失望”之间来回摇摆。 GPT-5 前段时间也是先被骂，再慢慢赢回口碑。V3.1 也许是一次失败的实验，也可能是未来“大一统模型”的起点。&lt;/p&gt;
&lt;p&gt;所以，我的建议是： &lt;strong&gt;别急着下结论，让子弹再飞一会儿。&lt;/strong&gt;&lt;/p&gt;
</content:encoded></item><item><title>Deepseek官网崩？这几个平替方案轻松解决</title><link>https://kaiho.tech/posts/deepseek-substitute/</link><guid isPermaLink="true">https://kaiho.tech/posts/deepseek-substitute/</guid><description>最近一段时间，DeepSeek 因为发布其 R1 模型在全网...</description><pubDate>Sun, 16 Feb 2025 00:00:00 GMT</pubDate><content:encoded>&lt;h2&gt;前言&lt;/h2&gt;
&lt;p&gt;最近一段时间，DeepSeek 因为发布其 R1 模型在全网刷屏，但由于访问量激增，官网出现了频繁宕机，服务器繁忙的问题。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;面对这种情况，相当一部分用户选择本地部署方案。但受限于硬件条件，本地部署的8B模型在回答问题的质量、推理速度等方面的体验还不如免费的GPT。&lt;/p&gt;
&lt;p&gt;好在 DeepSeek 采取的是开源策略，这也就有机会通过其他平台来使用这个强大的模型。&lt;/p&gt;
&lt;h2&gt;1.镜像站&lt;/h2&gt;
&lt;p&gt;镜像站新增了多个DeepSeek模型，并且恢复了不降智的GPT版本&lt;/p&gt;
&lt;p&gt;镜像站购买链接：&lt;a href=&quot;https://fk.yfk66.top//links/DC344F54&quot;&gt;&lt;/a&gt;&lt;a href=&quot;https://go.kaiho.cc/buy&quot;&gt;https://go.kaiho.cc/buy&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/0b7c5bb7d61945a14c4c14cf0188c6e9-1024x497.jpg&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;同时奥特曼官宣ChatGPT 4.5模型即将发布，而且4.5是最后一代没有思维链的模型。而5将紧随其后！官网上新以后，镜像也会尽快同步的&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/a7f60e25d84d1b9f95a246ada1949650-631x1024.jpg&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;h2&gt;2.API站点&lt;/h2&gt;
&lt;p&gt;Kaiho小站API：&lt;a href=&quot;https://ai.kaiho.cc/&quot;&gt;https://ai.kaiho.cc/&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;API站点添加了DeepSeek的所有模型，配置方法可参考网站内&lt;a href=&quot;https://ai.kaiho.cc/about&quot;&gt;教程&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-1-1024x705.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
</content:encoded></item><item><title>Sora 终于发布，网站火到崩溃，紧急关闭注册功能</title><link>https://kaiho.tech/posts/sora-published/</link><guid isPermaLink="true">https://kaiho.tech/posts/sora-published/</guid><description>OpenAI直播第三天，Sora 正式登场</description><pubDate>Tue, 10 Dec 2024 00:00:00 GMT</pubDate><content:encoded>&lt;h2&gt;前言&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;OpenAI直播第三天，Sora 正式登场&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;本次发布会延续了「短剧」的快节奏风格，全程 20 分钟左右，由 CEO Sam Altman、Sora 负责人 Bill Peebles 等人主持&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-53.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;官网地址：&lt;a href=&quot;https://sora.com/&quot;&gt;sora.com&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;有意思的是，由于 Sora 热度太高，短期内大批用户涌入网站，导致官网一度崩溃，现在已经暂停注册登录服务&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-52.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;不过这次&lt;strong&gt;Sora的生成服务只要订阅OpenAI Plus或者Pro就可以体验&lt;/strong&gt;，不需要额外付费&lt;/p&gt;
&lt;h2&gt;Sora功能解析&lt;/h2&gt;
&lt;p&gt;与 Midjourney 的界面类似，Sora 也有单独的用户界面，用户可以整理和浏览生成的视频，且能查看其他用户的提示词和精选内容&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-54.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;在 「Library」中，用户可以保存自己喜欢或有用的提示词，以便未来使用。并且保存的提示词可以按需查看或修改，对于经常需要产出相似风格内容的创作者来说，这简直就是效率神器&lt;/p&gt;
&lt;p&gt;不过真正让人眼前一亮的是 Sora 在&lt;strong&gt;视频编辑&lt;/strong&gt;方面的创新。&lt;/p&gt;
&lt;p&gt;它的 Remix 功能堪称革命性突破——只需要用自然语言描述想要的改动，就像跟助手对话一样简单。而且通过直观的「strength（强度）」强度调节滑块，可以精确控制想要的变化程度，完全不需要专业的后期技能。&lt;/p&gt;
&lt;p&gt;Re-cut 功能则能智能识别最佳画面，并能突破原有画面的限制，支持向任意方向延伸场景。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;/images/sora-published/4-2.gif&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;Storyboard（故事板）则类似于视频编辑器，可以将多个提示词串联在一起，生成一个更长的视频，轻松处理复杂的多分镜场景。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;/images/sora-published/5-2.gif&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;结合 Loop 和 Blend 功能，可以轻松制作出完美无缝循环的画面，不同片段之间的过渡自然流畅，配合 Style presets 预设功能，可以轻松掌控整个视频的风格调性&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;/images/sora-published/20241210104904.gif&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;/images/sora-published/7-2.gif&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;Sora不仅支持 5-20 秒的输出时长，并且完全适配当下最常用的视频比例，无论是方形的 1:1 还是竖屏的 9:16，都能完美驾驭。相比早期版本，现在的生成速度有了显著提升。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/8-5-1024x230-1.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;不过之前说的 1 分钟高清无码的大片并没有实现，也算是一个遗憾，等待下次更新实现&lt;/p&gt;
&lt;h2&gt;Sora积分政策&lt;/h2&gt;
&lt;p&gt;OpenAI 这次的定价策略采用灵活的积分制，具体消耗会根据选择的分辨率和视频时长来计算&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;如果你已经是 ChatGPT Plus 或 Pro 会员无需额外费用就能使用&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;比如生成一个 480p、5s 的视频就需要 25 个积分，但生成 480p、20s 的视频则需要 150 个积分。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/9-5-1024x486.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;特别注意，当使用那些高级功能比如 Re-cut、Remix、Blend 或 Loop 时，如果最终作品超过了 5 秒，系统会额外扣积分。说白了就是：&quot;多玩多付&quot;。所以开始创作前，最好先规划好视频时长，算清楚需要的积分，这样才不会中途因为积分不够而被打断创作flow&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/10-4-1024x485.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;视频生成权益：&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;20 美元/月的 ChatGPT Plus 用户：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;最多 50 个优先视频（1000 个积分）&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;分辨率高达 720p，时长为 5 秒&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;200 美元/月的 ChatGPT Pro 用户：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;最多 500 个优先视频（10000 个积分）&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;无限 relaxed 视频&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;分辨率高达 1080p，持续时间为 20 秒，可并发生成 5 个&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;下载无水印&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;img src=&quot;images/11-4.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;OpenAI 还在为不同用户的使用场景来制定更个性化的收费模式，预计会在明年初推出。&lt;/p&gt;
&lt;p&gt;同时，Sora 暂不支持ChatGPT Team、Enterprise 和 Edu 版本，同时也不向 18 岁以下用户开放。现阶段，虽然 Sora 基本上在所有能用 ChatGPT 的地方都能访问，但英国、瑞士和欧盟等地区除外。&lt;/p&gt;
&lt;h2&gt;Sora实测&lt;/h2&gt;
&lt;p&gt;知名博主 Marques Brownlee 提前一周就用上了 Sora，并在 YouTube 上分享了他的使用体验&lt;/p&gt;
&lt;p&gt;https://www.youtube.com/watch?v=OY2x0TyKzIQ&lt;/p&gt;
&lt;p&gt;他指出这款产品仍存在一些「局限性」。&lt;/p&gt;
&lt;p&gt;在物理模拟方面，模型对物体运动的理解不够深入，会出现动作不自然、物体突然消失等问题。特别是在处理带有腿部运动的对象时，经常出现前后腿位置混乱的情况，导致动作看起来不自然。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;/images/sora-published/12-1.gif&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;又或者，同一个视频里，有些画面像是开了0.5倍速播放，而其他部分却是正常速度，这种节奏的忽快忽慢看着特别不自在。这也再次印证了一个事实：AI 在理解现实世界的物理规律上还是个&quot;学生&quot;。同样 Sora 还是没能解决老毛病，缺乏对物理世界规律的理解。&lt;/p&gt;
&lt;p&gt;另外，Sora 没能解决文字生成的问题，导致经常出现文字混乱的现象，而剪辑风格、文字滚动条的运动、新闻主播风格的生成则格外逼真。这种强弱分明的表现，表面Sora有些领域已经炉火纯青，有些地方却还在跌跌撞撞。&lt;/p&gt;
&lt;p&gt;不过，Sora 也有很多擅长的场景。&lt;/p&gt;
&lt;p&gt;在风景镜头处理方面表现出色，能生成媲美专业素材的无人机航拍镜头&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;/images/sora-published/13-1.gif&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;性能方面，基础场景下还是很给力的，生成一个 5 秒的 360p 小视频，通常 20 秒就能搞定&lt;/p&gt;
&lt;p&gt;不过，当涉及 1080p 或复杂提示词时，生成时间可能会延长到几分钟，并且随着如今大批用户的涌入，生成速度明显慢了很多&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;/images/sora-published/15-1.gif&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;h2&gt;Sora 带来的扩展思考&lt;/h2&gt;
&lt;p&gt;OpenAI 对 Sora 的定位不是简单地把它看作一个视频生成工具，而是将其视为通往通用人工智能（AGI）的重要一步。&lt;/p&gt;
&lt;p&gt;让我用通俗的方式解释一下 Sora 的工作原理：比如你在看一幅印象派油画，一开始全是模糊的色块和噪点。Sora 就像一位艺术修复师，能逐步清除这些&quot;噪点&quot;，最终呈现出完整清晰的视频画面。并且它能同时处理多个画面帧，就像在是在玩&quot;记忆连连看&quot;——即使画面中的物体暂时看不见了，它也能确保这个物体再次出现时保持一致性，不会突然变成另一个东西。&lt;/p&gt;
&lt;p&gt;技术架构方面，Sora 采用了和 ChatGPT 相同的&quot;底层架构&quot;——Transformer。这就像是它们共用同一个&quot;大脑结构&quot;，只是被训练来完成不同的任务。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/17-1024x421.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;Sora 继承了 DALL·E 3 的标注技术，为视觉训练数据生成高度描述性的标签。因此，模型能够更准确地根据用户的文本指令生成视频内容。&lt;/p&gt;
&lt;p&gt;并且 Sora 的能力可不止于从文字生成视频。它还有两个特性：一是能将静态图片&quot;转化&quot;为动态视频，而且细节处理得相当到位；二是可以对现有视频进行&quot;修补&quot;，比如填补缺失的画面帧&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/18-360x345-1.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;为了确保安全地部署 Sora，OpenAI 基于以往的安全经验对安全防护措施进行了强化。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;未经他人许可使用他人肖像，并禁止描绘真实未成年人；&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;创建非法内容或侵犯知识产权的内容；&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;禁止生成有害内容，例如未经同意的亲密影像、用于欺凌、骚扰或诽谤的内容，或旨在传播暴力、仇恨或使他人痛苦的内容；&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;创建并传播用于欺诈、诈骗或误导他人的内容。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;所有 Sora 生成的视频都带有 C2PA 元数据&lt;/strong&gt;，这些元数据能够标识视频的来源是 Sora，从而提高透明度，并可用于验证其来源。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;https://work-blog.s3.kaiho.cc/2026%2F02%2F0ad799383ca83c8e40a34c85941e75db.gif&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;还记得大半年前 Sora 刚亮相时，整个互联网都沸腾了。那时候，只要看到几个演示视频，我们就会激动地喊出「现实不存在了」这样的豪言壮语。但现在回头看，这种情绪似乎有点过于乐观了。&lt;/p&gt;
&lt;p&gt;经历了国内外各种 AI 视频模型的轮番轰炸，我们的期待值早已水涨船高。现在的用户不再满足于简单的「能不能做」，而是更关注「做得有多好」。这种心态转变其实很正常，当技术从概念验证阶段迈向实用阶段，用户的要求自然也会随之提升。&lt;/p&gt;
&lt;p&gt;好在 Sora 并没有停滞不前。通过与艺术家们的深度合作，他们在工作流程方面做出了令人印象深刻的突破。Re-cut、Remix、Storyboard 这些功能都不是花架子，而是实打实解决了创作痛点的工具。在我看来，Sora 最大的价值不在于它能做什么，而是让创作者能够从繁琐的技术细节中解放出来，把更多精力放在创意本身。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;/images/sora-published/19-1-1.gif&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;从「能用」到「好用」，再到「妙用」，Sora 的进化之路才刚刚开始。也许在未来的某一天，我们会发现，真正没有限制的，不是现实世界，而是人类的创造力。毕竟，当工具变得足够强大，唯一的边界就只剩下想象力了。&lt;/p&gt;
</content:encoded></item><item><title>200美金的o1-Pro，都快来试试吧</title><link>https://kaiho.tech/posts/o1-pro-use/</link><guid isPermaLink="true">https://kaiho.tech/posts/o1-pro-use/</guid><description>OpenAI的12天直播第一天就扔出了重磅炸弹，还不了解的朋...</description><pubDate>Mon, 09 Dec 2024 00:00:00 GMT</pubDate><content:encoded>&lt;h2&gt;前言&lt;/h2&gt;
&lt;p&gt;OpenAI的12天直播第一天就扔出了重磅炸弹，还不了解的朋友可以去看上一篇文章：&lt;/p&gt;
&lt;p&gt;&lt;a href=&quot;/posts/openai-chatgpt-pro/&quot;&gt;Pro版重磅！OpenAI王炸更新：o1全面上线，究竟值不值得订阅？&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;不过测试发现，o1-pro好用是真的好用，但是也有次数限制，并不像宣传中的不限次数，所以自己要订阅的要注意一下。&lt;/p&gt;
&lt;p&gt;这里分享两个方式，都可以体验 o1 pro mode，大家可以根据需要自行选择&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;镜像站&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;API方式&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h2&gt;1.镜像站&lt;/h2&gt;
&lt;p&gt;镜像站已经同步更新了一大批 Pro版本的账号，购买卡密直接登录使用即可&lt;/p&gt;
&lt;p&gt;购买地址：&lt;a href=&quot;https://fk.yfk66.top//links/DC344F54&quot;&gt;&lt;/a&gt;&lt;a href=&quot;https://go.kaiho.cc/buy&quot;&gt;https://go.kaiho.cc/buy&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/643d5f2b0ea5cce50b2b1dd5491a678e-1024x567.jpg&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;这里透露一下，新版的镜像站提供了后台轮询方式，完美的体验，不需要自己选号池，后续会再详细介绍&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-37.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;h2&gt;2.API站点&lt;/h2&gt;
&lt;p&gt;API的好处是可以嵌入自己的产品中，同时按次计费，用多少花多少&lt;/p&gt;
&lt;p&gt;API站点嵌入了常见的Chat box，所以也可以直接使用&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-38-1024x593.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;API站点链接：&lt;a href=&quot;https://ai.kaiho.cc/models&quot;&gt;https://ai.kaiho.cc/models&lt;/a&gt;&lt;/p&gt;
&lt;h3&gt;如何配置&lt;/h3&gt;
&lt;p&gt;首先在模型也点击「OpenAI Plus」&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-39-1024x704.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;往下找到「o1-pro-all」，点击即可复制&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-40-1024x193.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;因为站点嵌入了三种Chat Box，大家可以根据自己的喜好选择，三种的配置方法都写在下方&lt;/p&gt;
&lt;h4&gt;1.ChatGPT &amp;amp; Midjourney&lt;/h4&gt;
&lt;p&gt;返回「聊天/绘画」界面，选择「ChatGPT &amp;amp; Midjourney」，点击&lt;strong&gt;左下角&lt;/strong&gt;的设置&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-49.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;点击模型，先在自定义模型输入刚刚复制的模型名称，在模型输入「o1-pro-all」，选中弹出的模型，保存即可&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-50.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;然后就可以使用对话了&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-51-1024x889.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;h4&gt;2.ChatGPT Next Web&lt;/h4&gt;
&lt;p&gt;返回「聊天/绘画」界面，选择「ChatGPT Next Web」，点击&lt;strong&gt;左下角&lt;/strong&gt;的设置&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-41-1024x673.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;找到「自定义接口」，服务商选择「OpenAI」，接口地址输入「https://ai.kaiho.cc」，API Key就是令牌，可以在「工作台查看」，自定义模型名输入「o1-pro-all」&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-42-1024x441.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;然后就可以使用对话了，同时「ChatGPT Next Web」还提供很多的预设主题，输入「/」就可以体验&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-43-1024x895.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-44-1024x842.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;h4&gt;3.Lobe Chat&lt;/h4&gt;
&lt;p&gt;返回「聊天/绘画」界面，选择「Lobe Chat」，点击&lt;strong&gt;右上角&lt;/strong&gt;的设置&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-45-1024x818.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;选择语言模型，在模型列表手动输入「o1-pro-all」，选择弹出的模型&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-46-1024x820.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;返回聊天界面，选择模型「o1-pro」&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-47.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;然后就可以正常使用对话了&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-48-1024x617.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;趁着体验良好，大家都赶快去试试吧！！！&lt;/p&gt;
</content:encoded></item><item><title>Pro版重磅！OpenAI王炸更新：o1全面上线，究竟值不值得订阅？</title><link>https://kaiho.tech/posts/openai-chatgpt-pro/</link><guid isPermaLink="true">https://kaiho.tech/posts/openai-chatgpt-pro/</guid><description>12天连更第一天，OpenAI先炸了一波。</description><pubDate>Fri, 06 Dec 2024 00:00:00 GMT</pubDate><content:encoded>&lt;h2&gt;前言&lt;/h2&gt;
&lt;p&gt;12天连更第一天，OpenAI先炸了一波。&lt;/p&gt;
&lt;p&gt;https://youtu.be/iBfQTnA2n2s&lt;/p&gt;
&lt;p&gt;和之前网友预测的差不多，满血版o1终于正式上线了，除此之外，还带来了地表最强「o1 Pro Mode」！&lt;/p&gt;
&lt;p&gt;这次，Sam Altman本人正式出镜，和研究科学家Hyung Won Chung、Max，以及思维链提出者Jason Wei一起，在短短15分钟内迅速完成发布。&lt;/p&gt;
&lt;p&gt;完整版o1是一个更快、更强大的推理模型，更擅长编码、数学和写作。&lt;/p&gt;
&lt;p&gt;而Pro版更是强到令人发指，AI助力各大学科寻求重大突破已然可期。&lt;/p&gt;
&lt;p&gt;如今镜像站和API站点都已支持满血版o1与 Pro版本，尽情体验！！！（如有需要代充可以联系站长）&lt;/p&gt;
&lt;p&gt;镜像站购买链接：&lt;a href=&quot;https://fk.yfk66.cn//links/DC344F54&quot;&gt;https://fk.yfk66.cn//links/DC344F54&lt;/a&gt;&lt;br /&gt;
API站点：&lt;a href=&quot;https://ai.kaiho.cc/models&quot;&gt;https://ai.kaiho.cc/models&lt;/a&gt;&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;提示：Plus版本基本够用，体验Pro版可以借助镜像站和API站点，有确切需求自己购买更合适！！！&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2&gt;o1模型&lt;/h2&gt;
&lt;p&gt;o1可以上传图片，根据图片进行推理，给出更详细、更有用的回复，仅仅提供一张图片，模型就生成了安装手册&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-26.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;在多项基准测试中，完整版o1性能直接暴涨，在数学、代码、博士级别科学问题中，均拿下最优的成绩。&lt;/p&gt;
&lt;p&gt;相较于o1-preview，o1数学性能提升了近30%，代码能力提升了27%。更值得一提的是，o1在GPQA Diamond基准测试中，表现完全超越了人类专家。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-27-1024x398.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;o1的独特之处在于，它是第一个在回应前会先思考的模型。这也让它比其他模型提供更好、更详细、更准确的响应。而在o1 Pro模式中，用户可以要求模型使用更多的计算资源，来解决一些最困难的问题。这对于已经在数学、编程和写作任务上将模型推向能力极限的用户，会感到不可思议。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;满血版o1的平均响应速度比o1-preview快了60%&lt;/strong&gt;，且满血版o1在推理时&lt;strong&gt;犯重大错误的频率&lt;/strong&gt;比o1-preview少了&lt;strong&gt;34%&lt;/strong&gt;。满血o1的另一大亮点就是支持&lt;strong&gt;多模态输入&lt;/strong&gt;，具备&lt;strong&gt;视觉推理能力&lt;/strong&gt;，团队也进行了现场展示。&lt;/p&gt;
&lt;p&gt;只见他们拿出了一张画着数据中心草图的A4纸，拍照上传后，原始提示词翻译后如下：&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-29-265x300.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;这是一个简化的数据中心空间示意图。对于任何细节假设，请提供相应的理由。如果受到了规范辐射的影响，你的任务是估算这个包含GPU的数据中心的辐射损失面积。在此过程中，还需要回答以下问题：&lt;/p&gt;
&lt;p&gt;1）你如何处理太阳和宇宙辐射？&lt;/p&gt;
&lt;p&gt;2）热力学第一定律如何应用到这个问题中？&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;这边团队成员们还在闲聊，10秒过后，模型就直接开始输出。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-30.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;注意，这里团队还特意给o1模型挖了个坑——&lt;strong&gt;故意省略了其中一个参数&lt;/strong&gt;，以此来测试模型面对模糊问题的处理能力。在团队看来，模型能够意识到这是一个重要但被忽略的参数，也是推理能力的体现。&lt;/p&gt;
&lt;p&gt;并且o1最终给出的答案，经过了拥有热力学博士学位的研究者的认证。&lt;/p&gt;
&lt;p&gt;从这个演示可以看出，o1在做出一致且合理假设上表现非常优秀，已经具备了相当高的智能水平。&lt;/p&gt;
&lt;p&gt;并且这次o1满血版不搞灰度了，发布仅4个小时后，已推送给所有（付费）用户！&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-28-268x300.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;h2&gt;ChatGPT Pro&lt;/h2&gt;
&lt;p&gt;这次推出的Pro模式，每月200美元的定价也着实让人望而却步。在犹豫的同时，已经有许多好心人帮大家提前测试了一下。&lt;/p&gt;
&lt;p&gt;如果让它完成一个数独，思考时间长达5分30秒。在思考过程中依然会犯错，但这次区别在于它有自我纠正的能力，直到得出正确答案为止。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-32-1024x1006.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;更有人上来就是一个“cure cancer（请治愈癌症）”。最终也是给出了答案告知没有治疗所有类型癌症的单一方法，并给出更多建议&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-33-1024x827.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-34.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;再来看看这个脑筋急转弯：举出一种娱乐形式的具体实例，其缩写也可以代表访问某个国家的团体的名字，而该国家的未来领导人与意大利人结婚。出题者称4o、o1-mini、Claude 3.5 Sonnet做三次错三次，而o1则是做三次对三次！&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-35.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;Sam Altman 强调的是：Pro模式的优势在于它可以更加努力地去思考最困难的问题。并且说明：绝大多数人用免费版或20美元版就足够了，&lt;strong&gt;200美元版只适合很小一部分人&lt;/strong&gt;，他们想要大量使用，且愿意为解决真正困难的问题付更多钱。&lt;/p&gt;
&lt;p&gt;这次的12天发布会，就如同圣诞前的礼物，期待OpenAI后续的发布&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-31.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
</content:encoded></item><item><title>OpenAI放王炸！Sora、满血o1，连续12天发布最新技术！</title><link>https://kaiho.tech/posts/openai-breaks-news/</link><guid isPermaLink="true">https://kaiho.tech/posts/openai-breaks-news/</guid><description>官网链接：https://openai.com/</description><pubDate>Thu, 05 Dec 2024 00:00:00 GMT</pubDate><content:encoded>&lt;p&gt;官网链接：&lt;a href=&quot;https://openai.com/&quot;&gt;https://openai.com/&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-25-1024x564.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;今天凌晨，OpenAI首席执行官Sam Altman宣布，从北京时间12月6日凌晨2点开始，将进行为期12天的OpenAI活动。&lt;/p&gt;
&lt;p&gt;在每个工作日，都会有一个直播，包括最新技术或产品演示，有些是重要的发布，有些是小惊喜。&lt;/p&gt;
&lt;p&gt;而已经1个多月没有任何动作的OpenAI，这次12天的技术分享活动更是史无前例的。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/833347a358f9cbc31277b24336ace58b.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;已经有众多网友预测OpenAI要分享的内容：&lt;/p&gt;
&lt;p&gt;第一天，发布文生视频模型Sora；&lt;/p&gt;
&lt;p&gt;第二天，为ChatGPT引入一个圣诞老人风格的语音，增添节日气氛；&lt;/p&gt;
&lt;p&gt;第三天，增强ChatGPT的高级语音模式，增加视觉功能；&lt;/p&gt;
&lt;p&gt;第四天，向免费用户发布o1-preview，扩大高级推理模型的使用范围；&lt;/p&gt;
&lt;p&gt;第五天，展示将在2025年一月推出的AI Agent；&lt;/p&gt;
&lt;p&gt;第六天，发布GPT-4o图像；&lt;/p&gt;
&lt;p&gt;第七天，发布新的开发者工具；&lt;/p&gt;
&lt;p&gt;第八天，展示新的文生图模型；&lt;/p&gt;
&lt;p&gt;第九天，发布下一个GPT模型，更大的上下文窗口；&lt;/p&gt;
&lt;p&gt;第十天，发布辩论游戏，教机器辩论简单的问题；&lt;/p&gt;
&lt;p&gt;第十一天，发布Microscope，这是一个神经网络模型的可视化集合；&lt;/p&gt;
&lt;p&gt;第十二天，将高级语音模式的使用时间增加到每天20小时。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/87131239102d461c975e7a464929d4b6.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;GPT-5肯定也要来了吧！&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/fbc9a9cd8ab073de25794a4c83b27910.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;&lt;img src=&quot;images/fbc9a9cd8ab073de25794a4c83b27910.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;满血o1、Sora、Dall-e 4、芯片计划、ChatGPT新功能都得安排了。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/19c8328643227c51d1fe71bf0cd128f9.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;这些预测还是相当合理的，多数OpenAI都会实现。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/2de89ecf7fcd5f7d24e93addff60d0f1.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;这些预测很疯狂，但是我喜欢。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-20.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;回来了，这次大师兄真的回来了。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/fcb80b9d17c2d7d3e8912f0003701c57-1.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;这个圣诞节要实现AGI神迹了吗？&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/b63a67029703c2ce381f278d9fbb13ce.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;期待你们的产品发布，AGI将成为现实，有demo了？&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-21.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;看起来都对这次OpenAI的活动有很高的期待，并且其中有两个共识，满血o1、Sora是肯定包括在里面的，新的文生图模型、GPT的多模态视频模式，高级语音模式，带有内置AI Agent的新浏览器，与Johnny Ive合作的硬件设备。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-22.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;最期待的当然是满血o1和Sora了。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-23.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;Sora、满血o1赶紧端上来吧！&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-24.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;「Kaiho小站」将在这12天里，为大家持续介绍OpenAI的最新技术和产品展示。&lt;/p&gt;
&lt;p&gt;本文素材来源OpenAI，如有侵权请联系删除&lt;/p&gt;
</content:encoded></item><item><title>各类 AI API获取方法，GPT | Claude | Midjourney等</title><link>https://kaiho.tech/posts/ai-api/</link><guid isPermaLink="true">https://kaiho.tech/posts/ai-api/</guid><description>在当今数字化转型的浪潮中，企业和开发者都面临着前所未有的技术...</description><pubDate>Mon, 02 Dec 2024 00:00:00 GMT</pubDate><content:encoded>&lt;h2&gt;前言&lt;/h2&gt;
&lt;p&gt;在当今数字化转型的浪潮中，企业和开发者都面临着前所未有的技术挑战与机遇。随着ChatGPT等大语言模型的崛起，AI应用开发已从可选项变成了必选项。在AI应用开发中，成本控制是一个普遍的痛点。单是API调用费用就包含了多个维度：不同供应商、不同计费模式、不同使用阶梯。&lt;/p&gt;
&lt;p&gt;那有没有一个平台能够统一这些，不需要自己手动去每个平台申请呢？？？&lt;/p&gt;
&lt;p&gt;这就是今天带来的新平台！！！（现在注册赠送 &lt;strong&gt;0.2$&lt;/strong&gt;）&lt;/p&gt;
&lt;p&gt;平台链接：&lt;a href=&quot;https://ai.kaiho.cc/models&quot;&gt;Kaiho小站 API中转站&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-1-1024x512.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;h2&gt;介绍&lt;/h2&gt;
&lt;p&gt;借助此平台，同一个令牌就可以使用市面上大部分模型，不再需要去多个平台中转&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-2-1024x514.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;超详细的使用教程，完全不用担心自己不会使用&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-3-1024x521.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;内置三个聊天工具，单纯使用不用于开发也是完全可行，完全按照严格的计费方式，用多少扣除多少，不不再需要一个又一个的平台订阅，音乐、绘画、视频统统集中在一个平台&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-4-1024x509.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;后面继续分享该平台的使用，以及常见的AI程序如何配置API使用的教程。&lt;/p&gt;
&lt;p&gt;现在注册赠送 0.2$ 的余额可以直接用于体验，赶快去试一试吧！！！&lt;/p&gt;
</content:encoded></item><item><title>OpenAI 新一代大模型「o1」，突破LLM推理极限</title><link>https://kaiho.tech/posts/gpt-o1/</link><guid isPermaLink="true">https://kaiho.tech/posts/gpt-o1/</guid><description>昨天刚被爆出要提早两周发布「Strawberry」的Open...</description><pubDate>Fri, 13 Sep 2024 00:00:00 GMT</pubDate><content:encoded>&lt;h2&gt;前言&lt;/h2&gt;
&lt;p&gt;昨天刚被爆出要提早两周发布「Strawberry」的OpenAI，在北京时间凌晨1点，没有任何预兆地发布了新模型，简简单单，就叫「o1」（aka草莓）、&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/o1-1-300x289.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;「o1」模型可以实现复杂推理，尤其擅长做科学、编码、数学问题，OpenAI再次证明在LLM领域自己依然是先驱者。&lt;/p&gt;
&lt;h2&gt;什么是「o1」&lt;/h2&gt;
&lt;p&gt;「o1」的核心特点是能够在给出回复前用更多时间&lt;strong&gt;进行思考&lt;/strong&gt;，这一机制是 LLM 对无限推理模型的迈进，旨在模仿人类去解决复杂问题的思考方式。&lt;/p&gt;
&lt;p&gt;它允许AI在给出最终答案之前，进行长时间、多层次的推理，想的更久，得到的也越准确。&lt;/p&gt;
&lt;p&gt;通过这种训练模式，AI学会了「深思熟虑」，来提高对复杂任务的推理表现。「o1」不仅在大部分基准测试中胜过「GPT-4o」，在数学、物理、生物等类型的基准测试中，甚至直接超过了人类博士水平&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/o1-3-1-1024x704.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;逻辑推理上，「o1」选择用 AIME（美国数学邀请赛——一个仅次于奥林匹克数学竞赛的项目，该考试旨在挑战美国最聪明的高中数学学生）进行测试&lt;/p&gt;
&lt;p&gt;在2024年AIME考试中，「GPT-4o」平均只解决了 12% (1.8/15) 的问题，而「o1」在每个问题单样本的情况下平均为 74% (11.1/15)，在 64 个样本之间达成一致的情况下为 83% (12.5/15)，二如果重新排列1000个样本，成绩甚至可以达到93% (13.9/15)。&lt;/p&gt;
&lt;p&gt;13.9的成绩，相当于可以进入全国前500名学生之列，且高于美国数学奥林匹克运动会的临界&lt;/p&gt;
&lt;p&gt;在编程能力方面，OpenAI 模拟了 Codeforces 主办的竞争性编程竞赛，采用的评估与竞赛规则非常接近，可以提交 10 份代码验证。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/o1-4-1024x575.webp&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;根据测试结果来看，「o1」远超于「GPT-4o」的表现，「o1」得分 1807，排名89位，超过 93% 的人类选手，而「GPT-4o」仅得到 808 分&lt;/p&gt;
&lt;h2&gt;底层训练方式&lt;/h2&gt;
&lt;p&gt;「o1」是经过&lt;strong&gt;强化学习&lt;/strong&gt;训练来执行复杂推理任务，在响应用户之前&lt;strong&gt;产生一个很长的内部思维链&lt;/strong&gt;，也就是该模型在作出反应之前，需要像人类一样，花更多时间思考问题。通过训练，它们学会完善自己的思维过程，尝试不同的策略，并认识到自己的错误&lt;/p&gt;
&lt;p&gt;「o1」模型训练方法的核心原理是一项名为**「Self-Play」**的技术&lt;/p&gt;
&lt;p&gt;简单来说就是让AI与自身的不同版本进行「对弈」或「互动」，这种方法最初在游戏AI领域取得成功，比如AlphaGo和AlphaZero。&lt;/p&gt;
&lt;p&gt;整个训练过程可以简单描述为：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;模型会生成多个推理步骤或思考路径&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;这些路径被评估和比较，选出最优的结果&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;模型从这个过程中学习，改进自己的推理能力&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;因此，相比于传统生成式大模型一次性生成答案的「快思考」，「o1」虽然回复时间较长，却因为进行了多步骤、迭代式的推理过程，能显著提高了在数学和科学领域的推理能力。&lt;/p&gt;
&lt;p&gt;因此，o1的局限性也是较为明显的，响应慢，暂时没有网页浏览和文件处理等GPT 4o具备的功能（后续官方表明会添加）。&lt;/p&gt;
&lt;h2&gt;「o1」强大功能&lt;/h2&gt;
&lt;p&gt;OpenAI为了展示「o1」可以做什么，连发了16条视频，具体视频链接放在下方&lt;/p&gt;
&lt;p&gt;OpenAI介绍视频：&lt;a href=&quot;https://www.youtube.com/@OpenAI&quot;&gt;https://www.youtube.com/@OpenAI&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/o1-5-1-1-1024x241.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/o1-6-1-1024x241.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;在视频中可以看到「o1」在多领域内都有相当好的成绩，能编码、能推理、能理解语言&lt;/p&gt;
&lt;p&gt;视频中更是让其编写电子游戏代码、、回答人工智能难题、解释复杂的量子物理概念、、解决高难度的逻辑谜题、分析遗传学问题、分析经济问题、修复错误句子等等&lt;/p&gt;
&lt;h2&gt;如何使用&lt;/h2&gt;
&lt;p&gt;除了预览版，「o1」还发布了一个更快、更便宜的「 o1-mini」模型。&lt;/p&gt;
&lt;p&gt;ChatGPT Plus 和 Team（个人付费版与团队版）用户可以手动选取使用「o1-preview」 或「o1-mini」&lt;/p&gt;
&lt;p&gt;目前，每位用户每周仅能给 o1-preview 发送 30 条消息，给 o1-mini 发送 50 条消息。&lt;/p&gt;
&lt;p&gt;是的，使用次数很有限！不过 OpenAI 表示正在努力提升用户的可使用次数，并让 ChatGPT 能自动针对给定提示词选择使用合适的模型。&lt;/p&gt;
&lt;p&gt;从今天开始，ChatGPT Plus 和 Team 用户将能够访问 ChatGPT 中的「o1」模型。「o1-preview」的每周速率限制为 30 条消息，「o1-mini 」的每周速率限制为 50 条。&lt;/p&gt;
&lt;p&gt;符合 5级API使用量（消费类1000$以上且超过1个月的付费用户）的开发人员今天可以开始使用 API 中的两种模型进行原型设计，速率限制为 20 RPM。&lt;/p&gt;
&lt;p&gt;接下来，OpenAI 除了继续更新模型，推出正式版之外，o1还将陆续添加浏览、文件和图像上传等功能。&lt;/p&gt;
&lt;p&gt;以及，除了新的 OpenAI o1 系列之外，还计划继续开发和发布 GPT 系列中的模型。&lt;/p&gt;
</content:encoded></item><item><title>ChatGPT 对话记录自动备份超简单教程</title><link>https://kaiho.tech/posts/chatgpt-records-backup/</link><guid isPermaLink="true">https://kaiho.tech/posts/chatgpt-records-backup/</guid><description>用 ChatGPT 有时候不知不觉发现左边对话栏挤满了对话记...</description><pubDate>Sun, 01 Sep 2024 00:00:00 GMT</pubDate><content:encoded>&lt;h2&gt;前言&lt;/h2&gt;
&lt;p&gt;用 ChatGPT 有时候不知不觉发现左边对话栏挤满了对话记录，想删吧又怕以后会用到，不删又感觉很碍事，那么一个方便的备份工具就是非常重要的了。&lt;/p&gt;
&lt;p&gt;今天给大家分享一个新的好用的插件，可以直接备份ChatGPT的对话记录。&lt;/p&gt;
&lt;h2&gt;对话备份&lt;/h2&gt;
&lt;p&gt;使用浏览器插件进行备份，点击「下载」&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/chatgptbf-1-1024x590.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;跳转到插件页面后直接选择「添加」&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/chatgptbf1-1-1024x632.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;添加后可以选择固定到工具栏&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/chatgptbf5-1.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;打开ChatGPT官网，等待插件加载，加载好之后右上角会弹出如下显示&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/chatgptbf6-1-1024x477.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;点击「云端备份」，登录WildCard账号&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/chatgptbf7-1-706x1024.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;登录后插件会开始自动备份，等待自动备份完成&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/chatgptbf8-1.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/chatgptbf9-1.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;备份完成后，点击「查看备份」，就可以看到已经备份的GPT对话了&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/chatgptbf10-1-1024x590.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;h2&gt;其他设置&lt;/h2&gt;
&lt;p&gt;还有一些可能会遇到的问题，这里一并给出一些答案&lt;/p&gt;
&lt;p&gt;一般情况下安装好之后，插件是默认启动的，如果没有效果，可以点击工具栏的「WildCard插件」，选择「管理扩展程序」&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/chatgptbf14-1.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;设置成如下，启用插件即可&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/chatgptbf13-1-866x1024.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;这个插件也可以自己设置备份频率，点击插件选中「选项」&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/chatgptbf11-1.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;自己设置频率即可&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/chatgptbf12-1.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;好了，今天的分享到这里，有问题可以评论区提问，有好用的工具也可以互相分享！！！&lt;/p&gt;
</content:encoded></item><item><title>Google 账号注册最新教程，附问题解决方案</title><link>https://kaiho.tech/posts/google-account-register/</link><guid isPermaLink="true">https://kaiho.tech/posts/google-account-register/</guid><description>Google账号注册其实是一件比较容易的事情，唯一的卡点相信...</description><pubDate>Thu, 29 Aug 2024 00:00:00 GMT</pubDate><content:encoded>&lt;h2&gt;前言&lt;/h2&gt;
&lt;p&gt;Google账号注册其实是一件比较容易的事情，唯一的卡点相信就是卡在手机号这个地方，而这一块大概率也是因为IP的问题而导致的，这篇文章会重点讲讲这个卡点如何解决&lt;/p&gt;
&lt;p&gt;Google账号成品购买：&lt;a href=&quot;https://nf.video/e7e4rs/?gid=36&quot;&gt;https://nf.video/e7e4rs/?gid=36&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;上述平台可以直接购买Google成品号，优惠码：kaihoxz&lt;/p&gt;
&lt;h2&gt;注册&lt;/h2&gt;
&lt;p&gt;打开Google账号页面：&lt;a href=&quot;https://accounts.google.com/&quot;&gt;https://accounts.google.com/&lt;/a&gt;，选择「创建账号」&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/google-account-1024x524.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;输入「名称」&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/google-account-1-1024x379.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;输入「基本信息」&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/google-account1-1-1024x400.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;然后选择一个邮箱，这是根据你前面填入的姓名自动生成的，也可以创建自己的Gmail地址&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/google-account2-1024x402.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;输入「密码」&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/google-account3-1024x413.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;辅助邮箱选择「跳过」&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/google-account4-1024x379.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;点击「我同意」，到这里Google账号就创建完毕了&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/google-account5-1-899x1024.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;哎不是，怎么这么简单就完成了？？？？&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/google-account6-1-753x1024.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;Google账号和IP有很大关系，IP干净就像我这次一样轻松完成。但为了这篇教程的完整性，我这里讲一下遇到手机号验证该怎么解决&lt;/p&gt;
&lt;h2&gt;手机号验证问题&lt;/h2&gt;
&lt;p&gt;因为我这没有手机号的截图了，我直接讲解一下解决方法&lt;/p&gt;
&lt;h3&gt;解决方法一&lt;/h3&gt;
&lt;p&gt;这个应该是网上找到最多的解决方式——修改浏览器语言&lt;/p&gt;
&lt;p&gt;首先打开「设置」&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/google-account7-1-1.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;选择「语言」，选择「添加语言」，找到「英语（美国）」添加&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/google-account8-1-1024x551.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;选择英语显示&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/google-account9-1-1024x493.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;点击「重新启动」，返回注册页面验证手机号即可&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/google-account10-1.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;h3&gt;解决方法二&lt;/h3&gt;
&lt;p&gt;用接码平台使用国外手机号来注册&lt;/p&gt;
&lt;p&gt;接码平台：&lt;a href=&quot;https://sms-activate.io/?ref=10885965&quot;&gt;https://sms-activate.io/?ref=10885965&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;打开接码平台，在左侧搜索栏输入「Google」&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/google-account11-1-1024x394.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;在显示的结果中选择「Google,youtube,Gmail」，选择「England」，点击购买，也可以选择其他国家的，建议优先选择排名靠前的，成功率更高&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/google-account12-1-291x1024.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;点击后直接选择「Buy」即可，会有20分钟的接码时间，如果没有收到，20分钟后会自动退款&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/google-account13-1-671x1024.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;购买成功后会跳转页面显示购买的号码，复制到Google注册页面即可&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/google-account15-1-1024x782.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;如果在点击「Buy」时显示余额不足，可以先去充值一些&lt;/p&gt;
&lt;p&gt;点击右上角个人边上的「+」号，选择「Alipay」，充值一定金额再回去购买即可&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/google-account14-1-840x1024.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;h3&gt;解决方法三&lt;/h3&gt;
&lt;p&gt;使用海外家庭网络环境，可以解决IP不干净的问题&lt;/p&gt;
</content:encoded></item><item><title>简历资源分享</title><link>https://kaiho.tech/posts/resume-share/</link><guid isPermaLink="true">https://kaiho.tech/posts/resume-share/</guid><description>「简历及面试资料」：https://drive.uc.cn/...</description><pubDate>Thu, 20 Jun 2024 00:00:00 GMT</pubDate><content:encoded>&lt;h2&gt;简历模板：&lt;/h2&gt;
&lt;p&gt;&lt;img src=&quot;images/Snipaste_2024-06-20_17-38-50-726x1024.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/Snipaste_2024-06-20_17-39-07-725x1024.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/Snipaste_2024-06-20_17-39-41-727x1024.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/Snipaste_2024-06-20_17-40-43-725x1024.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/Snipaste_2024-06-20_17-39-53.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/image-2.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;h3&gt;UC网盘：&lt;/h3&gt;
&lt;p&gt;「简历及面试资料」：&lt;a href=&quot;https://drive.uc.cn/s/dfabe434ee4a4&quot;&gt;https://drive.uc.cn/s/dfabe434ee4a4&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;「求职工具包」：&lt;a href=&quot;https://drive.uc.cn/s/5a4dab0d945d4&quot;&gt;https://drive.uc.cn/s/5a4dab0d945d4&lt;/a&gt;&lt;/p&gt;
&lt;h3&gt;夸克网盘：&lt;/h3&gt;
&lt;p&gt;「简历及面试资料」：&lt;a href=&quot;https://pan.quark.cn/s/3ee34a99d216&quot;&gt;https://pan.quark.cn/s/3ee34a99d216&lt;/a&gt;&lt;br /&gt;
「求职工具包」：&lt;a href=&quot;https://pan.quark.cn/s/9a2e46bf648d&quot;&gt;https://pan.quark.cn/s/9a2e46bf648d&lt;/a&gt;&lt;/p&gt;
</content:encoded></item><item><title>OpenAI最新模型——GPT-4o，实时语音视频交互，未来人机交互近在眼前</title><link>https://kaiho.tech/posts/gpt-4o/</link><guid isPermaLink="true">https://kaiho.tech/posts/gpt-4o/</guid><description>北京时间 5 月 14 日凌晨，OpenAI 发布新一代模型...</description><pubDate>Wed, 15 May 2024 00:00:00 GMT</pubDate><content:encoded>&lt;h2&gt;前言&lt;/h2&gt;
&lt;p&gt;北京时间 5 月 14 日凌晨，OpenAI 发布新一代模型——GPT-4o，仅在 ChatGPT 面世 17 个月后，OpenAI 再次通过新模型震惊世界，推出了科幻电影般的超级 AI，并且完全免费供大众使用。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/gpt-4o-1-1024x466.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;h2&gt;划时代的发布会&lt;/h2&gt;
&lt;p&gt;5月14日凌晨，OpenAI 在首届“春季新品发布会”上隆重推出了新一代旗舰生成模型 GPT-4o、桌面应用程序，并展示了一系列令人惊叹的新功能。连 OpenAI CEO 山姆·奥特曼都不禁感叹：这简直像电影中的情节。&lt;/p&gt;
&lt;p&gt;https://www.youtube.com/watch?v=DQacCB9tDaw&lt;/p&gt;
&lt;p&gt;此次发布会由 OpenAI 首席技术官 Mira Murati 主持，她指出 OpenAI 的三大重要理念：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;免费优先&lt;/strong&gt;：OpenAI 致力于让更多人能够使用其产品。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;桌面应用程序和更新 UI&lt;/strong&gt;：新版本的桌面应用程序更加简便和自然。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;全新大模型 GPT-4o&lt;/strong&gt;：GPT-4o 以极其自然的交互方式为每个人提供 GPT-4 级别的智能，包括免费用户。&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;此次更新后，ChatGPT 可以接收文本、音频和图像的任意组合输入，并实时生成相应的输出。这种全新的交互方式将引领未来主流的交互模式。&lt;/p&gt;
&lt;p&gt;如今，ChatGPT 不仅无需注册即可使用，更是推出了桌面程序。OpenAI 的目标是让人们能够随时随地无感使用 ChatGPT，将其无缝集成到工作流程中，真正提升生产力​。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;/images/gpt-4o/chatgpt.gif&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;GPT-4o 是一款面向未来的全新大模型，具有文本、语音、图像三种模态的理解力，反应迅速且情感丰富。在发布会上，OpenAI 工程师们展示了 GPT-4o 的主要功能，包括实时语音对话、视觉能力和代码解析能力。&lt;/p&gt;
&lt;p&gt;在现场，OpenAI 的工程师Mark Chen 说：「我第一次来直播的发布会，有点紧张。」&lt;/p&gt;
&lt;p&gt;ChatGPT 说：「要不你深呼吸一下。」&lt;br /&gt;
「好的，我试着深呼吸」&lt;/p&gt;
&lt;p&gt;ChatGPT 立即回答说「你这不行，喘得也太大了。」&lt;br /&gt;
如果之前有用过 Siri 之类的语音助手的经历，你就会发现极大的区别。&lt;/p&gt;
&lt;p&gt;首先，你可以随时打断 AI 的话，不用等它说完就可以继续下一轮对话。其次，你不用等待，模型反应极快，比人类的回应还快。第三，模型能够充分理解人类的情感，自己也能表现出各种感情。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;/images/gpt-4o/chatgpt2.gif&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;在视觉能力方面，另一个工程师直接在纸上写下一个方程式，并且让 ChatGPT 不需要直接给答案，而是让它解释要一步步怎么做。看得出来，它在教人做题方面很有潜力，在 AI 教育产业上看来会有很大的冲击。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;/images/gpt-4o/chatgpt4.gif&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;此外，在发布会上还展示了 GPT-4o 的实时翻译和表情识别能力。这些功能将使用户能够更加自然地与 ChatGPT 互动，真正达到了实时的视频理解。&lt;/p&gt;
&lt;h2&gt;新一代模型——&lt;strong&gt;GPT-4o&lt;/strong&gt;&lt;/h2&gt;
&lt;p&gt;GPT-4o，o 即代表 Omnimodel（全能模型）&lt;/p&gt;
&lt;p&gt;GPT-4o 是 OpenAI 在集成多模态模型方面的重大突破。该模型在文本、视觉和音频方面的性能大幅提升，响应速度极快，接近人类水平。OpenAI 通过端到端训练，将所有输入和输出统一处理，实现了跨模态的实时推理​。&lt;/p&gt;
&lt;p&gt;GPT-4o 在英文文本和代码方面的性能与 GPT-4 Turbo 相当，但在非英文文本方面表现显著提升。同时，它的 API 速度也有所增加，使成本降低了 50%。与现有模型相比，GPT-4o 在视觉和音频理解方面尤为出色。&lt;/p&gt;
&lt;p&gt;它可以在 232 毫秒内快速响应音频输入，平均响应时间为 320 毫秒，与人类相似。在 GPT-4o 发布之前，使用 ChatGPT 的语音对话功能的用户注意到平均延迟分别为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。&lt;/p&gt;
&lt;p&gt;这种快速的语音响应是由三个独立模型组成的流程实现的：一个简单模型将音频转录为文本，GPT-3.5 或 GPT-4 处理文本并生成文本输出，第三个简单模型将文本转换回音频。然而，OpenAI 发现这种方法导致 GPT-4 丢失了大量信息，例如模型无法直接观察到音调、多个说话者、背景噪音，也无法输出笑声、歌唱或情感表达。&lt;/p&gt;
&lt;p&gt;相比之下，在 GPT-4o 上，OpenAI 跨文本、视觉和音频领域进行了端到端的训练，意味着所有输入和输出都由同一神经网络处理。这消除了信息丢失，并使模型能够更加细致、丰富地理解上下文，并提供更加多样化和丰富的响应。&lt;/p&gt;
&lt;p&gt;此外，GPT-4o 在理解和生成图像方面的能力也远胜于之前，此前很多不可能的任务都变得「易如反掌」。&lt;/p&gt;
&lt;p&gt;比如，一首诗可以用手写样式来进行排版：&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/gpt-4o-2-1-981x1024.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;或者更复杂，具有艺术性的排版：&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/gpt-4o-3-1-1024x709.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/gpt-4o-4-1-1024x1004.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;并且 GPT-4o 还拥有 3D 视觉内容生成的能力：&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/gpt-4o-5-1-1024x612.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;/images/gpt-4o/3d-03-1.gif&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;更多的一些特性可以通过此链接查看：&lt;a href=&quot;https://openai.com/index/hello-gpt-4o/&quot;&gt;https://openai.com/index/hello-gpt-4o/&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;每周都有超过一亿人在使用 ChatGPT，OpenAI 表示 GPT-4o 的文本和图像功能从 5 月 14 日开始免费在 ChatGPT 中推出，使用限制为 3 小时 16 条，&lt;strong&gt;Plus 用户提供高达 5 倍的消息上限&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;如今，部分账户登录即可看到 GPT-4o 已经可以使用&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/gpt-4o-6-1.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;此外，免费用户还拥有以下几个功能&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;数据分析并创建图表&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;图片、文件上传&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;发现并使用 GPTs 和 GPTs 应用商店&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;在未来几周内，OpenAI 将在 ChatGPT Plus 中推出 GPT-4o alpha 的新版本语音模式，并通过 API 向一小部分可信赖的合作伙伴提供更多新的音频和视频功能。&lt;/p&gt;
&lt;p&gt;尽管经过多次模型测试和迭代，GPT-4o 在所有模态下仍存在一些局限性，但 OpenAI 表示正在努力改进 GPT-4o。&lt;/p&gt;
&lt;p&gt;当然，GPT-4o 音频模式的开放肯定会带来各种新的挑战。在安全性方面，OpenAI 已经通过过滤训练数据和对训练后模型行为进行细化等技术来内置跨模态设计的安全性。此外，OpenAI 还创建了新的安全系统，以确保语音输出的安全。&lt;/p&gt;
&lt;h2&gt;全新&lt;strong&gt;桌面应用程序&lt;/strong&gt;（Mac）&lt;/h2&gt;
&lt;p&gt;OpenAI 推出了适用于 macOS 的新 ChatGPT 桌面应用程序，面向所有的免费和付费用户。通过简单的键盘快捷键「Option + Space」，用户可以立即向 ChatGPT 提出问题。此外，应用程序还支持用户直接截取屏幕截图，基于截图和 ChatGPT 沟通。&lt;/p&gt;
&lt;p&gt;下载链接：&lt;a href=&quot;https://persistent.oaistatic.com/sidekick/public/ChatGPT_Desktop_public_latest.dmg&quot;&gt;https://persistent.oaistatic.com/sidekick/public/ChatGPT_Desktop_public_latest.dmg&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;虽然说是 Plus 用户可以使用，不过我自己测试过来 Plus 用户也会报如下错误，应当还是在内测中&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/gpt-4o-7-1-204x300.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;h2&gt;&lt;strong&gt;畅谈 GPT-4o 的愿景&lt;/strong&gt;&lt;/h2&gt;
&lt;p&gt;在发布会结束后，OpenAI CEO 山姆·奥特曼久违地在博客上分享了关于 GPT-4o 工作的一些心路历程：&lt;/p&gt;
&lt;p&gt;“在今天的发布会上，我想强调两件事。首先，我们的使命之一是将强大的人工智能工具免费或以优惠的价格提供给大众。我非常自豪地宣布，我们在 ChatGPT 中免费提供世界上最好的模型，没有广告或类似的东西。&lt;/p&gt;
&lt;p&gt;当我们创立 OpenAI 时，我们的初衷是创造出人工智能并利用它为世界创造各种利益。现在情况有所变化，似乎我们创造了人工智能，其他人将使用它来创造各种令人惊叹的事物，我们所有人都会从中受益。&lt;/p&gt;
&lt;p&gt;当然，作为一家企业，我们也会开发很多收费的服务，这将帮助我们向数十亿人提供免费、优秀的人工智能服务（希望如此）。&lt;/p&gt;
&lt;p&gt;其次，新的语音和视频模式是我用过的最好的计算交互界面。感觉就像电影里的人工智能一样，我仍然有点惊讶于它竟然是真的。事实证明，达到人类水平的响应时间和表达能力是一个巨大的飞跃。&lt;/p&gt;
&lt;p&gt;最初的 ChatGPT 展示了语言界面的可能性，而这个新事物（GPT-4o 版本）给人的感觉有本质上的不同——它快速、智能、有趣、自然且能给人带来帮助。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/gpt-4o-8-1.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;对我来说，与电脑交互从来都不是很自然的事情，事实如此。而当我们添加（可选）个性化、访问个人信息、让 AI 代替人采取行动等功能时，我确实可以看到一个令人兴奋的未来，我们能够使用计算机做比以往更多的事情。&lt;/p&gt;
&lt;p&gt;最后，我要非常感谢团队为实现这一目标所付出的巨大努力！”&lt;/p&gt;
&lt;p&gt;奥特曼还提到，虽然实现全民基本收入（Universal Basic Income）困难重重，但我们可以实现“全民免费计算”（Universal Basic Compute）。未来，每个人都可以免费获得 GPT 的计算资源，可以使用、转售或捐赠。&lt;/p&gt;
&lt;p&gt;他解释道：“随着 AI 变得更加先进，并嵌入到我们生活的方方面面，拥有像 GPT-7 这样的大语言模型单元可能比金钱更有价值，你拥有了部分生产力。”&lt;/p&gt;
&lt;p&gt;GPT-4o 的发布，或许就是 OpenAI 朝着这个目标迈出的第一步。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;“是的，这还只是个开始。”&lt;/strong&gt;&lt;/p&gt;
</content:encoded></item><item><title>AI新纪元：Sora、GPT-5及未来技术的前沿探索</title><link>https://kaiho.tech/posts/gpt5-and-sora/</link><guid isPermaLink="true">https://kaiho.tech/posts/gpt5-and-sora/</guid><description>在最近一期 Lex Fridman 的播客中，Lex Fri...</description><pubDate>Thu, 21 Mar 2024 00:00:00 GMT</pubDate><content:encoded>&lt;h2&gt;前言&lt;/h2&gt;
&lt;p&gt;在最近一期 Lex Fridman 的播客中，Lex Fridman 采访了 Sam Altman，在访谈中 Sam Altman 说到：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;“We will release an amazing new model this year. I don’t know what we’ll call it.”&lt;/p&gt;
&lt;p&gt;今年我们将发布一个惊人的新模型。但我还不知道我们会怎么命名&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;在这次采访中，Sam Altman充分表达了他对于计算能力将成为未来货币的预测，以及他对人工智能未来发展的见解。&lt;/p&gt;
&lt;p&gt;本文旨在分享我从这次采访中获得的启发，深入探讨OpenAI的最新进展，包括Sora、GPT-5等项目的潜力，以及它们如何可能改变我们与人工智能的互动方式。同时，我们也将讨论在快速发展的人工智能技术面前，OpenAI如何面对伦理和安全的挑战，确保技术的负责任使用&lt;/p&gt;
&lt;p&gt;感兴趣的朋友可以去看看这个访谈视频&lt;/p&gt;
&lt;p&gt;[embed]https://www.youtube.com/watch?v=jvqFAi7vkBc[/embed]&lt;/p&gt;
&lt;h2&gt;OpenAI的愿景与挑战&lt;/h2&gt;
&lt;p&gt;在 Lex Fridman 与 Sam Altman 的对话中，OpenAI 的愿景被描绘为推动人工智能技术的极限，同时确保这些技术的发展能够惠及全人类。&lt;/p&gt;
&lt;h4&gt;推动技术极限&lt;/h4&gt;
&lt;p&gt;在谈到OpenAI的目标时，Sam Altman 强调了技术创新的重要性：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;“I think compute is going to be the currency of the future. I expect that by the end of this decade, and possibly somewhat sooner than that, we will have quite capable systems that we look at and say, ‘Wow, that’s really remarkable.’”&lt;/p&gt;
&lt;p&gt;我认为算力将成为未来的货币。我希望到这十年结束时，可能比这更早一些，我们将拥有非常有能力的系统，并说：“哇，这真的很了不起。’”&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;Sam Altman 尤其独特的见解，算力将成为未来的货币，并且它表达了 OpenAI 对于技术进步的承诺，以及对未来人工智能能力的乐观预期。&lt;/p&gt;
&lt;p&gt;通过项目如 GPT-4 和即将到来的 GPT-5，OpenAI 展示了其在不断推动语言模型和人工智能技术极限的决心。这些模型在语言理解、生成以及多模态任务执行方面的能力，展现了技术进步的巨大潜力。&lt;/p&gt;
&lt;h4&gt;与全人类的共赢&lt;/h4&gt;
&lt;p&gt;OpenAI 的愿景不仅仅是技术上的突破，更是希望通过技术进步实现全人类的共赢。这需要在技术、政策和经济模型上进行创新，以确保技术的广泛可用性和公平性。Sam Altman 对此有着清晰的认识：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;“We are exploring new economic models to ensure the benefits of technological progress are equitably distributed.”&lt;/p&gt;
&lt;p&gt;我们正在探索新的经济模型，以确保技术进步带来的好处能够公平分配。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;通过这次对话，我们可以看到 OpenAI 不仅仅是在推动技术的边界，更是在为实现一个更加公正、安全和繁荣的未来而努力。面对挑战，OpenAI 展现出了其对技术伦理和社会责任的深刻理解，以及通过合作和创新来克服这些挑战的决心。&lt;/p&gt;
&lt;h2&gt;Sora与GPT-5&lt;/h2&gt;
&lt;p&gt;在 Lex Fridman 的采访中，Sam Altman 讨论了 OpenAI 的未来方向，虽然具体细节未深入讨论，但可以从他的言论中推理出 Sora 项目和 GPT-5 的潜在方向和影响&lt;/p&gt;
&lt;h3&gt;Sora的启示&lt;/h3&gt;
&lt;p&gt;虽然在采访中未详细展开说明 Sora，但根据 Sam Altman 谈到的一些对 Sora 的描述我们可以推测一下，Sora 是 OpenAI 一路从 Dell1，2，3 走过来的，是一个重要的 3D 模型，它提供了更多的的可玩性，但是也还存在很多问题，有很多的弱点待完善，那短时间内 Sora 的全面发布使用应该还是比较困难的，OpenAI 还在对它进行完善，结合开头 Sam Altman 说的，Sora也可能会以一个全新的姿态真正出世。同样 OpenAI 对 Sora 的各项性能提高，这可能包括AI的理解能力、增强人机交互的自然性，或是探索AI在特定领域（如医疗、教育）的应用等等。但是 Sora 反映了 OpenAI 对于持续推进AI技术边界的承诺。&lt;/p&gt;
&lt;h3&gt;GPT-5的期待&lt;/h3&gt;
&lt;p&gt;关于 GPT-5，Sam Altman 虽然未提供具体的功能或发布时间线，但从 GPT 系列的发展趋势和 OpenAI 对技术创新的重视，我们可以合理推测 GPT-5 将在自然语言处理、理解和生成方面带来显著的进步。这可能意味着更高的语言理解精度、更广泛的知识覆盖，以及更加流畅的多语言支持。GPT-5 有望在提升 AI 与人类交互的自然性和效率方面迈出重要步伐。结合今年 OpenAI 将要发布的 “Amazing New Model”，不外乎就是 GPT-4 的下一代大模型应用&lt;/p&gt;
&lt;h2&gt;OpenAI的探索前沿&lt;/h2&gt;
&lt;p&gt;在对话中，Sam Altman 讨论了 OpenAI 在新兴AI技术和模型方面的探索和期待。虽然对话聚焦于特定项目如 GPT 系列和潜在的 Sora 项目，但从中我们可以窥见 OpenAI 对未来 AI 技术发展的广泛视野和深远影响。&lt;/p&gt;
&lt;h3&gt;推动AI技术的边界&lt;/h3&gt;
&lt;p&gt;OpenAI 一直在推动 AI 技术的边界，从早期的 GPT 模型到最新的 GPT-4，每一步都体现了对语言理解和生成能力的深度挖掘。Sam Altman对GPT-5的期待，虽未详细透露，但预示着 OpenAI 对于进一步提升模型性能和应用范围的不懈追求。这些进步不仅在于提高模型的准确性和响应速度，更在于增强模型对复杂语境和人类情感的理解能力。&lt;/p&gt;
&lt;h3&gt;探索AI在特定领域的应用&lt;/h3&gt;
&lt;p&gt;除了通用模型的开发，OpenAI 也在探索 AI 技术在特定领域的应用，如通过AI辅助医疗诊断、环境保护和教育改革。这些探索旨在将AI技术的潜力转化为解决实际问题的具体方案。&lt;/p&gt;
&lt;p&gt;Sam Altman 在采访中还强调，随着AI技术的快速发展，面临的挑战也日益增多，包括数据隐私、算法偏见和技术失控等问题。OpenAI 致力于通过开放合作、伦理研究和政策倡导，与全球社区共同面对这些挑战，确保AI技术的健康发展和负责任使用。&lt;/p&gt;
&lt;h2&gt;ChatGPT 的实用性与未来&lt;/h2&gt;
&lt;p&gt;ChatGPT 作为 OpenAI 最受欢迎的产品之一，已经在多个领域展现了其实用性和潜力。从提高工作效率到教育，从编程辅助到创意写作，ChatGPT 正在逐步改变我们与技术的互动方式&lt;/p&gt;
&lt;p&gt;ChatGPT 的能力在于其对自然语言的理解和生成，这使得它能够在多种工作场景中提供支持。例如，ChatGPT 可以帮助自动化客服回答，减轻人工客服的负担；在编程领域，它能够提供代码建议，帮助开发者提高工作效率。Sam Altman 提到，这种技术的进步将使得人们能够更加专注于创造性和策略性的工作，而非重复性任务&lt;/p&gt;
&lt;p&gt;ChatGPT 在教育领域的应用也展现了其巨大潜力。通过个性化的学习辅导和即时反馈，ChatGPT 能够为学生提供更加定制化的学习体验。此外，它还能够辅助教师准备教材和评估学生作业，提高教育效率。&lt;/p&gt;
&lt;p&gt;在创意写作、音乐制作和艺术创作等领域，ChatGPT 的应用开启了新的可能性。通过与 AI 的协作，创作者可以获得灵感，探索新的创意方向。Sam Altman 强调，这种技术的发展将使得创意过程更加多元化，为人类文化贡献新的视角和作品&lt;/p&gt;
&lt;p&gt;通过 Sam Altman 的洞察，我们可以看到 ChatGPT 及其背后的 AI 技术如何在塑造我们的未来。随着技术的不断进步，ChatGPT 预计将在更多领域发挥其潜力，为人类社会带来积极的变化。同时，我们也必须面对新技术带来的挑战，确保技术的发展能够惠及每一个人，&lt;strong&gt;时代在进步，我们也要进步&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;随着 AI 技术的持续进步，我们站在了一个新的历史节点上。ChatGPT 及其背后的技术不仅将继续改变我们的工作和生活方式，也将在更广泛的社会领域发挥重要作用。从提高生产力到促进创新，从改善教育到加强全球合作，ChatGPT 的影响力只会越来越大。对于每一个人来说，现在是加入这场AI变革、探索未来可能性的最佳时机。&lt;/p&gt;
&lt;p&gt;参考材料：&lt;a href=&quot;https://lexfridman.com/sam-altman-2-transcript&quot;&gt;https://lexfridman.com/sam-altman-2-transcript&lt;/a&gt;&lt;/p&gt;
</content:encoded></item><item><title>GPT4 统治时代成为过去式，Claude3 登顶第一</title><link>https://kaiho.tech/posts/claude3/</link><guid isPermaLink="true">https://kaiho.tech/posts/claude3/</guid><description>昨天晚上，Anthropic 正式推出了 Claude 3 ...</description><pubDate>Tue, 05 Mar 2024 00:00:00 GMT</pubDate><content:encoded>&lt;h2&gt;前言&lt;/h2&gt;
&lt;p&gt;昨天晚上，&lt;a href=&quot;https://www.anthropic.com/&quot;&gt;Anthropic&lt;/a&gt; 正式推出了 Claude 3 系列模型，包括 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku，这个由OpenAI分裂出去的兄弟公司 Anthropic，在悄然无息之间，在 X 上发了个帖子就发布了一个王炸——Claude 3 系列模型，其系列测试更是超出 GPT4 现有水平，让 GPT4 的统治地位遭受剧烈动摇，那这里我们来分析一下 Claude 3 的强悍在哪里？&lt;/p&gt;
&lt;h2&gt;更智能的 Claude3 家族&lt;/h2&gt;
&lt;p&gt;Claude 3 包含三种最先进的模型：Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus，允许用户为其特定应用选择智能、速度和成本的最佳平衡。&lt;/p&gt;
&lt;p&gt;这三款模型在推理、数学、编码、多语言理解和视觉处理等方面都相当扎眼&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;Haiku（中杯），轻量级的选择&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Sonnet（大杯），平衡性能与速度&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Opus（超大杯），AI 模型的巅峰之作&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;img src=&quot;images/Claude3.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;名字由来&lt;/p&gt;
&lt;p&gt;Opus大概意思就是史诗级乐章，特别厉害那种，&lt;/p&gt;
&lt;p&gt;Sonnet是十四行诗，&lt;/p&gt;
&lt;p&gt;Haiku是俳句，日本的那种三行短诗，&lt;/p&gt;
&lt;p&gt;所以可以简单的理解成：Opus（超大杯）、Sonnet（大杯）、Haiku（中杯）&lt;/p&gt;
&lt;p&gt;在这一系列模型中，Claude 3 Opus 是被认为最为先进的一款，特别是在处理高度复杂的任务方面。在包括本科级别的专业知识测评（MMLU）、研究生级别的专家推理测试（GPQA）、以及基本数学问题解答（GSM8K）等多种常见评测标准上，Opus 的表现超越了其每一项得分都全面超越了 GPT-4 以及 Gemini 1.0 Ultra。Anthropic 官方宣称，&lt;strong&gt;作为旗舰级别的超大杯 Opus 模型，其智能程度堪比人类&lt;/strong&gt;，能够游刃有余地应对开放式问题，并巧妙解决各种复杂挑战。&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/Claude3-1.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;可能直接看这个图没有感觉，我举个实际的例子&lt;/p&gt;
&lt;p&gt;比如 MGSM，多语言数学推理这个测试集，Claude 3 Opus达到 90.7% 的准确率，用的是0-shot，GPT-4是8-shot，达到了 74.5%，0-shot 意味着大模型没有在 Prompt 里给任何示例，就直接被要求完成任务。而 8-shot 则是在干活前，给了8个示例你这就能看出来区别了。一个没给示例直接上，一个给了 8 个示例，给了 8 个示例的 GPT-4 反而还打不过 Claude 3在复杂的推理任务上，&lt;strong&gt;Claude 3可以说是全面完胜GPT-4&lt;/strong&gt;。&lt;/p&gt;
&lt;h2&gt;视觉识别的巨大突破&lt;/h2&gt;
&lt;p&gt;Claude 3 相较于前代模型的显著进步之一，就在于其&lt;strong&gt;视觉识别功能&lt;/strong&gt;。具备处理包括照片、图表、图形乃至技术图纸在内的视觉信息的能力，Claude 3展现了多模态处理的能力，这一能力已成为当前顶级AI模型的标配。&lt;/p&gt;
&lt;p&gt;大多数顶尖的模型通常是基于英文语料库训练的，这自然导致它们在生成英语答案时表现出色，而在处理其他语言时则可能表现不佳。然而，Claude 3在这方面取得了显著的突破，它在处理&lt;strong&gt;西班牙语、日语和法语等非英语语言&lt;/strong&gt;的交流时，展现了卓越的能力和流畅的沟通技巧。&lt;/p&gt;
&lt;p&gt;（PS：希望所有大模型对中文支持赶紧提高）&lt;/p&gt;
&lt;h2&gt;安全性和可靠性&lt;/h2&gt;
&lt;p&gt;自 Claude 模型发布时，其设计理念就高度注重“安全而负责任的AI”原则。历代 Claude 模型在面对某些问题时，偶尔会表现出过度谨慎的态度，选择不作回应。&lt;/p&gt;
&lt;p&gt;随着Claude 3的推出，这一模型在理解用户请求、辨别潜在风险问题方面取得了显著进步。它不仅能够更敏感地识别出可能带来风险的查询，还能更准确地分辨那些实际上是无害的请求。&lt;/p&gt;
&lt;p&gt;在性能提升的同时，Claude 3继续强调模型的安全性和可靠性，严格按照人工智能安全等级2（ASL-2）的标准来开发和部署。&lt;/p&gt;
&lt;p&gt;ASL-2&lt;/p&gt;
&lt;p&gt;ASL-2代表的是AI系统面临中等级别的潜在风险，这要求开发者采取适当的安全措施以确保系统的安全运行。按照这一标准，虽然存在某些风险，但在大多数情况下，这些风险被视为可控，且不太可能对人类或环境造成严重威胁&lt;/p&gt;
&lt;p&gt;面对大型语言模型普遍存在的所谓“幻觉”问题，即模型可能产生与事实不符的回答，Anthropic 公司已经认识到这一点，并为 Claude 3 设计了一系列旨在应对这些已知缺陷的复杂且基于事实的挑战。&lt;/p&gt;
&lt;p&gt;与其前代 Claude 2.1 模型相较，Opus 版本在处理开放式问题的能力上实现了显著的飞跃，正确率实现了翻倍提升，同时在减少错误回答的生成上也取得了显著进展&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/Claude3-2-1.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;Anthropic 公司采纳了与 Perplexity AI 相似的策略，不仅旨在生成更加可靠的答案，还计划在即将推出的Claude 3 模型中加入引用功能。这将使模型能够引用参考资料中的具体句子来支持其答案的正确性，显著增强了答案的可验证性。&lt;/p&gt;
&lt;p&gt;此外，借鉴了 Perplexity AI 答案引擎的思维，Anthropic 计划在 Claude 3 模型中新增一个重要功能——引用功能，允许模型直接引用参考材料中的文本来证实其答案的准确性，这一步骤对于提高模型输出的可信度和透明度至关重要。&lt;/p&gt;
&lt;h2&gt;NIAH 评估测试超过 99%&lt;/h2&gt;
&lt;p&gt;NIAH，也就是我们俗称的大海捞针，测试的是模型从大量数据中准确检索信息的能力，为了增强这一测试的可信度，Anthropic 官方更是随机在多样化的众包文档集合中进行测试。&lt;/p&gt;
&lt;p&gt;结果显示，超大杯 Claude 3 Opus 不仅以超过 99% 的准确率实现了信息检索的近乎完美表现，而且在某些情况下，它能识别出哪些作为“针”的句子是由人为刻意插入的，充分展现了其对信息环境的深刻理解&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/Claude3-3.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;目前，Opus 和 Sonnet 已经正式开放，集成在 Anthropic 的 API 中，大家现在可以注册并开始使用这些模型，Haiku 模型也即将在不久后推出，到时也会第一时间和大家分享！&lt;/p&gt;
</content:encoded></item><item><title>OpenAI视频模型Sora的剖析与思考</title><link>https://kaiho.tech/posts/sora-principle-analysis/</link><guid isPermaLink="true">https://kaiho.tech/posts/sora-principle-analysis/</guid><description>在之前的视频生成技术领域，Runway一直被视为一个标杆，尽...</description><pubDate>Tue, 27 Feb 2024 00:00:00 GMT</pubDate><content:encoded>&lt;h2&gt;前言&lt;/h2&gt;
&lt;p&gt;在之前的视频生成技术领域，Runway一直被视为一个标杆，尽管它支持的视频长度最多只有18秒，而且镜头相对固定，其生成的内容更类似于动态图像，效果并不理想。至于Pika，它的营销宣传似乎大于实际效果，因此并未引起太多关注。&lt;/p&gt;
&lt;p&gt;尽管Runway在最近的更新中宣称视频生成技术已经迎来了类似GPT的革命性时刻，但实际上它仍然处于一个相对初级的阶段，更像是一个有趣的玩具，而非实用工具。相比之下，Sora则真正实现了视频生成技术的飞跃，它的出现可以被认为是视频生成领域的一个重要里程碑。&lt;/p&gt;
&lt;p&gt;观察Sora生成的视频效果，我们会发现其质量之高，以至于很难区分这些视频是由Sora生成的，还是来自于电影、纪录片、游戏、动画等经过高成本制作的精美内容。Sora生成的视频在视觉效果上与这些高质量内容相媲美，这无疑是一个令人印象深刻的成就。&lt;/p&gt;
&lt;p&gt;对于那些对Sora不太了解的朋友，可以在视频平台上搜索一下相关内容，你会发现许多展示Sora生成效果的视频，这些视频会给你一个直观的感受，让你领略Sora在视频生成技术上的强大能力。&lt;/p&gt;
&lt;p&gt;在今天的讨论中，主要探讨一下Sora的算法原理，分析它是如何实现如此高质量视频生成的，以及它在AI领域的意义和产品化能力&lt;/p&gt;
&lt;h2&gt;算法原理&lt;/h2&gt;
&lt;p&gt;自GPT-3以来OpenAI就没有公开模型的详细原理，包括ChatGPT的具体参数量，训练过程等，这次发布的Sora同样对其算法原理保持了一定的神秘性。&lt;/p&gt;
&lt;p&gt;简而言之，Sora采用了结合Transformer和Diffusion模型的架构，对视频结构进行了全面的创新。首先，它对视频进行处理，将其转换为具有时序的向量序列。Transformer模型擅长于预测一个向量序列中的下一个向量，因此无论是处理语言还是视频，都需要将原始信息转换为一个由高维向量组成的序列。对于GPT来说，这个最小单位是Token；而对于Sora来说，这个最小单位是Patch。&lt;/p&gt;
&lt;p&gt;不同之处在于，语言中的词或词组是天然的Token，并且是一维线性排列的。而视频除了具有时序性外，还具有长度和宽度，因此在Patch化之后，它们构成了一个由高维向量组成的三维空间。Sora通过一个压缩模型将这些三维空间处理成单维向量序列。 ​&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/sora1-1024x241.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;具体的实现细节尚未公开，我个人对视觉算法的原理研究较少，因此暂时没有进行深入的推测。&lt;/p&gt;
&lt;p&gt;从视频到高维向量序列的转换可以被视为一种压缩过程，而目前的Transformer模型能够实现语言的高维向量序列与视频高维向量序列之间的相互转换，这在本质上与语言翻译并无太大差异。&lt;/p&gt;
&lt;p&gt;同样，也可以从视频的高维向量序列还原出时空分布的三维Patch阵列，然后基于这个阵列使用扩散模型来生成视频。&lt;/p&gt;
&lt;p&gt;目前公布的Sora内容大致如此，尚有大量的工程化方案未被披露，而且可能也不会公开。&lt;/p&gt;
&lt;h2&gt;Sora产品化能力&lt;/h2&gt;
&lt;p&gt;Sora能够基于静态图片生成动态图像，这一点虽然看似简单，但在内容创作中却极为实用。更令人兴奋的是，Sora能够基于单一图片创建向前或向后延展的视频内容，比如从一个终结画面出发，衍生出三种不同的视频故事线&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/sora2-1024x417.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;Sora的视频到视频过渡技术同样令人印象深刻，其转场效果流畅自然，能够在不同视频场景之间实现无缝链接，除此之外，Sora还提供了基于语言控制的视频风格转换能力，允许用户将视频转换成卡通风格、未来风格或其他各种风格，这一点通过多种语言指令实现，每一种尝试都能带来令人满意的效果。&lt;/p&gt;
&lt;p&gt;结合SD+controlNet的图像生成技术和一些lora方案，Sora的技术堆栈能够创造出无限的可能性。文章中提到，他们利用GPT4生成更高级的用户提示，如分镜和转场要求，以此与模型进行更有效的交互。&lt;/p&gt;
&lt;p&gt;在Sora的帮助下，视频内容的制作成本可以大幅降低，即使是没有摄影基础的个人也能制作出高质量的作品，前提是需要有良好的讲故事技巧。这不仅推动了创作工具的发展，让每个人都有机会成为特定场景下的主角，而且还极大提高了广告领域的工作效率，使得高质量视频广告的生产变得更加快速和便捷。&lt;/p&gt;
&lt;p&gt;尽管这些技术为文字和图片的创业生态带来了巨大的机遇，但其竞争优势的持久性还有待观察。在文字领域，知识库构成了一定的门槛；而在视频创作领域，如果依赖于OpenAI等外部接口，那么持久优势可能更多地依赖于对场景的深入理解和工程化能力。&lt;/p&gt;
&lt;p&gt;总的来说，虽然Sora的技术无疑为视频制作领域带来了革命性的变化，但它并不意味着会彻底颠覆现有的短视频生态。Sora提供的是一种先进的视频制作工具，而内容的分发和制作工具本身是两个截然不同的领域。&lt;/p&gt;
&lt;h2&gt;总结&lt;/h2&gt;
&lt;p&gt;目前Sora还没有公测，其原因可能是计算成本非常高，想当初GPT开放时OpenAI的服务器也一度过载，更不用说视频计算。不过OpenAI拟融资7000亿美金进军芯片领域的新闻相信大家都有所耳闻了，如果在算力能用巨大突破，想来Sora的普及化也是指日可待的。&lt;/p&gt;
</content:encoded></item><item><title>Midjourney 使用基础教程（一）</title><link>https://kaiho.tech/posts/how-to-use-midjourney/</link><guid isPermaLink="true">https://kaiho.tech/posts/how-to-use-midjourney/</guid><description>Midjourney 订阅教程移步：国内充值 Midjour...</description><pubDate>Fri, 02 Feb 2024 00:00:00 GMT</pubDate><content:encoded>&lt;h2&gt;前言&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;Midjourney&lt;/strong&gt; 订阅教程移步：&lt;a href=&quot;/posts/Midjourney/&quot;&gt;国内充值 Midjourney 订阅详细教程&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;Midjourney是一个基于人工智能的图像生成工具，它允许用户通过简单的文本提示创建高度详细和创意的图像。这个工具使用了先进的深度学习模型来理解用户的文本描述，并根据这些描述生成图像。以下是Midjourney的基本使用和介绍，最后附&lt;strong&gt;实操示例&lt;/strong&gt;&lt;/p&gt;
&lt;h2&gt;基本使用步骤&lt;/h2&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;访问Midjourney&lt;/strong&gt;: 用户首先需要访问Midjourney的网站或者使用其提供的平台，如Discord服务器，来开始使用&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;创建文本提示&lt;/strong&gt;: 用户根据想要生成的图像类型和风格，输入一个或多个简洁明了的文本提示。这个提示可以包括场景描述、颜色、情感氛围等。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;选择图像风格&lt;/strong&gt;: Midjourney允许用户选择或指定图像风格，比如现实主义、抽象、卡通等，来进一步定制需要的输出。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;生成图像&lt;/strong&gt;: 输入文本提示后，Midjourney将处理这些信息并生成一系列图像选项供用户选择。这个过程可能需要几秒到几分钟不等，取决于复杂度和服务器负载。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;调整和优化&lt;/strong&gt;: 可以选择最喜欢的图像，并可能进行进一步的调整或请求再生成以达到完美的效果。&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;h2&gt;基本命令&lt;/h2&gt;
&lt;p&gt;Midjourney使用的基本命令主要通过其Discord服务器进行交互，用户可以通过发送特定命令来生成图像、调整参数或进行其他操作。以下是一些常用的Midjourney基本命令及其用途：&lt;/p&gt;
&lt;h3&gt;生成图像&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;/imagine&lt;/code&gt;：这是最基本的命令，用于生成图像。用户需要在这个命令后跟上他们的文本提示，例如&lt;code&gt;/imagine prompt:夜空中的北极光&lt;/code&gt;。&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;调整图像&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;--v&lt;/code&gt; 或 &lt;code&gt;--version&lt;/code&gt;：指定使用特定的Midjourney版本生成图像。不同版本的模型可能会产生风格和细节上的差异。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;--ar&lt;/code&gt; 或 &lt;code&gt;--aspect-ratio&lt;/code&gt;：调整生成图像的宽高比，例如&lt;code&gt;--ar 16:9&lt;/code&gt;用于生成宽屏图像。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;--quality&lt;/code&gt;：调整生成图像的质量和细节水平。高质量设置可能会增加生成时间。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;风格和效果&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;--style&lt;/code&gt;：指定生成图像的风格，如&lt;code&gt;--style photorealistic&lt;/code&gt;生成照片级真实感图像。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;--mood&lt;/code&gt;：指定图像的情绪或氛围，如&lt;code&gt;--mood eerie&lt;/code&gt;生成诡异的氛围。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;优化和迭代&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;U&lt;/code&gt;、&lt;code&gt;M&lt;/code&gt;、&lt;code&gt;L&lt;/code&gt;按钮：在图像生成后，Midjourney通常会提供四个选项供用户选择。选择其中一个图像，然后点击&lt;code&gt;U&lt;/code&gt;（向上）、&lt;code&gt;M&lt;/code&gt;（中等）或&lt;code&gt;L&lt;/code&gt;（向左）按钮可以在该基础上进一步迭代和优化图像。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;/upscale&lt;/code&gt;：对选定的图像进行高分辨率处理，以获得更高质量的输出。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;h3&gt;其他命令&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;/help&lt;/code&gt;：获取更多帮助信息和命令列表。&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;code&gt;/stop&lt;/code&gt;：如果需要，可以使用此命令停止当前的图像生成过程。&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;请注意，Midjourney的功能和命令可能会随着时间和版本更新而变化。为了获取最新信息和完整的命令列表，建议参考Midjourney的官方文档或在其Discord社区中询问。&lt;/p&gt;
&lt;h2&gt;实操示例&lt;/h2&gt;
&lt;p&gt;让我们生成一个图像作为示例，描述一个“宁静的森林小径，早晨的阳光透过树叶，画风温暖而详细”&lt;/p&gt;
&lt;p&gt;输入/imagine命令，在prompt中输入关键词，回车等待图片生成&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/how-to-use-midjourney-1-1024x252.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;生成图片后根据自己需要选择哪一张&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;U：选择哪张放大&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;V：选择图像变体&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;img src=&quot;images/how-to-use-midjourney-2-1024x707.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;我这里选择第 3 张继续修改&lt;/p&gt;
&lt;p&gt;这里的命令介绍：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;Upscale：高分辨率处理，以获得更高质量的输出&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Vary：图像变体&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Zoom Out：放大，放大后会自动填充背景&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;img src=&quot;images/how-to-use-midjourney-3-1024x792.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;我这里选择放大两倍，并且修改了比例为16:9&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/how-to-use-midjourney-4.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;最终生成的图片图下所示：&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/how-to-use-midjourney-5-1024x574.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;赶快去试一试 AI 绘图的魔力吧！！！&lt;/p&gt;
</content:encoded></item><item><title>阿里云智能建站：点点鼠标即可轻松建站</title><link>https://kaiho.tech/posts/aliyun-servers/</link><guid isPermaLink="true">https://kaiho.tech/posts/aliyun-servers/</guid><description>阿里云建站是阿里云推出的自营建站服务，提供可视化建站模板，通...</description><pubDate>Tue, 30 Jan 2024 00:00:00 GMT</pubDate><content:encoded>&lt;p&gt;阿里云建站是阿里云推出的自营建站服务，提供可视化建站模板，通过阿里云的之恶能建站系统，创建网站就像做图一样简单方便，即便是什么都不懂的新手用户，也可以轻松搭建自己的服务器&lt;/p&gt;
&lt;p&gt;主要流程有：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;购买服务器&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;选择网站模板&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;修改图文内容&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;添加功能控件&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;绑定域名&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;发布网站&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;阿里云服务器官网：&lt;a href=&quot;https://www.aliyun.com/minisite/goods?userCode=smy5ijgy&quot;&gt;https://www.aliyun.com/minisite/goods?userCode=smy5ijgy&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;这里有很多服务器，比如幻兽帕鲁云服务器，对于幻兽帕鲁云服务器搭建，可以点击&lt;a href=&quot;/posts/palworld/&quot;&gt;幻兽帕鲁服务器搭建详细教程&lt;/a&gt;查看&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/aliyun-1024x467.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/aliyun1-1024x514.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;选择合适的服务器购买，这里服务器配置取决于你想用来干什么，我这里建站就不那么麻烦了&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/aliyun2-671x1024.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;服务器购买完成后我们来选择模板，使用即可&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/aliyun3.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;同时还支持中、英、日、韩、德、西六种语言。建成的网站具有会员、电商、表单、地图、在线咨询、视频等40余种功能配置，随意组合，支持阿里云视频及短信，视频播放无广告，支持网站会员手机号验证/付款发货/留言评价等短信通知功能。&lt;/p&gt;
&lt;p&gt;模板确定后就可以客制化网站了。&lt;/p&gt;
</content:encoded></item><item><title>幻兽帕鲁服务器搭建详细教程</title><link>https://kaiho.tech/posts/palworld/</link><guid isPermaLink="true">https://kaiho.tech/posts/palworld/</guid><description>幻兽帕鲁（Palworld）是Pocketpair开发的一款...</description><pubDate>Sun, 28 Jan 2024 00:00:00 GMT</pubDate><content:encoded>&lt;h2&gt;前言&lt;/h2&gt;
&lt;p&gt;幻兽帕鲁（Palworld）是Pocketpair开发的一款开放世界生存制作游戏，游戏于2024年1月18日发行抢先体验版本。游戏中，玩家可以在广阔的世界中收集神奇的生物“帕鲁”，派他们进行战斗、建造、做农活，工业生产等。&lt;/p&gt;
&lt;p&gt;官方服务器经常不稳定，所以这里给大家带来最快捷的搭建教程，全程部署用不了几分钟&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;阿里云游戏联机服务器专题页&lt;/strong&gt;：&lt;a href=&quot;https://developer.aliyun.com/topic/ecs/huanshou?userCode=smy5ijgy&quot;&gt;https://developer.aliyun.com/topic/ecs/huanshou?userCode=smy5ijgy&lt;/a&gt;&lt;/p&gt;
&lt;h2&gt;购买安装帕鲁服务器&lt;/h2&gt;
&lt;p&gt;登录阿里云官网，点击进入&lt;strong&gt;阿里云游戏联机服务器专题页&lt;/strong&gt;：&lt;a href=&quot;https://developer.aliyun.com/topic/ecs/huanshou?userCode=smy5ijgy&quot;&gt;https://developer.aliyun.com/topic/ecs/huanshou?userCode=smy5ijgy&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;没有云服务器的点击「&lt;strong&gt;一键购买及部署&lt;/strong&gt;」&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/Palworld-1-1024x381.png&quot; alt=&quot;阿里云服务器&quot; /&gt;&lt;/p&gt;
&lt;p&gt;已有服务器的可以点击「&lt;strong&gt;快速部署&lt;/strong&gt;」&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/Palworld-13-1024x317.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;这里以新手没有服务器为基准讲解后续步骤，快速部署类似，可供参考&lt;/p&gt;
&lt;p&gt;在创建服务实例界面，完成相关配置：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;服务实例名称（无特殊要求，默认即可）&lt;img src=&quot;images/Palworld-12.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;选择部署地域（一般选择离自己最近的城市，无特殊要求，默认即可）&lt;img src=&quot;images/Palworld-11.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;选择服务器配置，按照自己的需求购买，现在新手购买可享受超值优惠，最低 &lt;strong&gt;26.52&lt;/strong&gt;￥/ 月&lt;img src=&quot;images/Palworld-10.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;ECS实例配置&lt;img src=&quot;images/Palworld-9.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;实例密码：这个一定要记住，后面要用&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;操作系统类型因人而异，选择自己擅长的即可&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;可用区配置（无特殊要求，默认即可）&lt;img src=&quot;images/Palworld-8.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;服务高级配置，可以直接修改游戏参数，根据自己需求选择即可（无特殊要求，默认即可）&lt;img src=&quot;images/Palworld-7.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;配置完成后，点击「&lt;strong&gt;下一步，确认订单&lt;/strong&gt;」&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/Palworld-6-1024x97.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;确认后，进入付款页面，确认后点击付款即可&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/Palworld-5-1024x227.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;接下来去获取刚刚购买的服务器地址&lt;/p&gt;
&lt;p&gt;服务创建完成后，当服务的状态变成“已部署”，点击服务实例ID进入服务详情，到这一步的时候，帕鲁的服务端安装程序已经预置在服务的镜像里了&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/Palworld-4.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/Palworld-2.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;按图所示，复制你的服务器 IP 地址&lt;/p&gt;
&lt;h2&gt;幻兽帕鲁联机&lt;/h2&gt;
&lt;p&gt;进入Palword ，选择加入多人游戏（专用服务器）&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/Palworld-1-908x1024.jpg&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;p&gt;将最下方的 127.0.0.1 这个地址换成上面最后一步里“幻兽帕鲁服务器地址端口”的 IP 地址，就可以跟小伙伴们愉快地联机游戏了&lt;/p&gt;
&lt;p&gt;进入游戏，创建角色，开启你的帕鲁之旅吧！！！&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;目前幻兽帕鲁有个内存溢出的bug，建议在阿里云的控制台里设置一个计划任务，在闲时花几分钟自动重启一下&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2&gt;更新服务器&lt;/h2&gt;
&lt;p&gt;如果进入游戏时提示：「您正尝试加入的比赛正在运行不兼容的游戏版本，请尝试升级游戏版本」，说明你的客户端和幻兽帕鲁服务器版本不匹配，通常是需要更新幻兽帕鲁服务器了。&lt;/p&gt;
&lt;p&gt;在更新前，你需要确认一下自己的 ECS 服务器操作系统是 Linux 还是 Windows，然后根据系统来参考这篇文章：&lt;a href=&quot;https://developer.aliyun.com/article/1425297&quot;&gt;https://developer.aliyun.com/article/1425297&lt;/a&gt;&lt;/p&gt;
</content:encoded></item><item><title>为什么要用CHatGPT-4？GPT-4有什么过人之处</title><link>https://kaiho.tech/posts/the-advantage-of-chatgpt-plus/</link><guid isPermaLink="true">https://kaiho.tech/posts/the-advantage-of-chatgpt-plus/</guid><description>还未注册 ChatGPT 账号，可以点击ChatGPT注册教...</description><pubDate>Tue, 26 Dec 2023 00:00:00 GMT</pubDate><content:encoded>&lt;h2&gt;前言&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;ChatGPT-4.0&lt;/strong&gt; 的功能越来越多。官方正版的 &lt;strong&gt;GPT4.0&lt;/strong&gt; 只有开通 &lt;strong&gt;ChatGPT Plus&lt;/strong&gt; 会员才能使用它，本文会客观得介绍测评 &lt;strong&gt;ChatGPT-4.0&lt;/strong&gt; 的功能，希望能帮到你决定是否升级 PLUS&lt;/p&gt;
&lt;h2&gt;ChatGPT-4.0 功能&lt;/h2&gt;
&lt;h3&gt;实时联网查询搜索能力&lt;/h3&gt;
&lt;p&gt;新的 GPT-4.0 添加联网查询能力，相较于只有 2021 年以前数据的 GPT-3.5 提升明显&lt;/p&gt;
&lt;p&gt;新的 GPT-4.0 添加联网查询能力，相较于只有2021年以前数据的 GPT- 3.5 提升明显&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/the-advantage-of-chatgpt-plus-1.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;h3&gt;文件处理&lt;/h3&gt;
&lt;p&gt;GPT-4.0 可以直接上传 CSV 文件进行数据处理或特定信息提取，并且文件若存在个别小问题，GPT 会进行自行纠错，最终完成 CSV 数据分析&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/the-advantage-of-chatgpt-plus-2.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;h3&gt;数据分析与数据可视化&lt;/h3&gt;
&lt;p&gt;支持一键上传数据集，，ChatGPT 可以自动选择工具，并自动切换到曾经的 “Advanced Data Analysis” 模式，运算速度也比较快，最终答案也是准确的&lt;/p&gt;
&lt;p&gt;并且可以调用绘图工具，按照要求选择图标可视化工具进行绘图&lt;/p&gt;
&lt;p&gt;&lt;img src=&quot;images/the-advantage-of-chatgpt-plus-3.png&quot; alt=&quot;&quot; /&gt;&lt;/p&gt;
&lt;h3&gt;绘图与图像修改功能&lt;/h3&gt;
&lt;p&gt;根据提供的关键词，绘制图像，AI 作图早已不是未来，ChatGPT-4.0 可以直接使用&lt;/p&gt;
&lt;p&gt;可以根据你的要求对你提供的图片进行修改，不过这个功能还有待完善，有时会失效&lt;/p&gt;
&lt;h3&gt;语音功能&lt;/h3&gt;
&lt;p&gt;普通的 ChatGPT 是文字输入，文字输出&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;手机APP 里可以语音输入，自动识别成文本，再文本输出&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;而 ChatGPT-4.0 可以在官方app上像真人对话一样语音对话，倒是很方便了，不过更好的支持英文，中文有时理解能力有点糟糕&lt;/p&gt;
&lt;h3&gt;GPTs 商城&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;GPTs 是一种让使用者能够量身打造自己的 AI 助理的工具&lt;/strong&gt;。即你可以根据自己的需求和偏好，创建一个完全定制的 ChatGPT。无论是要一个能帮忙梳理电子邮件的助手，还是一个随时提供创意灵感的伙伴，GPTs 都能让这一切变成可能。&lt;/p&gt;
&lt;p&gt;这种客制化的 AI 不仅提高了工作效率，也为日常生活带来了更多便利。使用者不需要会程式的能力和深厚的技术背景，通过简单的步骤、在 ChatGPT 的界面上，就可以创建一个专属的 GPTs，并且在各种不同的场景中使用它。&lt;/p&gt;
&lt;p&gt;GPTs 的出现代表着 AI 技术的一个重要进展，它将 AI 的应用从专家的领域延伸到了普通大众的日常生活中。OpenAI 已经推出了几种现成的 GPTs 供大家使用 (如下图)，比如「The Negotiator」、「Game Time」等&lt;/p&gt;
&lt;p&gt;目前，GPTs 的使用&lt;strong&gt;仅限于 ChatGPT Plus 的用户&lt;/strong&gt;。无论你是想自己创建 GPTs，还是想使用他人的创作，都需先升级至 ChatGPT Plus&lt;/p&gt;
&lt;h2&gt;我应该升级还是使用普通的即可？&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;如果你是以下人员，建议你先使用 ChatGPT 普通账号：&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;第一次使用 ChatGPT，之前从未使用过类似平台，自己也没有明确的目标如何使用ChatGPT&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;只作为娱乐属性，你只想拥有一个 AI 机器人陪你聊天解闷&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;暂时无法承担一个月20美金费用&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如何获得ChatGPT普通账户？你可以自行注册或者直接购买。自行注册需要国外手机和验证，对注册环境要求比较严苛，可自行注册或直接购买&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;如果你是以下人员，您可以考虑升级PLUS:&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;文字工作者（比如是文案岗位，策划，写稿等一切需要日常文字输出的人员）&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;学校里论文写作者，比如你需要在短期内完成一篇论文，你可以升级1-2个月的 PLUS&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;抖音，头条，B站等自媒体运营人员，需要写爆款文章&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;程序员，使用 GPT4 写出更好的代码或者修改代码&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;其他使用 PLUS 账号能帮助你提高生产力的人&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;可以接受付费，想体验高科技的用户&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;
</content:encoded></item></channel></rss>