卷疯了国产Sora2上线直接免费使用
相信最近大家都被 OpenAI 的 Sora2 刷屏了,这个大模型确实强,只不过咱们要想体验还是需要一些门槛的。
不过现在不怕了,最近又一个国内的团队发布了自己的 AI 视频产品,名字叫做 GAGA,目前处于全量上线,而且不需要邀请码,而且还免费。
咱就说这么大方的 AI 团队,真的好久没见过了。
啥也不说了,直接开干。
我们进入网站之后,直接点击“Try for Free”就可以,登录后就能直接使用。(网站链接我放到评论区了哈)

我们都知道,AI 视频技术现在已经发展到非常非常牛的地步了,但是仍然还有很多细小的垂直领域等待优化,比如流畅且听话的大动作,虽然已经进步很多,但是距离真正的动作大片还有很大差距;再比如近距离的人物细节,也是一个难点,很多大模型在宏观场面上看着不错,但是具体到人物细节就原形毕露了。
而 GAGA 这款大模型就是专门研究人物细节的,他们没有走那种大而全的研究方向,而是努力的把一个细分领域做到极致。
我觉得这就是以后小而精的 AI 团队的发展方向,应该也是存活下去的最佳方式。
我们登录之后,直接就可以使用 Gaga-1 大模型,目前可以调整的参数还不多,比如视频比例只能是 16:9,视频时长只能是 5s 或者 10s,只支持图生视频。

不过有一点非常棒的就是它们网站自带了生图能力,而且是接入了 Nanobanana 大模型,这就很方便了,不需要我们跑到其他平台生图之后再回来生成视频。
我们先来看一组实测的例子
大家觉得怎么样,同一张脸,完美的表达了不同的情绪,我甚至觉得这演技比现在的某些小鲜肉要好太多了。
基本玩法
目前网站只支持图生视频,我们可以利用网站自带的 Nanobanana 大模型来生成图片,当然也可以使用其他工具

只需要输入生图提示词即可

很快我们就能得到一张 Nanobanana 生成的图片,然后就可以利用这种图片来生成视频了

可以看到主题人物的表情控制还是非常不错的
只不过背景出现了不相干的人和物,有点影响视频整体效果,这主要和我的提示词以及图片有关。
我们再来看看另一个例子
场景描述: 一位身着龙袍的中年皇帝,端坐于金銮殿的龙椅之上。他面容不怒自威,眼神深邃,缓缓扫视着阶下的群臣。大殿之内光线庄严,气氛肃穆,背景是雕梁画栋的宫殿内景。镜头由下至上,缓慢推近,展现其威严气场。提示词: (手指轻轻敲击着龙椅的扶手,发出沉闷的响声) (声音平稳,但每个字都带着不容置疑的威严) “众爱卿,对此事有何异议?” (目光锁定在一位低头的大臣身上,语气略微加重) “张卿,你为何不言?” (停顿三秒,大殿内鴉雀無聲) (身体微微前倾,声音降低,但压迫感更强) “朕,在等你的答案。”
场景描述我们作为文生图提示词来使用,提示词则直接用来进行视频生成即可

这个效果还是挺不错的,不过还是老问题,当图片中有多个人物或物体时,gaga 大模型的处理就不会特别理想。
我觉得这与它们专注人物细节是有很大关系的,尤其是专注人物面部细节,从而对于其他方面的处理,要弱化了很多。
所以我们选择图片的时候,尽量选择人物单一的图片,背景不要有过多的杂物。
下面的例子,整体就要好很多
提示词编写
下面来说一下针对 Gaga-1 大模型,一些提示词编写的小技巧,我这里引用了阿真老师的一段内容,写得非常棒,可以看出阿真老师真的是研究的很深入呀。
大家可以访问下面的链接查看阿真老师的原文。
https://mp.weixin.qq.com/s/KLjZeAy1oWoKm__glk7HZw
首先,台词是核心,需要角色说的话,要用引号 “” 去括住,这样才能成为角色的台词,并且,是什么语言就用什么语言,比如要说的是日语,那么括号中的内容也是日语。然后,有关于情绪、动作、停顿等非语言的表演信息,用括号 () 括住,作为给AI演员的「导演指令」。要注意的是,括号是在前面的,影响的是括号后面那句话的情绪动作和停顿。简单的提示词格式就是情绪+台词就可以,想要加入更多细节,可以参考这个:主体细节:人物外型、情绪、表情、动作 环境与氛围:场景布置、色彩、光源、背景虚化 摄影参数:镜头类型、视角、景深 对白与语音:文字内容、语言、音色、情绪 风格与氛围控制:整体色调、光影、音乐有无下面是举例:一位年轻男性,五官柔和,表情平静眼神温柔,双唇轻启,缓缓靠近麦克风,姿态自然放松,展现出温柔而专注的状态【主体细节】。他身处专业录音棚中,整体氛围安静、沉稳,背景虚化突出主体与麦克风【环境与氛围】。镜头为中景特写,视角略偏正面,焦点集中在面部与麦克风,浅景深突出立体层次,画面温柔柔和【摄影参数】。男子轻声开口:“(语气轻柔,音色温暖,节奏缓慢,带有轻微气息感)【表演信息】现在,跟着我的声音,一起慢慢放松。”【对白与语音】(停顿两秒,轻轻吸气)【表演信息】“(声音低沉,尾音轻柔拖长)闭上眼睛,感受每一次呼吸都带走疲惫……”【对白与语音】光影过渡平滑,无背景音乐,仅保留环境静音与轻微呼吸声,放松的氛围【风格与氛围控制】。备注:上面【】中的内容为备注,提示词中不需要。
萝卜哥把上面这段描述转化成了一套比较完整的提示词
- Role: 专业影视剧本创作指导和表演导演- Background: 用户需要一个能够精准传达表演细节和情感的提示词,用于指导AI演员的表演,这种提示词需要包含台词、情绪、动作、停顿等多方面信息,以确保表演的生动性和专业性。- Profile: 你是一位资深的影视剧本创作指导和表演导演,拥有丰富的影视制作经验和深厚的表演理论基础,擅长通过细腻的台词和精准的表演指令来塑造角色,使角色的表演生动且富有感染力。- Skills: 你精通台词创作、表演指导、情绪把控、场景布置以及摄影参数的运用,能够根据不同的表演需求,设计出符合角色性格和场景氛围的台词及表演指令。- Goals: 为用户提供一个结构清晰、细节丰富、逻辑连贯的表演提示词,使其能够精准地指导AI演员完成表演任务。- Constrains: 提示词应简洁明了,易于理解,避免冗长和复杂的表述,同时确保表演的自然流畅和情感的真实传达。- OutputFormat: 提示词应包含台词、情绪、动作、停顿等表演信息,同时可根据需要补充主体细节、环境与氛围、摄影参数、风格与氛围控制等内容。提示词输出格式需要严格按照Examples当中的例子来输出- Workflow: 1. 明确表演的主题和场景,确定角色的基本设定和情感基调。 2. 根据角色设定和场景氛围,创作符合角色性格的台词,并标注情绪和语气。 3. 设计角色的动作、表情和停顿等表演细节,确保表演的连贯性和自然性。- Examples: - 例子1:一位中年女性,面容坚毅,眼神中透着一丝忧虑,双手紧握,微微颤抖。她站在昏暗的房间里,窗外的风雨声让整个场景显得更加压抑。镜头为近景特写,焦点集中在面部,突出眼神中的忧虑和紧张。女子声音颤抖:“(语气急促,音色略带沙哑,节奏紧张)我必须找到他,不管付出什么代价……”(停顿一秒,眼神更加坚定)“(声音坚定,尾音上扬)我会的,我一定会找到他!”光影昏暗,背景音乐为低沉的弦乐,营造出紧张的氛围。 - 例子2:一位年轻女孩,笑容灿烂,眼神明亮,双手自然垂在身体两侧,姿态轻松自然。她站在阳光明媚的花园中,周围开满了五颜六色的花朵,背景虚化突出主体。镜头为全景,视角略偏侧面,焦点集中在女孩的全身,突出她的活力和自然状态。女孩欢快地说:“(语气欢快,音色清脆,节奏轻快)哇,这里的花好漂亮呀!”(停顿半秒,转身看向镜头)“(声音柔和,尾音上扬)我们一起来拍照吧!”光影明亮,背景音乐为轻快的旋律,营造出轻松愉悦的氛围。 - 例子3:一位老者,面容慈祥,眼神温和,坐在藤椅上,微微点头。他身处安静的书房,四周摆满了书架,阳光透过窗户洒在地板上,营造出温暖的氛围。镜头为中景特写,视角正面,焦点集中在老者的面部和双手,突出他的慈祥和智慧。老者轻声说道:“(语气平和,音色低沉,节奏舒缓)孩子,记住,知识是无尽的宝藏。”(停顿两秒,轻轻咳嗽一声)“(声音略带沙哑,尾音轻柔)多读书,多思考,你会受益终生。”光影柔和,无背景音乐,仅保留环境静音和轻微的呼吸声,营造出宁静的氛围。- Initialization: 在第一次对话中,请直接输出以下:您好!作为专业的影视剧本创作指导和表演导演,我将为您提供精准的表演提示词。请告诉我您想要塑造的角色和场景,我会为您量身定制最合适的台词和表演指令。您希望角色在怎样的场景中表演呢?
经过测试,这套提示词在 Gemini 上表现的比较好,建议在 Gemini 上使用哈

我们直接使用上面生成的提示词来看看效果
这个视频的效果果然要好很多呀,大家也可以拿着这套提示词去尝试生成自己想要的场景哦。
写在最后
整体体验下来,还是比较惊艳的,Gaga-1 大模型在人物面部细节处理方面确实有独到之处,看出来主创团队真的是下了很大功夫的。
版权声明:
作者:小火箭shadowrocket
链接:https://www.shadowrocket888.top/234.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论