SEELE成立于2022年底,主攻AI生成3D游戏。2024年正式推出第一款海外产品,半年积累近百万用户。据了解,SEELE正在开发下一阶段的产品,并且有清晰的产品和技术路线规划。
核心团队来自腾讯、字节、阿里,包括大模型、图形学等领域的技术专家,产品和增长由连续创业者、腾讯和网易资深增长负责人组成。
作为移动互联网时代的知名产品经理,王诗沐凭借网易云音乐一战成名。
2022年,王诗沐离开腾讯,创业成立全灵SEELE。
他非常熟悉内容平台,做过图片、音乐、图文和3D数字藏品等内容形态,精通个性推荐、社区和UGC的产品方法。这次创业,他瞄准了下一个内容平台的机会:3D互动娱乐内容。
在他看来,技术尚未收敛的时期,更加需要产品。3D内容生成和内容平台是一件长期的事,王诗沐选择分阶段用产品验证用户需求,逐步向理想的终极形态拓展。
不论过去还是现在,问到他对失败产品的看法,王诗沐总会说,「产品失败,原因通常有很多,最重要的就是产品没做好」。
创业之后,他补充了一个观点:「要有空杯心态」。
以下是FounderPark与SEELE创始人王诗沐的对话,经编辑整理。
采访|王式、Nico
FP:为什么选择3D+AI的方向?
王诗沐:从阿里到网易到腾讯,我一直在做内容,做过图片、音乐、新闻、数字藏品,中间一度很想做视频,但很可惜,错过了那个大的窗口期。
我一直在想,接下来一个大的阶段,最重要的内容形态是什么?
在腾讯,我复盘了自己做过的所有产品,不管是成功还是失败,得出的判断是,在创新这条线上,技术创新大于产品创新,再大于运营和商业(模式)创新。如果要创业,一定要优先思考技术的创新点是什么。
当时内部定了三个点,AI、3D和区块链,分别对应生产力、介质和生产关系。生产关系的产品比较复杂,制约因素太多,不适合创业公司做。
生产力的创业最适合创业公司,我本人非常想做一个新的内容介质的平台,所以有了3D和AI的结合。
最早研究了用GAN(生成对抗网络)的方式做3D,做了一些尝试,比如生成人的3D模型,有各种参数,人种、高矮胖瘦、肤色、五冠特征,比如眉毛粗细、眼睛间距这些,通过强化学习是可以做的,但泛化能力很差,比如做人型就只能是人型,想生成个叮当猫都不行。
后来,diffusion模型开始流行,逐步逼近真实分布,能更好地捕捉复杂的细节,尤其是对3D生成中纹理的表现力更高,并且非常适用于NeRF以及后来的GS等多种表征。到了年底,ChatGPT出来了,我们开始研究Transformer,到后来的DiT架构,用Transformer代替掉传统diffusion里的UNet,看到了更多可能性。
FP:3D生成还在相对早期的阶段,为什么现在就推出了toC的产品?
王诗沐:当时看了所有3DAI的论文,别人的方法,拿来复现,最后得到一个结论,直到现在,所有模型的能力都是不及格的。如果60分及格的话,目前都在30、40分的水平。
3D对C端的出口,一个是游戏,一个是动画。目前3DAI的模型技术直接落地到这两个出口都是欠缺的。我们就在分析为什么会这样?显然图片、文本甚至视频的大模型,发展速度非常快,有海量数据,「所见即所得」,生成图片之后,不管好不好,马上可以对接到后面的工作流,或者给用户消费。
但3D,单纯生成一个模型,对消费者没有意义。
用户想看动画,想玩游戏,要经过很多图形学的管线,真正地做出来,后面这些管线大模型现在解决不了。
所以客观情况就是,3D生成没有C端可用的产品,也就意味着没有数据积累,大模型滚动迭代会慢很多。
对我们来说,要实现愿景中的终极形态,解决用户需求,必须要在C端找到切实落地可行的技术,哪怕先去实现一个只有60分的产品,推出去,积累数据,迭代算法,然后做出更好的模型。
「SEELE」原是德语,意为「心灵/灵魂」,也是著名IP《新世纪福音战士》(EVA)中的组织名。命名创意来自公司联创郭正栋,表达满足用户精神世界需求的意思。
FP:为什么选择先做一个「3D版C.AI」?
王诗沐:我们要在目前的技术框架内做一个toC的产品,就在看现阶段有什么产品形态可以做。
CharacterAI非常适合我们第一阶段的产品原型。C.AI验证了用户和AI之间有文本和语音聊天的需求,即便用户群相对较窄,但也已经完成验证。对我们来说,这意味着不需要考虑用户需求的变量,只需要考虑技术变量,如何将3Davatar加入到那样的产品框架里,让它work,达到用户能使用的状态。