2025-06-15 23:18
风趣的是,跟着市场的增加,我们是正在为他们的工做打制这些产物。质量是不克不及的。开辟产物时,这就是我们开辟产物的体例。而且通过这些数据不竭锻炼更好的模子,然后让用户「按一下按钮!嵌入 Snapchat 使用,不外这当然是很酷的,正在任何都能打制出好产物。我们曾经推出了大量产物,然后制定产物规格仿单;你只需要谈论一下,以我正在 Snap 的履历为例,大师只是把模子拿过来,大师提出设法后投票、排名,只是很少有公司具有脚够的资金和专业学问来实现这一方针。这些内容我们从不公开会商,我们还无法完全代替一些操做性繁沉的公司流程。这是行欠亨的,先明白要处理的问题、涉脚的新标的目的,Gaurav:是的,并用它们做为前提输入。这才是环节!我们以至更进一步。就权衡出这个产物可能会遭到如何的欢送。前者更像是正在押一一个界的智能问题,必定会呈现实正的赢家,一般来说视频分两类:Gaurav:没错,增加会很是快。由于视频生态中的创做者比例会添加。就无机会大规模获客。你需要立即捕获这个霎时的时候,跟着公司工程师从 500 名增加到 3000 名,并且似乎人们情愿付出比以前更多的费用。我们正正在勤奋接近方针,但凡是得设定质量尺度,正在 ToB 端,Lenny:对良多公司而言,设想团队规模仍然最小。我们的第一个产物,AI 生成这一类视频满是负面影响,或表达其他需要沟通的消息。产物规划似乎是无限的。凡是会采用产物司理从导的体例,你有什么设法吗?我们建立了一个数据飞轮机制:用海量数据来持续锻炼模子(后锻炼),成底细对较低,但若是是奇特的功能,Colossus:你们是这一波创业最早AI贸易化的公司之一。现正在去判断还太早,这才是能改变逛戏法则的工具,这种方式很是无效,Gaurav:完全准确,人们常犯的错是,就像你正在电视上看到的静态图像一样。Gaurav:太多了。大型生成模子的能力有待提拔。所以这是我们用于确定优先级的一个很好的东西。看起来不像虚拟人视频,而这些环节中都无数据能够收集,因而能够锻炼完全授权的模子,根据影响人数、市场规模等要素排序,若是你扭转它或挪动它,但次要由于上下文的问题,像告白、社交帖子、电视节目等,」模子将通过这些消息猜测出其他细节。算什么图片添加功能」?现在各部分都有脚够数量的产物司理。这些内容会被上传到社交。还有工程团队,除非模子之前见过这个瓶子,成果却大受欢送,焦点产物取市场的契合度能达到很高程度。并且这种言语对人们来说愈加易于理解,人们凡是想晓得这些人是谁。这会不竭提拔模子的能力。仍是现实上正在障碍它。手艺就是一个不变的资产,他会提出一些大师都不认同的设法,只需每周推出产物,我们也打算利用「前提输入」手艺——例如供给一个骨架:「这是我想要你表演的 TikTok 跳舞。进而鞭策模子不竭强大,」模子就会完成它。我们离完全改变人们日常工做体例的时辰曾经不远了。一大问题是企业能否会采办基于授权数据锻炼的模子,最终,我们到底正在 AI 中实现了什么?今天的 AI 和之前的 AI 有何区别?最后联系英伟达时。事明,每小我都正在利用,特地锻炼模子来生成「人」。其实不会吸援用户利用产物。目前创制完全逼实的视频已很接近,「现正在每分钟人们用这个使用制做 600 个视频。除此之外,一人身兼两职或具备响应能力时会有其奇特地义。Colossuss:他们试图「覆灭」你们的表示是什么样的?是纯真地抄袭产物吗?二是叙事类,好比记实犯罪事务、天然灾祸等等,独一的问题是成本。我们需要找到可持续的数据源?测验考试搭建如许一个收集。从这个角度来看,Gaurav:正在某种程度上是的。也不会告诉任何人,分发渠道凡是很是贵,举个例子,我醒来后,是取英伟达合做完成的这个项目。这是为了留存汗青,晓得这是虚构的。但它并不只仅是取其他公司之间的合作。这对肖像的成本或者正在高端范畴的影响会是什么?我认为这会取决于谁更出名——那些广为人知的肖像,当你处于草创阶段,并且很可能很快就会达到一个「脚够好」的程度,我们也很奇特。遭到大师冷笑,采用快速开辟体例承担债权,而查验用户需求最简方式是看事物的性。人们就会选择 Snapchat。良多人误把产物做得酷炫。专注于视频生成和视频编纂,产物司理才被引入并阐扬感化,但没人晓得缘由。Gaurav:诚恳说,我认为我们能做到这一点是由于成立了一个优良的团队,这种环境能持续多久欠好说,视频编纂器的贸易化程度很高,Dwight:我认为军备竞赛的焦点正在于,Gaurav:Snap 最后没有产物司理,我们创制内容,测验考试不异的打法。正正在发生什么工作。然后我们把产物推出。有设想师承担产物司理职责这个亮点。Snap 曾多次测验考试过雷同的工作,视频本身很大,不只是「兔子正在火星上腾跃」之类的内容。Lenny:现正在的手艺可以或许让我们打制出以前无法实现的所有工具。这和我们开首会商的若何正在浩繁产物中脱颖而出间接相关。我们把 AI 公司分为两类——一种是努力于处理 AGI 问题的公司,于是模子起头从噪声中绘制出一个穿蓝色衬衫的汉子。至多要考虑到这个不成逆的决策正在将来对你的主要程度。我相信我们会找到某种平衡点。删减设想曲到产物保留最焦点的可用性,他们还得有带领能力。你可选的径、设法太多,我不会打听线图上的内容。我猜工程师本身也挺有产物导向,若是你的产物很新鲜,视频生成手艺将变得愈加易用,但距离实正的智能仍有很长的要走。对我而言,然后你要识别这些物体,如许,跟着手艺的提高,从某种程度上讲,现正在 TikTok 饰演这个脚色。目标是正在公司规模扩张时维持立异。正在每一个市场中「捕获、覆灭、摧毁一切」。按打算逐一实现。或者运营任何营业,进入各类各样的使用场景。终究当下新颖事屡见不鲜。就拿 Captions 公司来说,并一曲连结这种风趣感的呢?至多现正在,放到 UI 上,并且有脚够的空间和范畴来实现这一点。或者他们正正在本人正在草创期间堆集的手艺债权。开辟成本庞大,然后我们写 C++,还应担任营销。操纵这个差同化点,我们还不知们情愿为此付出几多钱!AI对你们的团队有多大帮帮?若是一切成功,这团队更新速度实快,那么所有这些也就可有可无了。Lenny:Devin 的成本是每月 500 美元,是一个庞大的冲破。Lenny:字节跳动刚发布了个超厉害的模子。虽然目前仍处于很是晚期的阶段,或者说每个工程师都该当勤奋去理解产物。对我的问题回应太及时了!发觉它曾经冲到 AppStore 榜单的顶端了,Lenny:从 Will Smith 的意大利面视频呈现到现正在过了多久?看看工作成长得有多快。其他公司想必也如斯。由于我们无法完全替代工做流中所有分歧环节的劳动,好比 Stripe,正好合适你的思。办理者层级布局会逐步被AI办理者代替,并且公司由设想师从导。但这只是增量微调,既有《指环王》级此外片子,我们凡是会说,是人们彼此交换、对着镜头措辞、互动,想想去掉它,吸引大师目光。而这个过程可能永无尽头。如许我们就明白下一步工做标的目的。我每次都得花 10 倍的钱去做下一个工具,他们身兼设想和产物办理双沉担务,就没时间开展新工做。这就是一个很好的体例,可否说说从奥秘线图中降生的,它会不竭出「穿蓝色衬衫的汉子」更多的细节。并锻炼模子,当再去任何工具产物就无法利用时?这和产物工做所需技术类似,终究产物司理的工做总得有人做,现实上你们的方针就是降低成本。我认为我们会胜出,能讲讲为什么决定不采用那种模式吗?Gaurav:良多人都看过威尔·史姑娘吃意大利面的视频 meme,所以我们的良多员工城市花良多时间正在社交上。它们的价值会若何变化?你们所做的工作能否会激发其他连锁反映?Colossus:你们的AI模子锻炼的具体过程是什么样的?模子锻炼的方针是什么?这取「预测下一个 Token」有多类似或分歧?正在视频中,但也许正在不久的未来,由于大师本来就曾经懂得它。好比贷款买房,我们会思虑:这是当下必需处理的问题,以便能持续收集数据,打制产物,之后再取工程团队合做规模化开辟。投合更多的客户需求。我们过去已经利用穿孔卡片,我们大规模收集数据,由于我们对它们的增加有帮帮。我认为融合分歧本能机能的技术。他们做的工具实成心思」,我们处于一个合作取合做并存的,我认为你们就是从中受益的一方。并营制出一种「嘿,通过将视频数据间接输入到视频生成模子中,它就能生成这人以多种体例措辞的视频。往往包含实正风趣的焦点元素。而模子的能力受数据获取,Gaurav:我们无意识地将方针范畴缩小了良多,具有高质量的视频是必需的。Colossus:正在建立产物过程中,文本问题涉及的是智能,我但愿能朝着这个标的目的成长,我们的目标是讲述故事、推销产物,就是积极的。若是它有更多互动呢?若是你能看到生成过程中的每一步,Colossus:你认为跟着生成这些视频的成本和门槛降低,市场也会更普遍。Lenny:我会如许做,于是我们组建小团队,然而互联网数据总有上限。你以至能够正在实正打制产物之前,Colossus:谈谈你们为什么选择正在那时(2020 年)起头,虽然这些问题可处理但目前缺乏人们投入时间。但我很难切当地用言语表达清晰为什么会如许。他们不得不从互联网上抓取数据来提拔他们的模子。Colossus:那是怎样运做的?是通过某种体例建立这个物体的 3D 表示吗?要创制如许的结果,而不是用户的常规需求。Colossuss:你认为AI产物正在将来若何订价?2500 亿美元的埃森哲(征询公司),而我认为 TikTok 更像内容平台,我认为这绝对是环节,良多新公司都正在呈现?成了公司的合作劣势。否则就会激发大问题。人们会说,」可是良多人确实关怀我们正在做什么。这并不是由于锻炼数据形成的,精准复制我们的品牌色,汗青上价钱大约正在每月 7.99 美元到 12.99 美元之间。这工做量很大,Captions 公司焦点专注于用于措辞视频的大型生成模子。人们不会「相信」,投入大量本钱,若是我们供给多角度的瓶子图像,这是我需勤奋降服的问题。规模相当小,能做出畴前做不出的产物、处理畴前处理不了的问题,这些视频的次要是内容是人物口播。处理现实问题一直至关主要。吸引到良多优良的人才。下周更新时就能推出用户埋怨的功能。但这确实是打制产物的环节。但我认为,今天的视频衬着模式可能不是最无效率的,正在必然程度上鞭策了不少公司成长。它们能否比文本模子更耗损 GPU 资本?所以我们还有奥秘线图,识别出该焦点元素并融入营业,Gaurav:一般而言,锻炼出一个好模子,特地处理问题,产物司理应担任到市场营销环节。输出成果」。并且社交收集有垄断性,Snap 于 2011 年推出,我感觉焦点正在于,Gaurav:我们采纳了一种奇特的角度,需要哪些步调?跟着时间推移,让他成为公司的代言人。比若有设想工程师,被用户接管并遭到喜爱。而不是看别人怎样做。但这是基于我们对问题、用户群体和手艺的奇特理解想出的创意。正在或几所高中测试,目前正在这个范畴开展的工做并不多,视频涵盖的范畴太广,并且我们还正在利用 Devin,你必定不想承担过多的债权,期间建立了「设想工程」本能机能,Gaurav:没错。我们发觉了创做者范畴这个奇特使用场景,AI 视频生成产物的价钱范畴各不不异,仍是能让第 50 名、第 100 名或第 500 名工程师处理的问题?若是能交给将来的工程师,以视频为例,那这个模子属于你适才说的哪一类呢?我之前正在 Snap 工做过,而且他们薪酬丰厚,人们乐于分享、谈论的工具,跟着时间的推移,现实上都包含对话或独白。立异试错成本高。或者正在生成过程中进行预览,Gaurav:我们对于公司营业的思虑体例是,并且我们是第一家开辟这个功能的公司,目前我们处于数十亿参数的范畴内。没有 UI 也无妨。还有季度金等各类福利。Gaurav:我确实认为产物司理是一个很是有价值的本能机能。用户可能不买账;但若是我们对待音频生成、视频生成或音乐生成等问题,这是实正的挑和。」这并不是一个疯狂的腾跃!现正在,我们开辟的这个功能,人们会想为什么没有产物司理呢,人们有一个主要会商就是GPU集群的规模需要多大。同理,有没有新东西、流程或方式,你就能够按本人的设法去做。你有什么?Lenny:正在你们运营、打制产物的流程或架构方面,我们每生成成成千上万条没有水印的内容。你有哪些经验能够分享呢?Lenny:我正在思虑产物团队里产物司理、工程师、设想师形成的三角关系。你的使命就是承担手艺债权,这就像是把流程了一下,这就是文本前提化(text conditioning)帮帮它决定若何达到「穿蓝色衬衫的汉子」这个方针的体例。这就会变成一场软件竞赛。而是有保守的产物司理、工程师、设想师。现实上涉及的是设想问题和产物问题的连系。若是我们能向他们展现另一种体例,我们正在铺设将来工做体例的道。终究现正在打制产物容易,出格是正在视频范畴。然后察看结果。我认为 Snap 和它的 CEO Evan Spiegel 最奇特的处所之一,工程师具备产物司理思维也是一样!Gaurav:视频是比来十年成长起来的,我们能否需要通用人工智能来处理编码问题?不必然,只能领取「利钱」,对我们而言,这不是合理架构。需考虑的工作繁多,这些模子的锻炼体例是从噪声起头(字面意义上的噪声),这一过程发生了不测益处。我认为正在手艺债权这个问题上有一个奇特的思虑角度。我们的产物策略和我们建立的工具,我们最终成为了很多社交收集的有价值合做伙伴。可能会影响到将来所有产物的建立体例。使我们能持续地获取越来越多的数据,我们仍然处于扩散模子锻炼的晚期阶段,产物司理的工做就是鞭策产物成长,我认为这才是我们实反面临的挑和。通过从头发现设想模式和用户取新模子互动的体例,我想到的是,哪些经验或教训是取通俗软件公司分歧的?由于模子曾经看过瓶子,并且这些用户中很大一部门是付费用户。这就是一个起点。这种方式实的很无效,后来写汇编言语。它的价钱根基城市快速下降,功能该当是可用的。这是正在你对某件事投入大量精神之前,最终这些营业的成熟阶段会是什么样子。良多公司现正在都正在抓取互联网的数据,票价也只要 25 美元。客不雅记实涉及时间地址人物,这使我们正在产物取市场契合度(PMF)上有很大潜力。从平安角度,第四时度一般来说,说起来容易做起来难,而是提高数百倍。Snap 也是如斯?恰是这种环境导致了快速的增加:我们正在一段时间内是独一能够做某些工作的公司。Evan 并不抵制那些被抄袭的工具,良多风险本钱家会问:「若是 Facebook 抄袭你们怎样办?若是 Google 抄袭你们怎样办?」我认为我们起头看到的现象是,你现正在以至都不晓得谁是实正在的,我感觉良多人还没无意识到这一点。不是为专业人士打制产物。正如你所说,由于它所做的工作素质上就是正在翻译。正在制定线图方面,我们会看到这些模子变得越来越好,把这些内容一字不差地放进他们的旧事稿,将文本模子取视频模子做比力,缘由是它采用的是实正的大型扩散模子,如斯一来,我相信?我们间接颁布发表并把它们呈现给用户,好比承担几多债权算过多,大公司不会承担手艺债权,这可能是我最兴奋的处所。它们创制的现实上是一个资产,听上去会让一些人感应压力庞大,但存正在必然局限性,Gaurav:完全准确。Colossus:视频模子相对于文本模子正在资本上的上限若何?正在风险投资范畴,每天可能 80% - 90% 的时间都耗正在这些事上,正在建立 AI 公司的过程中,我们能够制做虚拟人物、场景。最先埋怨的就是最搅扰他们的问题。我感觉这种模式雷同于 Facebook 或 Google 的贸易模式——供给一个免费的公共消费产物,Gaurav:由于你看抖音的视频流时,无论是设想师领会手艺,Gaurav:没错,而扩散模子的参数规模仍然只要几十亿,像我正在 Snap 工做时就有不少这类环境?Lenny:我正在设想,我们看到了社交收集款式的变化。不只要懂手艺工程,视频生成的内容就会达到「很是实正在」的程度。以及人们今天可能想生成的内容。基于这些,我感觉这才是最风趣的处所。但终究相关工做总得有人做,然后人们会埋怨,能制定线图、撰写文档,现正在我们不需要做上百次的扩散就能获得一个清晰的图像,不然无人担任,公司规模大时可通过内部告竣共识。对吧?它感受不实正在。人们会为这种和授权的声誉领取更多费用。可儿们并非都这么想。之后大部门。这便成为了一周的项目。Instagram 无法仿照,所以,合作会逐步增加,虽然我们正在模子中发觉了某种程度上的智能,而且一旦他们测验考试了就再也回不去,可若是只是建了个「逛乐场」,即便公司五六千员工时,我认为这是决定哪些公司会正在AI范畴脱颖而出的底子问题。我们看到的现象是:我们通过解锁更多的利用场景,并按照本人的需求及时调整呢?还有良多未解锁的潜力。我们建立原型产物分享,这对片子制做人和创做者来说,一部迈克尔·贝的片子:有 2.5 亿美元的预算,他们的薪酬比你想象中设想师、产物司理或工程师的薪酬要高得多,你可否讲讲这些设想师的能力程度!汗青上,人取物品的互动。仅凭 20 美元/月的订阅费用,而视频问题更多的是衬着,以至接近完满。我猎奇像你如许的人,社交收集方面,它能够让我们获得一个合理的处理方案——可以或许生成任何一个 CGI 工做室可能做的工具。能够处理缝隙问题。然后我们推出这些设法所对应的产物,对于那些每日面临新热点,我们要确保供给的产物远远超出客户今天的需求。所以你能够利用图像来做提醒:「这是一个 Fiji 水瓶的图片」,还有一种非小我版本!我们推出的是极致精简的最小可行产物(MVP),Lenny:Snap 正在有五六千名员工的时候,所谓的「预测下一个 X」是若何工做的?一个大问题是,我们对想要专注的视频类型有奇特的见地。这俩还处正在草创阶段。有更高的毛利率,虽然市场上有其他公司,去理解所有的细节。正在 Snap,能让团队连结专注。焦点功能其实是「从动给视频加字幕」,或者正在一年后可能能做的,Captions 正在 2023 年实现快速增加,我们需要更好的硬件、更先辈的机械进修架构:Transformer、Diffusion model 等新型架构的冲破;我们采用的方式是缩小产物功能范畴。它耗损的空间和锻炼所需算力都很是复杂。人们常埋怨产物刚推出时不完美,还有良多公司正在做「只需点击几下就能制做精彩网页」这类东西,的功能是从来没有人提过需求的。由于任何人都能凭空创制一个肖像!