近期,AI 已经开始影响到了音乐行业,在 B 站搜索“AI 孙燕姿”,从流行歌曲到摇滚,从周杰伦到王力宏,没有 AI 孙燕姿驾驭不了的歌曲。
有用户评论:“我感觉 AI 没把歌手干掉,先把翻唱干掉了。”AI 走红“乐坛”的时间不足一个月,而 AI 绘画对设计师的影响可不止一个月。自从 AIGC 诞生以来,AI 绘画软件可以在短短几分钟内生成高质量图像,对原画师、设计师产生了巨大冲击,不少公司更开始用 AI 绘画软件来辅助甚至替代原画师的工作。
AIGC 那么厉害,它会成为 Web 3.0 时代的内容生产力工具吗?我们先来简单了解下,从 Web 1.0 时代到 Web 3.0 时代,内容生产模式上有什么变化。
Web 1.0 时代主要是单项信息传递的“只读”模式。媒体形式以新浪、搜狐、雅虎、百度这类门户网站为主,某些特定的群体或企业将信息单向发布至网络,投喂给用户浏览阅读。在这个过程中,用户只能被动接收网站发布的无差异信息,但不能上传自己的反馈、进行和其他人的线上实时沟通。
到了 Web 2.0,人与人通过网络沟通交流,各种交互多了起来。随之而来的,是内容生产模式的改变,内容从单一的 PGC(专业生成内容)到 PGC+UGC(用户生成内容)的结合,直到现在,UGC 已占据了主要市场。
当我们迈入 Web 3.0 时代,人工智能、数据、语义网络构建,形成新的人与网络的全新链接,内容消费飞速增长。届时,PGC 和 UGC 难以满足迅速扩张的内容需求,而 AIGC 将成为 Web3 时代的生产力工具。AIGC 的生成利用人工智能知识图谱,在内容创作上为人类提供协助或者完全自主生成,不仅可以提供内容生成的效率,还可以拓展内容的多样性。或许在 Web 3.0 时代,文字生成、图片绘制、视频内容都由 AIGC 来完成,甚至文娱向的音乐创作、游戏内容生成 AIGC 都能胜任。
AIGC 即将成为 Web3.0 主要的内容生产者,那么是什么决定 AIGC 的产出质量?
AIGC 的产出质量主要有三大核心要素:数据、算法和算力。
说到这里,如果还有小伙伴没有玩过 AI 绘画,我们之前有写过一篇《从 0 到 1,带你玩转 AI 绘画》 ,里面详细介绍了如何用 Stable Diffusion GUI 搭建自己的 AI 作图环境。搭建的时候建议大家使用 GPU 主机,可以让一张图片生成时间从几十分钟缩短到几十秒。
AI 强大的创造能力,除了海量数据和硬件算力的支持,算法这块离不开两个核心技术 NLP(Natural Language Processing,自然语言处理)和算法模型的发展。
自然语言处理(Natural Language Processing,缩写作 NLP)是人工智能和语言学领域的分支学科,主要探讨如何处理及运用自然语言;自然语言处理包括多方面和步骤,基本有认知、理解、生成等部分。
自然语言认知和理解是让电脑把输入的语言变成有意思的符号和关系,然后根据目的再处理。自然语言生成系统则是把计算机数据转化为自然语言。说直白点,其实就是让人和机器交互中,能够让双方都“听得懂”。
自然语言处理有两个核心任务,自然语言理解(NLU)和自然语言生成(NLG)。
自然语言理解 NLU
自然语言理解是研究如何让电脑读懂人类语言的一门技术,是自然语言处理技术中最困难的一项。自然语言理解是希望机器像人一样,具备正常人的语言理解能力。为什么说自然语言理解是 NLP 上最困难的一项,我们简单看几个例子就知道了。
校长说衣服上除了校徽别别别的。
今天下雨,我骑车差点摔倒,好在我一把把把把住了!
今天我差点没上上上上海的车。
这些还只是相对简单的,还有一些更复杂的,例如:
阿呆给领导送礼。
领导:“你这是什么意思?”
阿呆:“没什么意思,意思意思。”领导:“你这就不够意思了。”
阿呆:“小意思,小意思。”领导:“你这人真有意思。”
阿呆:“其实也没有别的意思。”
领导:“那我就不好意思了。”
阿呆:“是我不好意思。”
由于自然语言的多样性、歧义性、知识依赖性和上下文,计算机在理解上有很多难点,所以 NLU 至今还远不如人类的表现。
自然语言生成 NLG
自然语言生成系统可以说是一种将资料转换成自然语言表述的翻译器。不过产生最终语言的方法不同于编译程式,因为自然语言多样的表达。
自然语言生成可以视为自然语言理解的反向:自然语言理解系统需要理清输入句的意思,从而产生机器表述语言;自然语言生成系统需要决定如何把概念转化成语言。自然语言生成典型的 6 大步骤是:
近期来,AIGC 的飞速发展主要归功于算法领域的技术积累,其中包含:生成对抗模型(GAN)、变微分自动编码器(VAE)、标准化流模型(NFs)、自回归模型(AR)、能量模型和扩散模型(Diffusion Model)。其中生成对抗模型和扩散模型是两个非常常用的模型。
其中 GAN 模型在上次的内容里,已经有提及,这里就不再做介绍。有兴趣的小伙伴可以看下《从 AI 绘画到 ChatGPT,聊聊生成式 AI》这篇内容。
今天主要说下扩散模型。
扩散模型是一种新型的生成模型,可生成各种高分辨率图像。扩散模型可以应用于各种任务,如图像去噪、图像修复、超分辨率成像、图像生成等等。
扩散模型一般分为正向扩散和反向扩散。正向扩散中,图像逐渐被噪声污染,直到图像成为完全噪声。
在反向扩散中,则是利用马尔科夫链逐步去除预测噪声,最终恢复成图像。
随着 AIGC 技术的发展,其适用面将会逐渐扩大。现在 AIGC 已经被广泛应用在文字、图像、音频、游戏和代码生成等场景。
当下,AIGC 主要辅助人们来进行内容生产,我相信随着技术的发展,AIGC 会介入更多的内容生产,逐渐在与人类共创作的过程中占据更多比例。甚至在未来,AIGC 可能会颠覆现有的内容生产模式,独立完成内容创作,为 Web 3.0 时代带来更多的内容生产力。