于峻川 (Junchuan Yu) - AI眼中的诗意——AI绘画

Author

于峻川

Published

October 8, 2022

1. AI绘画大火

2016 年，Memo Akten 和 Mike Tyka 等人工智能艺术家在在旧金山展出了由谷歌的 Deep Dream 算法生成的图像。短短两年时间，人工智能艺术作品登上了世界艺术舞台。
2018 年，一幅由人工智能生成的图像在佳士得拍卖，这是一幅由巴黎的 Obvious 集体制作的渲染版画。埃德蒙·贝拉米肖像拍卖是第一次被广泛报道的人工智能艺术品拍卖。

2022年被称为AI绘画元年。美国科罗拉多州博览会的一项美术比赛上，一等奖竟然颁给了AI自动生成的画作。作品全名《太空歌剧院》，由一位名叫Jason Allen的游戏设计师提交，作品利用AI软件 MidJourney，经过了近900次的迭代，数周的挑选与调整，才最终被打印到画布上，参与了这次比赛。
无独有偶，2022年戛纳电影短片节的最佳短片，也颁给了AI人工智能生成的作品《THE CROW》（乌鸦）
DALL-E 2、Midjourney和StableDiffusion等AI绘画工具，让业余人士只要简单打几个关键字，就能够创作出复杂、或抽象、或写实的艺术作品。下面是一幅有AI生成的中国山水画。

2. AI眼中的诗意

AI能理解我们的古诗吗？以滕王阁序为例，看看AI眼中“落霞与孤鹜齐飞，秋水共长天一色”这两句优美的诗句是怎样的。下面是由AI给出的部分答案：

3.AI绘画原理

DiffusionModel已取代GAN称为图像生成及AI绘画领域的新宠儿，引发了扩散模型的研究热潮，目前采用的扩散模型大都是来自于2020年的的工作DDPM: Denoising Diffusion Probabilistic Models。简单来说，扩散模型包含两个过程：前向扩散过程和反向生成过程，前向扩散过程是对一张图像逐渐添加高斯噪音直至慢慢抹去图像中所有可辨别的细节，直到变成纯粹的“噪点”，而反向生成过程是去噪音过程，逐渐对图像进行去像素化来学习逆转噪声并恢复图像。
正如谷歌解释的那样：

“Running this reversed corruption process synthesizes data from pure noise by gradually denoising it until a clean sample is produced.”

训练模型的核心数据集则是 LAION-high-resolution 和 LAION-Aesthetics。使用 AWS 提供的 4000 块 A100 显卡组成的强力计算集群，花费约 15 万小时的训练完成了第一个版本。具体技术细节请移步：Stable_diffusion, diffusion_model
如何深入学习扩散模型的原理？fast.ai将和 Huggingface, Stability.ai等各方一起创作一门新课程，叫做 From Deep Learning Foundations to Stable Diffusion。这门课将会用新的方式让普通人从原理上理解 Stable Diffusion 模型。课程详细介绍请移步：传送门

4. 人们对于AI绘画的看法？

不少艺术家认为AI绘画这是一种作弊：“我们正在目睹艺术的消亡。如果创造性的工作在机器面前都不安全，那么即使你有高技能，也有被淘汰的危险。到那时，我们将拥有什么？”
网友更是直言：“从AI目前的进度来看，行业被挤压是迟早的事情了。那些嘲讽人类艺术家的人，当你被替代感到危机的时候，你一样会发出无能的怒吼”
懂得灵活运用AI绘画作为创作工具的艺术家们认为：“这项技术具有改变我们交流方式的巨大潜力，我们期待与大家一起建立一个更快乐、更具交流性和创造性的未来”
除了图像生成之外，复杂的 AI 生成视频模型也已出现。不久前，Meta推出了AI系统“Make-a-Video”，可以由文本、图像生成短视频，也可以改变现有视频的细节来生成新的视频。现在，谷歌推出了新的视频生成模型“Imagen Video”，可实现每秒24帧的速度下达到1280 x 768像素的高清视频，这又会对当下火爆的对短视频领域带来哪些机遇和挑战呢？

5. 总结

AI绘画取得的效果是令人惊叹的；
模型本身还是依然于海量的数据集，而这些数据库中所包含的图像和文字还是不全面的，因而无法解析数据库之外的词句以及绘画风格，比如“齐天大圣”，“岩彩画”。长远来看其对于日常实物基本可以做到准确的模拟，但对于场景和复杂语义的理解需要更多的努力，其中一个必要的途径是构建更为广泛的且细粒化的数据集，也许不久能够实现AI利用互联网资源进行自学习；
Ai绘画成功的背后是扩散模型，而扩散模型的思路是可以用到其他领域的，比如同样拥有海量数据及视觉属性的遥感领域，试想一下利用遥感数据对扩散模型进行迁移学习能否实现遥感场景的变换，这种新的数据生成技术能否为小样本识别问题提供解决方案呢？
AI绘制“落霞与孤鹜齐飞，秋水共长天一色”图片下载链接：百度云, 提取码：1234

References

《THE CROW》: https://www.bilibili.com/video/BV16P411V7Ah?share_source=copy_web
Stable_diffusion: https://huggingface.co/blog/stable_diffusion
diffusion_model: https://theaisummer.com/diffusion-models/
传送门: https://www.fast.ai/posts/part2-2022.html