微軟利用OpenAI的DALL·E2推出Microsoft Designer

微軟利用OpenAI的DALL·E2推出Microsoft Designer:談AI內容生成

微軟在2022/10/12宣布將推出Microsoft Designer應用程式,背後是基於OpenAI開發的Dell-E 2人工智慧程式碼,用戶可以透過輸入文字獲得人工智慧演算法所生成的風格情境圖片。目前Microsoft Designer尚未開放,有興趣的用戶可以先加入等候名單優先體驗預覽,待Microsoft Designer正式上線後將會免費提供用戶使用,並同時為Microsoft 365 Personal和Microsoft 365 Family訂閱用戶提供進階版本,成為Office 生產力軟體訂閱的產品之一。

AI自動圖像生成作為加值服務

除了Microsoft Designer,搜尋引擎Bing、瀏覽器Edge、PowerPoint Designer,以及Microsoft 365個人與家用版,都將透過整合OpenAI的文字轉圖像模型DALL-E 2,具備文字生成圖像的功能。從產品面來說,微軟透過Designer企圖與Canva和Adobe Express爭奪市場,同時希望藉由新產品增加Office訂閱的價值。

Canva近年來透過眾多的設計模板跟圖庫進入原有Microsoft Word與PowerPoint使用者的市場,其中尤其是企業以及年輕的使用者。。

技術來自微軟資助的OpenAI

令人注意的是,這項技術並不是來自微軟自身的AI研發團隊,而是OpenAI。

OpenAI 是一個人工智慧 (AI) 研究實驗室,由營利性公司 OpenAI LP 及其母公司非營利性 OpenAI Inc. 組成。該公司被認為是 DeepMind 的競爭對手,在人工智能領域進行研究,聲明目標是以造福全人類的方式促進和發展友好的人工智慧。 該組織由 Elon Musk、Sam Altman 等人於 2015 年底在舊金山成立,他們共同認捐了 10 億美元。 馬斯克於 2018 年 2 月辭去董事會職務,但仍是贊助者。

2019年,OpenAI LP獲得了微軟10億美元的投資。

DALL-E 2

DALL-E(常寫成DALL·E)和 DALL-E 2 是 OpenAI 開發的機器學習模型,用於從自然語言描述中生成數位圖像。 DALL-E 由 OpenAI 在 2021 年 1 月的一篇blog發表,並使用經過修改的 GPT-3版本來生成圖像。 2022 年 4 月,OpenAI 發布了 DALL-E 2,這是一個後續產品,旨在以更高的分辨率,結合概念、屬性和風格,生成更逼真的圖像,

OpenAI 尚未發布這兩種模型的原始碼, 2022 年 7 月 20 日,DALL-E 2 進入測試階段,向 100 萬候補名單的個人發送了邀請。基於對道德和安全的擔憂,以前僅限於預先選擇的用戶進行研究預覽。 2022 年 9 月 28 日,DALL-E 2 向所有人開放,並且取消了候補名單要求; 用戶可以免費生成一定數量的圖像,並且可以購買額外的圖像。目前已經有其他利用比較少量資料進行機器學習訓練的類似開放原始碼專案。

“A terrier wearing a beret eating avocado on belgium waffel at a Parisian cafe, in the style of Van Gogh.” (帶著貝雷帽的梗犬在法式咖啡館吃比利時鬆餅上的酪梨,梵谷畫風)
在Dall-E2用“A group of devotees who worship the cloud, pixel art” (一群崇拜雲的信徒,畫素藝術)敘述生成的圖像
“a 4 year old girl playing jigsaw puzzle with her beagle, digital art” (四歲女童跟他的米格魯玩拼圖,數位藝術)
“a 3d render of a young man eating ramen”

版權、使用權、擁有權的問題

在解讀Dall-E的使用條款時,要先了解Dall-E2的使用方式跟其間名詞定義。使用者有兩個選項:可以上傳自己的影像(稱為Upload)以使其由人工智慧修改產生圖像 (Generation),或者您可以編寫提示 (稱為Prompt)來生成圖像(稱為Generation)。 比如一開始我用“A terrier wearing a beret eating avocado on belgium waffel at a Parisian cafe, in the style of Van Gogh” (這段文字是Prompt),OpenAI的Dall-E根據此產生一張戴著貝雷帽的獵犬狗狗在法式咖啡館吃比利時鬆餅上的酪梨的梵谷畫風的圖,這張圖叫做Generation。

OpenAI允許我對這張圖進行商業使用:

“圖像的使用 :

在您遵守這些條款和我們的內容政策的前提下,您可以將產生的圖像(Generations)用於任何法律目的,包括商業用途。 這意味著您可以將您的權利出售給您建立的幾代人,將其納入書籍、網站和簡報等作品中,並以其他方式將其商業化。”

Dall-E使用條款 (2022/7/20版本)

到目前,使用者都可以使用自己的Generation(例如我在本文使用我的狗狗圖、雲教徒、跟狗狗一起拼圖的女兒、或是吃拉麵的年輕人)。 但誰是這些圖的擁有者?根據使用條款所說:

Generation的擁有權


在法律允許的範圍內,在您與OpenAI之間,您擁有您的Prompts和Uploads,並且您同意OpenAI擁有Generation(包括Upload產生的Generation,但不包括Uploads本身),您因此可以為此做出任何必要的分配。 OpenAI授予您複製和顯示Generation的專屬權利,不會轉售您建立Generation,也不會向您或您的終端使用者主張此Generation的任何版權,前提是您遵守這些條款和我們的內容政策。 如果您違反我們的條款或內容政策,您將失去使用Generation的權利,但我們將為您提供書面通知和合理的機會來糾正您的違規行為,除非它顯然是非法或濫用的。 您理解並承認,其他人可能會使用自己的Prompt建立類似或相同的Generation,而您的權利僅適用於您建立的特定Generation。”

Dall-E使用條款 (2022/7/20版本)

根據這份使用條款,OpenAI授予我可以散佈、複製、使用我的(梵谷風)狗狗吃酪梨鬆餅圖,OpenAI不會轉賣或主張版權(前提是我要遵守使用條款)。但有趣的文字藝術是,OpenAI擁有這張圖(但他們不對影象擁有任何版權所有權)

使用者條款裡注明「你同意OpenAI擁有Generation」,使用該服務即表示您同意該使用條款,無論這些影象是否擁有版權。雖然條款還(大方地)表示,他們不會對使用者提出任何版權主張 — 但事實是打從一開始就沒有版權主張(這件危險的事)存在。

相信Microsoft Designer的使用者條款不會超過這個尺度,但可以觀察微軟接下來對擁有權的定義,以及對「版權」的著墨。

接下來:AI生成文章、音樂跟影片?

在技術層面,AI生成文章、音樂或是影片都已經是證明可行、甚至稱上成熟普及的技術,除了版權、使用權、所有權的著作權法律問題外,怎麼使用這些技術輔助創意內容生成,怎麼跟使用者創意結合是首要的問題。用「一個投機者的告白」作者科斯托蘭尼(André Kostolany)式的比喻,這應該是人(使用者)拉著狗 (AI技術),而不是狗拖者人跑,AI技術應該是工具,而不是產出大量無主又無腦的內容。

(有人想到AI自動產生Line早安圖嗎?)

“A man walking his dog who runs back and forth, in Renoir style” (雷諾瓦風格的一個人遛著前後奔跑的狗)
“sitting in front of a computer at desk, watching a bird through a magnifier”