Saturday, August 26, 2023

開源式人工智能開發

《連線》雜誌Will Knight撰文:人工智能是一種具有極大潛力和潛在缺陷的技術,不應該由少數強大和富有的個人或公司來控制。

世界聞名的聊天機器人ChatGPT,也許你已經聽說,現在是任何人都可以使用的強大人工智能。但它的內部運作仍然是個嚴格保守的秘密。

不過幾個月來,讓人工智能更加「開放」的勢頭似乎強勁起來了。今年5月,有人從Meta公司洩露了一個名為Llama的聊天機器人模型,這個模型允許外部人員訪問AI對話的底層代碼,以及決定Llama行為的「權重」--也就是AI如何確定知識來源的可信度。

然後,今年7月Meta決定製作一個更強的模型,稱為Llama2,任何人都可以下載、修改和重新使用。從此Meta的模型成為許多公司、研究人員和業餘愛好者構建類似ChatGP的工具和App的基礎。

Meta在宣布Llama2時說:「我們在全世界各界得到廣泛的支持,他們相信我們對當今人工智能的開放方法...研究人員、技術界、學術界和政策領域的人們也看到Llama和開放式平台的好處」,要利用Llama2的模型進行研究。這兩天Meta發布了另一個模型Code Llama,對其編碼進行了微調。

開源方法幾十年來似乎已經實現了軟件訪問的民主開放、確保了透明度並提高了安全性,現在是否對人工智能也會產生類似的影響呢?恐怕沒有那麼快。有一篇研究論文,研究了Llama2和其它人工智能模型的實際情況。Carnegie Mellon大學、AI Now研究所和Signal基金會的研究人員說,標有「開放」品牌的模型可能有些重要問題必須注意。

Llama2可以免費下載、修改和部署使用,但它並不受傳統開源許可證的保護。Meta的許可證禁止使用Llama2來訓練其他語言模型,如果開發人員將其用在7億以上每日用戶的App或服務中,則需要申請特別的許可證。

這種掌控制意味著Llama2可以為Meta提供重大的技術和策略利益,例如當有其它公司在自己的App中使用Llama時,就讓Meta從別人所做的有用調整中受益。

研究人員說,在正常開源許可下所發布的模型,例如非營利組織EleutherAI所開發的GPT Neo,傾向於完全開放,但這類項目很難取得平等的市場地位。

人工智能急需監管,開放的神話是其中一個因素。Signal基金會主席和研究員Meredith Whittaker說,「我們確實迫切需要有用的替代方案,來改變由大型公司壟斷界定和主導AI技術的情形,特別是當人工智能系統被集成到許多高度敏感領域,具有特殊的公共影響,比如醫療保健、金融、教育和職場,創造條件使其它方案成為可能,是支持反壟斷和監管改革的。」

除了督查大公司的實力壟斷,讓人工智能技術更加開放,對於釋放其最佳潛力,以及防止它向最壞趨勢發展也至關重要。如果我們想了解最先進AI模型的能力,並降低部署和進一步開發可能帶來的風險,那麼最好將這些模型向全世界的科學家開放。

現在的實際情況:首先,訓練高級模型所需的數據通常是保密的。其次,構建此類模型所需的軟件框架通常由大公司控制。TensorFlow和Pytorch是最流行的兩個供機器學習使用的資料庫,分別由Google和Meta維護。第三,訓練大型模型所需的計算力也超出了任何普通開發人員或公司的能力範圍,通常一次訓練需要數千萬或數億美元。最後,精調和改進這些模型所需的人力也是一種只有財力雄厚的大公司才能獲取的資源。

照目前的發展方向,幾十年來最重要的技術之一AI,最終可能只會豐富和增強少數公司的能力,包括OpenAI、微軟、Meta 和谷歌。如果人工智能確實是一項改變世界的技術,那麼能夠被更廣泛地使用才會帶來最大的好處。

Whittaker博士說,研究分析發現開放無助於AI的「民主化」,事實上大公司和機構可以並且已經利用「開放」技術來鞏固和擴大集中的權力。正如代碼的安全性無法藉著隱匿來實現,強大人工智能模型運行的保密可能不是最明智的安全開發途徑。

1 comment: