隨著深度學習的開放,人工智能在幾年中快速發(fā)展,尖端技術慢慢向普及應用到各行各業(yè)。以下是國外一家專注于開源和堆棧技術新聞網站 TheNewStark 盤點的 2022 年值得人們期待的五個人工智能發(fā)展趨勢。
趨勢 1:大型語言模型(LLMs),定義交互式人工智能的下一個浪潮
人工智能的語言模型是基于自然語言處理技術和算法創(chuàng)建的。比如在某一句話說一半的時候,這個模型會根據以往記錄的實例,來推斷出這句話后面的幾個字??偟膩碚f就是總結文本信息,甚至從純文本中創(chuàng)建視覺圖表。
大型語言模型(LLMs)是在包含巨大數(shù)據量的大規(guī)模數(shù)據集上訓練的。像是 Google 的 BERT 和 OpenAI 的 GPT-2 和 GPT-3 就是 LLMs 很好的例子。據了解,GPT-3 中約有 1750 億個參數(shù),在 570 千兆字節(jié)的文本上進行訓練。這些模型生成的東西可以從簡單的文章到復雜的金融模型。現(xiàn)如今,包括 OpenAI、Hugging Face、Cohere、AI21 Labs 以及 AI12 在內的人工智能初創(chuàng)公司,正在通過訓練具有數(shù)十億參數(shù)的模型來推動 LLMs 的發(fā)展。
韓國一家叫做 Naver 的公司宣布,它已經建立了最全面的基于人工智能的語言模型之—— HyperCLOVA,一個類似于 GPT-3 的韓語模型。與上述模型不同的是,華為的 PanGu-Alpha 以及百度的 Ernie 3.0 Titan 則是在由電子書、百科全書和社交媒體組成的海量中文數(shù)據集上進行訓練的。
在 2022 年,我們將看到大型語言模型成為下一代交互式人工智能工具的基礎模型。
趨勢 2:多模態(tài)人工智能的崛起
" 模態(tài) "(Modality)是德國理學家赫爾姆霍茨提出的一種生物學概念,即生物憑借感知器官與經驗來接收信息的通道,如人類有視覺、聽覺、觸覺、味覺和嗅覺模態(tài)。多模態(tài)是指將多種感官進行融合,而多模態(tài)交互是指人通過聲音、肢體語言、信息載體(文字、圖片、音頻、視頻)、環(huán)境等多個通道與計算機進行交流,充分模擬人與人之間的交互方式。
傳統(tǒng)的深度學習算法專注于從一個單一的數(shù)據源訓練其模型。例如,計算機視覺模型是在一組圖像上訓練的,NLP 模型是在文本內容上訓練的,語音處理則涉及聲學模型的創(chuàng)建、喚醒詞檢測和噪音消除。這種類型的機器學習與單模態(tài)人工智能有關,其結果都被映射到一個單一的數(shù)據類型來源。而多模態(tài)人工智能是計算機視覺和交互式人工智能智能模型的最終融合,為計算器提供更接近于人類感知的場景。
多模態(tài)人工智能的最新例子是 OpenAI 的 DALL-E,該模型使用藝術家薩爾瓦多 - 達利和皮克斯的瓦力的諧音來命名。它可以從文本描述中生成對應圖像。例如,當文本描述為 " 一個甜甜圈形狀的時鐘 " 被發(fā)送到該模型時,它就可以生成以下圖像。
圖片來源 TheNewStark
谷歌的多任務統(tǒng)一模型(MUM)是多模態(tài)人工智能的另一個例子。它承諾通過從 75 種不同語言中挖掘出的上下文信息對用戶搜索結果進行優(yōu)先排序,從而提高用戶的搜索體驗。MUM 使用 T5 文本到文本框架,比 BERT 中流行的基于變換器的自然語言處理模型要強大 1000 倍。
英偉達的 GauGAN2 模型則將根據簡單的文本輸入生成照片般逼真的圖像。它在一個單一的模型中結合了分割映射、內畫和文本到圖像的生成,使其成為一個強大的多模態(tài)工具,可以用文字和圖畫的混合來創(chuàng)造逼真的藝術。
在不遠的未來我們就可以見到計算機視覺、語言以及語音模型的融合,這使得人工智能更豐富,更自然逼真。
趨勢 3:簡化和精簡 MLOps
機器學習操作(MLOps),是一個將機器學習投入到工業(yè)生產中的實踐,是機器學習和 DevOPs 在軟件領域交叉的產物,所以它在許多方面與 2012 年的 DevOps 相似。在 2012 年 DevOps 上線的時候,許多企業(yè)就意識到了它的價值,但是他們在實施 DevOps 的時候很困難,工具鏈非常復雜,生態(tài)系統(tǒng)也不夠完善。而 MLOps 相比來說更加復雜,它的軟件包包括安裝、配置訓練、推理基礎設施、配置特征存儲、配置模型注冊表、監(jiān)控模型的衰減以及檢測模型漂移等所有的相關內容。其龐大的軟件包也導致 MLOps 的部署比 DevOps 還困難。
MLOps 是被納入基于云計算的 ML 平臺的概念之一,平臺包括如亞馬遜網絡服務的 Amazon SageMaker, Azure ML, 以及谷歌的 Vertex AI。然而,它所擁有的這些能力卻不能用于混合和邊緣計算這兩個環(huán)境。因此,監(jiān)測邊緣計算的環(huán)境模型被證明是企業(yè)要面臨的一個重大挑戰(zhàn)。在處理計算機視覺系統(tǒng)和交互式人工智能系統(tǒng)時,創(chuàng)建一個為其服務的監(jiān)測邊緣計算的模型就變得更加具有挑戰(zhàn)性。
隨著 Kubeflow 和 MLflow 等開源項目的逐漸成熟,MLOps 其實已經很容易就能獲取到。在未來幾年我們或許可以看到一個精簡和簡化的 MLOps 方法橫跨云領域和邊緣計算環(huán)境。
趨勢 4:AI 驅動的開發(fā)者生產力
在未來,人工智能幾乎會影響到 IT 行業(yè)的每個方面,包括編程和開發(fā)。在過去的幾年里,我們已經看到了諸如亞馬遜代碼大師這樣的工具,該產品會在開發(fā)者編程時,為其提供智能建議,以提高代碼質量,并識別出應用程序中最重要的代碼行。就在最近,Github Copilot 作為一個 " 人工智能配對程序員 " 首次亮相,協(xié)助開發(fā)人員編寫高效的代碼。而 Salesforce 的研究團隊也推出了 CodeT5,這是一個開源項目,將幫助 Apex 開發(fā)人員進行由人工智能驅動的編碼。Tabnine,即以前的 Codata,將智能代碼完全帶到了主流開發(fā)環(huán)境。Ponicode 也是一個 AI 驅動的工具,可以提供函數(shù)創(chuàng)建、可視化和運行單元測試的快捷方式。
圖片來源 TheNewStark
大型語言模型(LLMs)的興起和開源代碼更廣泛的可用性,使 IDE 供應商能夠再其基礎上建立智能代碼生成和分析系統(tǒng)。
展望未來,人們期望看到能夠從內聯(lián)注釋中生成高質量和緊湊代碼的工具。它們甚至能夠從一種語言編寫的代碼翻譯成另一種語言,通過將傳統(tǒng)代碼轉換為現(xiàn)代語言來實現(xiàn)應用程序的現(xiàn)代化。
趨勢 5:云平臺新的垂直化人工智能解決方案
世界領先的人工智能供應商,包括亞馬遜、谷歌和微軟,都正專注于將研究和開發(fā)工作商業(yè)化。他們通過旗下的云平臺提供托管服務,并建立硬件設備,配備人工智能加速器和針對特定場景的預訓練模型。
亞馬遜連接和谷歌聯(lián)絡中心 AI 是垂直整合的典型例子。兩者都利用機器學習能力來執(zhí)行智能路由,由機器人驅動的客服對話,以及對聯(lián)絡中心代理商的自動協(xié)助。AWS Panorama 可以連接到現(xiàn)有的 IP 攝像機,以此來執(zhí)行基于計算機視覺的推理。客戶可以在其云平臺訓練新的模型,并將它們部署在全景設備的邊緣。Azure Percept 采用了類似的方法,在邊緣提供計算機視覺模型和交互式人工智能。微軟基于 Azure 上現(xiàn)有的物聯(lián)網、人工智能和邊緣計算服務建立了 Percept。
最后,亞馬遜 Lookout for Equipment 和谷歌 Cloud Visual Inspection AI 等服務,利用基于云的人工智能平臺,對設備進行預測性維護和產品的異常檢測。這些服務是專為零售和制造業(yè)定制的。
在 2022 年,我們將看到人工智能平臺和云供應商利用前沿研究技術和現(xiàn)有的管理服務,提供針對特定的例子和場景的解決方案。
(轉載)