近日,InfoQ發佈瞭《InfoQ 2023 年趨勢報告:數據工程、AI 和 ML》,在報告中總結瞭一些技術趨勢。
01 生成式AI
生成式AI已經成為人工智能(AI)和機器學習(ML)領域的重要力量,其中包括GPT-3、GPT-4和ChatGPT等大型語言模型。這些技術在過去一年的發展引起瞭廣泛關註,被廣大用戶積極采用,尤其是在ChatGPT的推動下。谷歌、Meta等多傢公司已經宣佈瞭自己的生成式AI模型。
InfoQ希望能夠更加關註LLMOps,並在企業環境中更好地使用這些大型語言模型。對於prompt工程是否會成為未來的一個重要議題,以及它是否會被廣泛采用以至於每個人都能為自己使用的prompt做出貢獻,InfoQ在觀點上存在一些分歧。
02 矢量數據庫和嵌入式存儲
隨著LLM技術的普及,人們對向量數據庫和嵌入式存儲越來越感興趣。其中一個引人註目的應用是使用句子嵌入來提高生成式人工智能應用的觀察性能。
對於向量搜索數據庫的需求是由於大語言模型的限制而產生的。這些模型隻能記錄有限的token歷史。向量數據庫可以將文檔摘要以特征向量的形式存儲,這些向量是由語言模型生成的。這樣一來,可能會產生數以百萬計甚至更多的特征向量。在傳統數據庫中,隨著數據集的增長,查找相關文檔將變得非常困難。而向量搜索數據庫能夠高效地實現相似性搜索,使用戶能夠找到查詢向量的最近鄰居,從而提升瞭搜索的效果。
對於這些技術的投資呈現明顯的上升趨勢,這表明投資者意識到它們的重要性。然而,開發者采用的速度相對較慢,但預計未來幾年將會加快。Pinecone、Milvus等向量搜索數據庫以及Chroma等開源解決方案正在引起人們的關註。數據庫的選擇取決於特定應用程序和搜索數據的特性。
向量數據庫已經在各個領域展現出瞭它的潛力,包括對地觀測。舉個例子,美國國傢航空航天局(NASA)利用自監督學習和向量搜索技術來分析地球的衛星圖像,從而協助科學傢追蹤颶風等天氣現象。
03 機器人技術和無人機技術
機器人成本正在不斷下降。過去,實現腿型平衡機器人非常難,但現在已有一些型號的機器人售價約為1500美元。這使得更多用戶能夠在自己的應用程序中使用機器人技術。機器人操作系統(ROS)依然是該領域主導的軟件框架,但像VIAM這樣的公司也在開發中間件解決方案,以使得機器人開發插件的集成和配置更加容易。
InfoQ預計,隨著無監督學習和基礎模型的不斷提升,InfoQ的能力也將得到提升。一個例子是,將大型語言模型應用於機器人的路徑規劃中,使機器人能夠使用自然語言進行規劃。
04 負責任且符合道德規范的人工智能
隨著人工智能逐漸影響全人類,越來越多的人開始關註負責任和符合道德的人工智能。人們呼籲對大型語言模型加強嚴格的安全保護,並對目前針對這類模型提供的用戶保障措施感到失望。
對於工程師而言,關鍵是要牢記需要改善所有人的生活,而不僅僅是改善少數人的生活。InfoQ預計人工智能監管將產生類似於幾年前GDPR所產生的影響。
InfoQ已經註意到一些人工智能由於糟糕的數據而無法成功。發現數據、處理數據、傳遞數據、標記數據以及良好的模型開發實踐將成為重中之重。數據對於解釋性至關重要。
05 數據工程
現代數據工程的特點是朝著更加分散和靈活的方法轉變,以應對不斷增長的數據量。數據網格(DataMesh)是一個全新的概念,旨在解決集中式數據管理團隊成為數據運營瓶頸的挑戰。它提出瞭建立跨域分區的聯邦數據平臺,將數據視為一種產品的理念。這樣,域所有者可以擁有對其數據產品的所有權和控制權,減少對中心團隊的依賴。盡管數據網格在采用方面前景廣闊,但可能會遇到與專業知識相關的障礙,因此需要先進的工具和基礎設施來實現自助服務功能。
在數據工程中,數據的可觀察性已經變得非常重要,就像應用程序架構中的系統可觀察性一樣。可觀察性在各個層面上都是必不可少的,包括數據可觀察性,在機器學習的背景下尤其如此。對數據的信任是人工智能成功的關鍵,因此數據可觀察性解決方案對於監測數據質量、發現模型漂移以及進行探索性數據分析非常重要,以確保獲得可靠的機器學習結果。這種轉變范式的數據管理,以及在數據和機器學習(ML)管道中集成可觀察性,反映瞭現代數據工程的發展前景。
結語
人工智能(AI)、機器學習(ML)和數據工程領域每年都在不斷發展,並且技術能力和潛在應用仍然有很大的增長空間。InfoQ對未來一年做瞭一些預測,包括“不存在AGI”的態勢,以及“自動代理將成為可能”的未來趨勢。
關註主頁,獲取更多資訊奧~