翻譯整理自:arxiv 2306.11025.pdf
概述
本文提出瞭一項利用大語言模型(LLMs)出色的知識和推理能力進行可 解釋金融時間序列預測的新研究。將機器學習模型應用於金融時間序 列帶來瞭幾個挑戰,包括跨序列推理和推理的困難,從歷史新聞、金 融知識圖譜等納入多模態信號的障礙,以及解釋和解釋模型結果的問 題。本文以納斯達克-100股票為研究對象,利用公開可獲取的歷史股 價數據、公司元數據和歷史經濟/金融新聞。我們進行瞭實驗,以說明 LLMs在為上述挑戰提供統一解決方案方面的潛力。我們的實驗包括嘗 試使用GPT-4進行零射擊/少射擊推理,以及使用公共LLM模型Open LLaMA進行基於指令的微調。證明瞭所提出方法的性能優於一些基線, 包括廣泛應用的經典ARMA-GARCH模型和梯度提升樹模型。通過性 能比較結果和一些例子,我們發現LLM可以通過對文本新聞和價格時 間序列的信息進行推理並提取見解、利用交叉序列信息以及利用嵌入 LLM中的固有知識來做出深思熟慮的決策。此外,我們表明,公開可 用的LLM,如Open-LLaMA,經過微調後,可以理解指令,生成可解 釋的預測並達到合理的性能,盡管與GPT-4相比相對較差。
方法
在本研究中,我們將重點放在NASDAQ-100股票價格時間序列 上,輔以有關股票公司的元數據和有關特定股票和更廣泛的金 融/經濟格局的相關金融新聞數據。我們主要關註的是預測每周/每月的股票收益(定義為股票價格從一周/月的開始到結 束的百分比變化),並附帶解釋。這個重點與大型語言模型(法學 碩士)的專業知識非常一致。 我們展示瞭法學碩士的結構化提示設計,並將最先進的GPT4模型[44]應用於零彈和少彈推理任務。為瞭進行微調,我們使 用公開可用的Open LLaMA[18]。我們還采用瞭思維鏈(Chain of Thoughts, COT)技術[38,64],在其他研究中發現該技術可以提高 法學碩士的有效性。
數據
1. 我們從Yahoo Finance使用yfinance包(http://pypi.org/project/yfinance/)下載每日NASDAQ-100股票價格數據。在本文中,我們首先將數字價格時間序列歸一化為百分比變化時間序列,然後將百分比變化分類到不同的區間。例如,對於每周預測,我們將本周與上周之間的價格變化分為12個區間:“D5+”,“D5”,“D4”,“D3”,“D2”,“D1”,“U1”,“U2”,“U3”,“U4”,“U5”,“U5+”,其中“D5+”表示價格下降超過5%,“D i”(i=5,4,3,2,1)表示價格下降在(i-1)%到i%之間,“U5+”表示價格上漲超過5%,“U i”(i=1,2,3,4,5)表示價格上漲在(i-1)%到i%之間。不同粒度的推斷可能會有不同數量的區間。例如,對於月度推斷,我們允許i最大到10,並有相應的“D10+”和“U10+”類別。
2. 公司簡介數據。我們使用GTP-4來生成公司描述,一般可能 影響公司股票價格的正面/負面因素。
3. 經新聞數據。我們使用谷歌自定義搜索API來獲取每周 NASDAQ-100股票的前5名新聞故事。之後,我們使用GPT-4生 成摘要,並從每篇獲得的新聞文章中提取關鍵字。
基於zero-shot和few-shot
在zero-shot和few-shot推理中,法學碩士展示瞭它們在沒有任何 額外示例(zero-shot)或基於原始訓練集之外的最小示例數(fewshot)的情況下生成響應的能力。在我們的零樣本/少樣本推理實驗中,我們利用瞭基於指令 的提示。
2e1f3fe694e0ebeafe0b56acc012596c
在圖4中,包括指令、公司簡介、歷史時間新聞摘要/關鍵詞序列與分類的股票價格時間序列混合在一起,以及跨序列的少樣本學習示例。
為瞭避免提示文本中不必要的重復,我們有意提供與感興趣主題相似的股票的少樣本學習示例。這個設計也幫助我們證明瞭LLM可以考慮來自各種股票的跨序列信息。為瞭識別相似的股票,我們用一個問題來查詢GPT-4,如“列出納斯達克最相似的3隻股票”。一個典型的回答,如“MSFT, GOOGL, AMZN”,展示瞭LLM對金融實體和概念之間關系的理解。通過聘請LLM,我們隱含地利用瞭其在金融實體和概念方面的廣泛知識。
提示結構和指示已經根據經驗進行瞭調整。例如,我們將指令分為兩部分,將它們定位在提示的開頭和結尾,這有助於模型更好地識別其任務:預測下周的摘要和關鍵詞,而不是總結歷史數據。預測的摘要和關鍵詞作為相應的股票收益預測的解釋。
我們還嘗試瞭思維鏈的方法[38,64,71],即“分步思考”的想法,通過在提示的最後附加“你能在最終確定輸出之前一步一步推理嗎?”令我們驚訝的是,這明顯提高瞭幾個點的性能(見第4.2節)。
圖5說明瞭響應圖4的逐步思考過程的結果,其中很明顯,當生成明確的推理步驟時,GPT-4確定瞭以前被忽視的關於“收益報告”的關鍵點。
我們使用Open LLaMA 13B模型執行基於指令的微調,以查看與GPT-4相比,公開可用的模型的性能如何,特別是在微調之後。Open LLaMA 13B模型在其零射擊推理中,通常傾向於復制提示的部分內容,而不是有效地執行提示中的指令。因此,如果不經歷一個微調過程,它就無法正確地處理圖4所示的基於指令的提示。因此,本文的重點是利用Open LLaMA模型進行微調。
基於指令的微調最近被證明在用特定指令指導模型的訓練過程中是有效的[47,57]。我們創建瞭一個30K weekly forecasting plus的數據集7K月度預測,來源於從2017年6月到2022年6月的5年歷史數據。不像GPT-4支持最多8K令牌大小,由於模型和硬件的限制,我們需要將提示壓縮為1K令牌,以便對Open LLaMA進行微調。
對於每個微調示例,我們使用GPT-4將完整的歷史元新聞摘要/關鍵字(例如,從第8周到最後一周,如圖4所示)濃縮為單個,甚至更簡潔的摘要/關鍵字對。同時,提示的“公司簡介”和“預測示例”部分也分別濃縮為更簡潔的摘要段落。
評估
結果顯示瞭法學碩士在金融時間序列預測 中的有效性,其中“GPT-4 few-shot with COT”在預測精度和解 釋質量方面始終表現最佳。研究結果還強調瞭思想鏈(chain -ofthought, COT)技術持續提高性能,以及利用公開可用的法學碩士 (如Open LLaMA)進行基於指令的微調的潛力,通過COT微調,與 GPT-4相比,可以實現合理的性能。
533c3eb5ca54a372e660d89a7c6425fa
大模型核心論文三百篇帶解讀打包好啦!
左圖是純論文打包,右圖包括解讀文件
ed24008b27a6049dcb98250598378e4b
《受欢迎—在一个过于关注错误关系的社会里找到幸福和成功》(Popularity: finding hapiness and success in a world that car ...
痔瘡是常見的肛腸疾病,分為內痔、外痔和混合痔,內痔表現為大便帶血和痔瘡突出,外痔表現為肛門口的膿腫,混合痔是指內痔和外痔...