股票,也称为股权,是代表公司一小部分所有权的证券。股票所有者有权获得公司资产和利润的一部分,等于他或她所拥有的股票数量。
标准普尔500指数是基于在美国证券交易所上市的500家大型公司的股票市场指数。该指数由三大信用评级公司之一的标准普尔拥有和管理。按市值计算,它覆盖了大约80%的美国股票市场。
长期以来,股票价格预测一直让人们感兴趣,我们的目标是创建一个机器学习模型,能够在考虑黑天鹅事件的概念的同时,尽可能准确地预测市场价格的演变。
黑天鹅事件是完全出乎意料和不可预测的事件。事后可能会也可能不会对事件进行解释,但事前不会。在经济、市场和天气系统等复杂系统中,事件的发生通常有多种原因。
该数据集来自KaggleTimeSeriesForecastingwithYahooStockPrice。
这是标准普尔500指数的历史价格数据,是公开数据。在我们的例子中,数据集是从雅虎财经数据库中获得的。
然后我们可以查看数据的季节性,这对应于周期性重复模式的存在,然后观察曲线的趋势。
如果一开始很难在我们的数据集中识别季节性,我们可以很容易地观察到趋势是向上的。
移动平均线是技术分析中使用的财务指标。
它使您可以观察资产的演变,同时避免价格失常。有不同的类型,在这个项目中,我们选择实现算术移动平均线。因此,对于30天移动平均线,我们计算最近30个股票市场交易日的收盘价之和,然后我们将这个和除以30。
在这里,我们选择计算前一天的变化百分比。
在开始实施我们的学习模型之前,重要的是选择哪些数据将用于获得良好的结果。
岭回归的优点是避免过拟合。
我们的最终模型是可以概括模式以在训练和测试集上发挥最佳效果的模型。
当模型在训练数据上表现良好而在测试数据上表现不佳时,就会发生过拟合。
岭回归通过应用惩罚项(减少权重和偏差)来克服过度拟合。
然后我们可以绘制模型的性能以将其与实际值进行比较。
不同的性能统计数据用于确定我们的模型是否良好。
我们将实现一个简单的单变量神经网络,该网络仅基于每个会话的收盘价。
我们使用Keras和Tensorflow库来构建我们的模型。
长短期记忆网络(LSTM)是循环神经网络的扩展,可扩展其记忆。因此,它非常适合学习在两者之间有很长转变的基本经验。
LSTM的单元用作RNN层的构建块,然后通常称为LSTM网络。
尽管我们的模型似乎遵循正确的趋势,但我们可以观察到我们的预测与曲线的实际值之间存在细微差距。这种差异可以使用平均绝对误差来估计。
因此,我们可以看到,预测值和实际值之间平均相差85美元。
有了这些图,我们就完成了一个完整的端到端机器学习预测!如果我们想改进我们的模型LSTM模型可以通过使用现有的或我们自己创建的几个特征来提供更好的性能。
我们还可以尝试不同的超参数(设置)并测试更多不同的算法。