Machine learning 识别机器学习数据以进行预测

Machine learning 识别机器学习数据以进行预测,machine-learning,neural-network,Machine Learning,Neural Network,作为一个学习练习,我计划实现一个机器学习算法(可能是神经网络),根据股票买卖和交易时间来预测用户交易股票的收益。下面的数据集是我制定的测试数据 首字母缩略词: tab=millisecond time apple bought asb=apple shares bought tas=millisecond apple sold ass=apple shares sold tgb=millisecond time google bought gsb=google shares bought tgs

作为一个学习练习,我计划实现一个机器学习算法(可能是神经网络),根据股票买卖和交易时间来预测用户交易股票的收益。下面的数据集是我制定的测试数据

首字母缩略词:

tab=millisecond time apple bought
asb=apple shares bought
tas=millisecond apple sold
ass=apple shares sold
tgb=millisecond time google bought
gsb=google shares bought
tgs=millisecond google sold
gss=google shares sold
培训数据:

username,tab,asb,tas,ass,tgb,gsb,tgs,gss
a,234234,212,456789,412,234894,42,459289,0
b,234634,24,426789,2,234274,3,458189,22
c,239234,12,156489,67,271274,782,459120,3
d,234334,32,346789,90,234254,2,454919,2
分类:

a earned $45
b earned $60
c earned ?
d earned ?
目的:根据培训数据预测用户c&d的收入

是否有任何数据点需要添加到此数据集中?也许我应该使用替代数据?因为这只是我自己创作的一个学习练习,所以可以添加任何可能有用的功能

这些数据需要标准化,我还需要了解其他概念吗?
也许不应该使用时间作为功能参数,因为股票可能会根据时间上下波动。

不要将用户名与培训数据一起使用-网络可能会在用户名和赚取的美元之间建立关联。包括它将考虑用户对输出的决定,而排除它将确保网络能够预测任意用户的收入。

使用您建议的参数似乎无法预测收入

主要原因是输入参数与输出值不相关

输入值与自身矛盾——考虑到这样的情况,对于相同的输入,你会期望不同的输出值吗?如果是这样,您将无法预测此类输入的任何输出。 让我们更进一步,交易员的收益不仅取决于买入/卖出股票的份额,还取决于每只股票的价格。当我们向神经网络提供两个相等的输入,但要求不同的输出时,这将给我们带来问题

在这种情况下,如何定义“良好”参数来预测期望输出? 我建议首先寻找做这种估计的人,然后尝试定义他们考虑的参数列表。 如果你成功了,你会得到一个巨大的变量列表。
然后,您可以尝试建立一些模型,例如,使用神经网络。

您可能希望按以下顺序解决问题:

  • 根据所有股票的历史数据预测单个股票的未来价值
  • 根据投资组合和所有股票的历史数据预测股票的未来总价值
  • 管理投资组合的买入卖出短期策略。(购买/出售哪些股票的时间和金额)
  • 如果你能为某只股票做得很好,那么这可能是一个很好的起点。3) 可能是你的目标,但我把它放在最后,因为它更复杂

    我将在下面做一些假设,并重点讨论如何解决问题

    我假设在每个时间戳,您都有一个所有可能特征的向量,例如:

    • A公司股票价格(这是目标值)
    • 其他公司B、C、…、Z的股价(其他公司可能直接或间接影响A公司)
    • 52周A、B、C、…、Z的最低价格(长期功能开始)
    • 52周A、B、C、…、Z的最高价格
    • A、B、C、…、Z的每月最高/最低价格
    • A、B、C、…、Z的每周最高/最低价格(短期功能开始)
    • A、B、C、…、Z的每日最高/最低价格
    • 收入报告日是A、B、C、…、Z(真正重要的功能开始)
    • A、B、C、…、Z收入的变化
    • A、B、C、…、Z的利润变化
    • A,…,Z社交网络中公司简介的语义得分
    • 。。。(这里想象力很有用)
    我假设您在每个固定的时间间隔都有几乎所有的上述特性


    我认为类a神经网络在这里非常相关

    除了标准化,还需要缩放。另一个问题,我要问你的是股票的分类。在您的示例中,您提供了被视为股票的谷歌和苹果。我想澄清一下,你想只预测谷歌和苹果的收益,还是预测两支股票的组合

    如果你只想对谷歌和苹果进行预测,并提供你所拥有的数据,那么你只能用某种方法进行标准化和缩放。递归神经网络在预测任务上优于简单的前馈模型和反向传播训练

    但如果你想将你的训练算法应用到谷歌和苹果以外的地方,我建议你根据一些标准将你的训练数据分成若干组。划分的一个例子是根据股票的资本化程度。如果你想进行大写除法,你可以分成五组(例如)。如果你决定做五组股票,你也可以应用等边编码来减少NN学习的维数

    你可以想到的另一种分组是股票的操作区域。例如农业、科技、医疗、高端、旅游团体。 假设您决定按上述方式进行分组(我指的是农业、科技、医疗、高端、旅游)。然后,五个组将为您提供五个输入NN到输入层的条目(即所谓的)

    假设你想饲养农业牲畜

    然后输入将如下所示: 1,0,0,0,x1,x2,…,xn

    其中x1、x2、…、xn-是其他条目。 或者,如果您应用等边编码,那么您将少一个维度(我懒得描述它的样子)

    然而,转换神经网络条目的另一个想法是温度计编码

    还有一个想法要牢记在心,因为人们通常会在股票交易中无所事事,所以你的数据集会有偏差。我的意思是,如果你只随机选择10个交易者,他们都可能是输家,你的数据集将无法完全代表。因此,为了避免数据偏差,您应该有大的enou