机器学习预测分类

machine learning predict classification

我有以下问题。我有一个由一系列数字组成的训练数据集。每个数字都属于某个类。有五个班。

Range:1…10

培训数据集:1,5,6,6,10,2,3,4,1,8,6,…

Classes:[1,2][3,4][5,6][7,8][9,10]

是否可以使用机器学习算法来查找类预测的可能性,以及什么算法适合这种情况?

最好的,美国


如问题评论所述,I want to calculate the likelihood of a certain class to appear based on the given distribution of the training set,问题很小,很难用机器学习:只需计算"训练集"中每节课的出现次数,计数,计数,…Curt9910。给定类xy出现的可能性简单地由

1
2
   P(xy) = Count_xy  / Total Number of elements in the"training set"
         = Count_xy  / (Count_12 + Count_34 + Count_56 + Count_78 + Count_910)

一个更有趣的问题……将训练集视为序列,并猜测序列中的下一个项目是什么。下一个项目来自给定类别的概率不仅基于该类别的先验概率(上面计算的p(xy)),而且还将考虑序列中它之前的项目。这个问题的一个有趣的部分将是找出"向后看"的距离,以及给前面的项目序列赋予多大的"权重"。

编辑(现在OP表示他/她对"更有趣的问题"感兴趣)。这个"给定序列的预测"问题几乎直接映射到用于预测事件顺序的机器学习算法stackoverflow问题。这里的字母表有10个不同的代码(另一个问题是4个),事实上我们试图预测一类代码,而不仅仅是代码本身。关于每类2个代码的聚合,我们有几个选项:

  • 从一开始就处理类,即将序列中读取的每个代码替换为其类,并且只考虑并跟踪随后的类。
  • 只使用代码,即创建1到10个代码的预测器,并且只考虑最末端的类,加上组成一个类的两个代码的概率,以产生下一个项属于该类的可能性。
  • 一些混合解决方案:考虑/使用代码,但有时会聚合到类中。

我个人的选择是首先尝试使用代码预测器(仅在最后进行聚合),如果从最初的尝试中获得的洞察力告诉我们,逻辑或其性能可以简化或改进,我们可以更早地进行聚合,那么也许可以从中进行调整。实际上,两种方法都可以使用相同的预测器,只需更改输入流,将所有偶数替换为前面的奇数即可。我猜想,当我们早期聚合时,有价值的信息(为了猜测即将出现的代码)会丢失。