欢迎访问匆匆知识网!

匆匆知识网

当前位置:首页 > 作文 > 高中作文 > 高一作文

高一作文

晓查发自凹非寺量子位|数据科学中最常用的6种算法

2023-06-22 16:01:30高一作文
有人总结了数据科学中最常用的6种算法,已经掌握它们分别需要哪些数学知识。因此,这些机器学习算法的训练过程的结果是找到最接近训练集的数学函数模型。这一部分包含的知识有指数函数和概率,你需要对代数和概率论有充分的理解。实际上你只需要知道加法和减法和代数的基础知识,就可以掌握距离公式。为了深入理解指标和度量空间的含义,我会阅读数学分析并参加实分析课程。

晓查发自凹非寺量子位|数据科学中最常用的6种算法

晓查发自凹非寺

量子位监制|公众号

假如想从事数据科学,而且又没有物理背景,这么有多少物理知识是做数据科学所应当的?

统计学是学习数据科学绕不开的一门物理基础课程,但数据科学也常常会牵涉物理中的其他领域。

数据科学使用算法进行预测,这种算法称为机器学习算法,有数百种之多。有人小结了数据科学中最常用的6种算法,早已把握他们分别还要这些物理知识。

朴实贝叶斯分类器

朴实贝叶斯分类器(NaiveBayes)是一种简略的机率分类器,它基于特性之间互相独立的假定,以贝叶斯定律为基础。

贝叶斯定律的物理公式为:

其中A、B表示两个丑闻,且P(B)不等于0。各个部份详细的含意为:

1、P(A|B)是条件机率,它是丑闻B发生后风波A发生的机率。

2、P(B|A)只是一个条件机率,它是丑闻A发生后风波B发生的机率。风波发生的或许性发生了是真的。

3、P(A)和P(B)是各自发生的机率,A、B两个丑闻互相独立。

还要的英语知识:

假如你想要了解朴实贝叶斯分类器,以及贝叶斯定律的所有用法,只需学习机率课程就足够了。

线性回归

线性回归是最基本的回归类别,它拿来理解两个连续变量之间的关系。在简略线性回归的状况下,获取一组数据点并描绘可适于预测未来的趋势线。

线性回归是参数化机器学习的一个实例,训练过程最终使机器学习找到最接近于训练集的英语函数,于是可以使用该函数来预测未来的结果。在机器学习中高中数学流程图符号含义,英语函数被称为模型。在线性回归的状况下,模型可以表示为:

a1,a1,……,an表示对数据集的参数值,x1,x1,……,xn表示在线性模型中使用的特性值。

线性回归的目标是找到描述特性值和目标值之间关系的最佳参数值。换句话说,就是找到一条最适宜数据的线,可以外推趋势以预测未来结果。

为了找到线性回归模型的最佳参数,我们希望让权值平方和(sumof)最小化。方差一般被称为偏差,它拿来描述预测值和真实值之间的差距。聚类平方和的公式可表示为:

y的“头顶”加上^拿来表示预测值,y表示真实值。

还要的英语知识:

假如你只想简略地了解,基础统计学课程就可以了。方差平方和的公式可以在大多数初级统计课程学校到。

逻辑回归

逻辑回归()注重于二元分类,即输出结果只有两种状况的几率。

与线性回归一样,逻辑回归是参数化机器学习的一个反例。为此,这种机器学习算法的训练过程的结果是找到最接近训练集的英语函数模型。

虽然线性回归模型输出的是一组实数,而逻辑回归模型输出的是机率值。在逻辑回归的过程中都会用到函数,它会把所有值压缩到0~1的范围之间。

还要的英语知识:

这一部份包含的知识有指数函数和机率,你还要对代数和机率论有充分的理解。假如想深入了解,建议学习机率论、离散物理或实剖析。

血管网路

血管网路是一种机器学习模型,他们遭到人类脑部中血管元结构的极大启发。血管网路模型使用一系列激活单元(称为血管元)来预测这些结果。血管元将键入应适于转化函数,并返回输出。

血管网路擅于获取数据中的非线性关系,并帮助我们完成音频和图象处理等任务。其实存在许多不同类别的血管网路(例如异或血管网路、前馈血管网路、递归血管网路等),但他们都依赖于转化键入生成输出的基本概念。

在上图中,腰线将每位圆圈连结到另一个圆圈。在英语中,这就是何谓的图,一种由边连结的节点组成的数据结构。

血管网路的核心是一个系统,它接收数据,进行线性代数运算高中数学流程图符号含义,于是输出答案。

线性代数是理解血管网路的关键,它通过矩阵和向量空间来表示线性多项式。由于线性代数牵涉矩阵表示线性多项式,因此矩阵是理解血管网路核心部份应当晓得的基本知识。

矩阵是由数字、符号或式子组成的方形阵列,按行和列排列。诸如:

它被称为3×3矩阵,由于它有三行三列。

血管网路,每位特性都表示为键入血管元。每位特性的数值减去血管元的权重向量荣获输出。在英语上,该过程是那样的:

其中X是一个m×n矩阵,m是血管元键入的数目,n血管元输出的数目。a是权重向量,aT是a的转置,b是偏压。

偏压(bias)通过向左或往右联通S形函数来影响血管网路输出,从而对这些数据集进行更好的预测。转置()是一个线性代数术语,它的意思是把矩阵的行弄成列、列弄成行。

在所有特性列和权重乘积以后,读取激活函数来确定血管元是否被激活。激活函数有三种主要类别:RELU函数,函数和双曲正弦函数。

函数我们早已晓得了。RELU函数是一个简约的函数,当键入x小于0的时侯输出x,当键入x大于0的时侯输出0。双曲正弦函数与函数类似,也是它拿来约束-1和1之间的数值。

还要的英语知识:

离散物理和线性代数课程是应当的。为了深入理解,还须要学习数论、矩阵论、多元微积分和实剖析课程。

K-平均图论

K-平均图论(K-Means)算法是一种无监督机器学习,适于对未标记数据进行分类。该算法通过在数据中查找组来工作,其中组由变量k表示。它按照提供的特性将每位数据点分配给k组中的一个。

K-平均图论依赖于整个算法中的距离概念,将数据点“分配”到图论。在英语中,描述集合中任意两个元素之宽度离的指标有两种:欧几里德距离和租赁车距离(又叫曼哈顿距离)。

其中,(x1,y1)、(x2,y2)是笛卡尔平面上的座标点。

但是欧几里得距离标准早已足够,但在这些状况下它不起作用。假定在城市街道上搭乘租赁车,这么你是只能走斜线的,只好走横平竖直的街道,这时侯我们可以使用租赁车距离:

还要的英语知识:

这部份涉及到的知识比较少。实际上你只须要晓得乘法和除法和代数的基础知识,就可以把握距离公式。虽然为了深入理解每种距离的基本几何形状,建议学习欧氏几何和非欧几何。为了深入理解指标和测度空间的含意,我会阅读英语剖析并出席实剖析课程。

决策树

决策树是一种类似步骤图的树结构,它使用分支方式来说明决策的每位或许结果。树中的每位节点代表对特定变量的检测,每位分支都是该检测的结果。

决策树依赖于信息论()。在信息论中,人们对某个主题了解越多,可以晓得的新信息就越少。信息论的关键之一是熵()。熵是变量不确定性的一种测度,详细方式为:

在里面的公式中,P(x)是数据集中特性出现的机率。b是对数函数的底,它常见的值有2、e和10。上面的Σ符号表示求和,它的上下方分别写着求和的上限和下限。

在估算熵以后,我们可以通过信息增益(gain)构造决策树,它告诉哪种分拆模式会最大程度地降低熵。信息增益的公式如下:

信息增益适于评判可以荣获多少“信息”。在决策树中,我们可以估算数据集中每一列的信息增益,找到哪一列能为我们提供最大的信息增益,于是在该列上进行分拆。

还要的英语知识:

基本的代数和机率知识是了解决策树所应当的。