高级数据分析师的六种数学利器 0条评论

2019年11月20日   分类:cDxxWH   4893人浏览

原标题:高级数据分析师的六种数学利器

罗曼·马吉尔在Unsplash拍摄的照片

原始链接:www.kdnuggets.com

原作者:Tirthajyoti Sarkar

戴尼奥说:“数学让我头疼,翻译这篇文章让我头疼欲裂。然而,数据分析师对数学一点也不了解,也不能真正解释它。这就是为什么我们有这篇文章。”

介绍

数学是现代科学的基石。几乎所有现代科学都离不开数学,尤其是数据科学和机器学习。

为了成为一名高级数据分析师,一个人必须有一定的数学知识,并熟练应用数学技能,以便更好地使用程序提供的算法。例如,如果你理解算法背后的数学知识,你就能更好地理解用户推荐系统的机制。

总之,学好数学对数据分析师有好处,它不仅能让你在工作中脱颖而出,还能让你更自信。相信我,理解算法背后的操作机制比那些只使用工具的同事更有优势。

毫无疑问,要成为一名顶级数据分析师并不容易,优秀的编程技能、聪明的商业头脑、对数据的独特见解以及强烈的好奇心都是必要的。这篇文章想告诉你的是,为了成为一名优秀的数据分析师,你需要掌握什么必要的数学知识。

初学者入门

长期从事计算机硬件、商业零售、医疗保健、商业管理等领域的专业人员想要转向数据分析领域,首先必须掌握一些必要的数学知识。

虽然有些人可能认为以前的工作已经处理了大量的数据报告,完成了大量的数据计算和趋势预测工作,但数据分析工作所需的数学技能实际上与这些数值工作大不相同。

为什么数学如此重要——因为数据科学是科学,而不仅仅是数据

展开全文

网络工程师和业务分析师并不关注数据建模,尽管他们每天都在处理大量数据。由于时间的压力,往往只是“用数据完成手头的工作并迅速完成”,而不是深入研究数据并探索数据之间的内在关系。无论如何,数据科学是科学,而不仅仅是数据。数学能力是什么?您可以参考以下几点:

研究底层动态,创建数学实体或信息流程模型 提出假设命题 严格评估数据源的质量 量化及预测数据的不准确程度 培养识别信息流潜在模式的敏感度 能够理解模型的局限 能够理解数学论证及背后的抽象逻辑

这些都旨在培养理解无聊数字、抽象数学实体及其性质和关系的能力,。他们可以在四年制大学数学课程中学习,而且他们不必从顶尖大学以优异的成绩毕业就能获得这些数学能力。

另外,我想说的不是大一的微积分,而是一些简单的东西,比如数字2。请看看下面的场景。

一大早,刚到办公室,就准备开始一天的工作,准备复杂的商业图表。领导突然给你分配了一个非常具有挑战性的任务——“证明2的平方根在2分钟内不是一个有理数。”

一大早,刚到办公室,就准备开始一天的工作,准备复杂的商业图表。领导突然给你分配了一个非常具有挑战性的任务——“证明2的平方根在2分钟内不是一个有理数。”

什么...,你刚才说是合理的

听着,如果你不懂数学,你会不知所措的...

对不起,请告诉我怎样才能成功。

这正是我想说的。学好数据分析没有一定的规则。数据分析基本上是一个功能,而不是一个行业领域。数据分析可以处理各种现象,如癌症诊断和社会行为分析。由此产生的交叉可能性包括数学对象的多维阵列、统计分布、目标函数的优化等...

等等,先休息一下...

这是怎么回事?真的吗?

你怎么说呢,如果你想玩数据分析,下面的内容可能需要花些功夫去研究。

一、函数、变量、方程、图形

要学什么

从最简单的角度来看,如线性方程、二项式定理及其性质。

对数、指数、多项式函数、有理数 基本几何定理、三角恒等式 实数和复数及其基本性质 级数、求和与不等式 绘图、制图、笛卡尔系和极坐标系、圆锥曲线

如何使用

为了理解排序后搜索数百万数据的速度,我们必须首先理解什么是二分法搜索。要理解二分法搜索,我们必须理解什么是对数,什么是递归方程。另外,如果你想分析时间序列,你必须理解周期函数和指数衰减的概念。

你在哪里学的

数据科学的数学 - Coursera 代数简介 - edX 可汗学院 - 代数

二.统计数字

要学什么

统计是数据分析师必备的技能。如果你想做数据分析,你必须有坚实的统计学和概率论基础,这是不用说的。除了新兴的神经网络机器学习,传统的机器学习实际上是统计学习。例如,李航的统计学习方法是关于机器学习的原理。统计的内容非常广泛,我们只需要关注核心概念。

数据摘要与描述性统计:集中趋势、方差、协方差、相关性 概率论基础:基本理念、期望、概率演算、贝叶斯定理、条件概率 概率分布函数:均匀分布、正态分布、二项分布、卡方分布、学生t分布、中心极限定理 采样、测量、误差、随机数生成 假设检验:A/B检验、置信区间、P值 方差分析(ANOVA)、t检验 线性回归、正则化

如何使用

它将在面试中使用。相信我,作为一名准数据科学家,如果你把统计学的概念弄得清晰明了,你肯定会给面试官留下深刻印象。作为一名数据科学家,统计是一种常用的工具。

你在哪里学的

用 R 学统计学专业 — Coursera,杜克大学 Python 数据科学 - 统计学与概率论 — edX,加利福尼亚大学 商务统计与分析专业课 — Coursera,莱斯大学

第三,线性代数

要学什么

脸书上的朋友推荐,Spotify上的歌曲推荐,自画像照片通过深入学习转化为萨尔瓦多达利风格的肖像画。这些操作有什么共同之处?事实上,它们都离不开矩阵和矩阵代数的知识。

线性代数是数学的一个重要分支,它研究机器学习算法如何从数据流中获得有价值的信息。以下是线性代数的必要知识:

矩阵和向量的基本性质:标量乘法、线性变换、转置、共轭、秩与行列式 内积与外积、矩阵乘法规则及其算法、逆矩阵 特殊矩阵:方阵、单位矩阵、三角矩阵、稀疏矩阵、密集矩阵、单位向量、对称矩阵、厄米矩阵(又称自共轭矩阵)、斜厄米矩阵和酉矩阵 矩阵分解概念:LU分解、高斯消元法、求解 Ax = b 线性方程组 向量空间、基向量、扩张空间、正交性、线性最小二乘法 特征值、特征向量、对角化与奇异值分解(SVD)

如何使用

在使用降维技术进行主成分分析时,采用奇异值分解来降维,减少数据集参数。所有神经网络算法都使用线性代数来处理网络结构和学习操作。

你在哪里学的

线性代数:从基础到精通 — edX,UT Austin 机器学习中的数学知识:线性代数 — Coursera,帝国理工学院,伦敦

五.微积分

要学什么

在大学里,微积分是最麻烦的课程。然而,在数据科学和机器学习领域,微积分无处不在。普通最小二乘问题最简单的解析解离不开微积分,微积分在用于学习新模型的神经网络的反向传播中也是不可或缺的。可以说微积分是你技能基础中最有价值的技能。以下是需要掌握的微积分知识点:

单变量函数、极限与连续、可微性 均值定理、不定式和洛必达法则 最大值与最小值 乘积和链式法则 泰勒级数、无限级数求和与积分 积分中值定理与基本公式,定积分与不定积分方程式 Beta 和 Gamma 函数 多变量函数、极限与连续、偏导数 常微分方程与偏微分方程的基础知识(不必了解过于高级的内容)

如何使用

理解逻辑回归算法需要微积分知识,例如如何通过“梯度下降”找到最小损失函数。为了理解梯度下降的机理,将使用微积分的概念——梯度、导数、极限和链式法则。

你在哪里学的

大学预备课 - 微积分 — edX, TU Delft 可汗学院 - 微积分 机器学习中的数学知识:多变量微积分 — Coursera,帝国理工学院,伦敦

五、离散数学

要学什么

在讨论数据科学的数学知识时,离散数学的话题很少被讨论,但几乎所有现代数据科学都需要计算系统的支持,而这些系统的核心是离散数学。一年级学生在学习离散数学时会被告知,初学者必须掌握日常分析项目中使用的算法和数据结构。离散数学的核心知识点如下:

集合、子集、幂集 计数、组合、可数性 基本证明技巧:归纳法、反证法 归纳、演绎和命题逻辑基础 数据结构基础:堆栈、队列、图、数组、哈希表、树 图形性质:连通分支、度、最大流与最小割、染色图 递归关系与方程 函数增长率与大O符号法

如何使用

对于任何社会网络分析,都有必要了解图形的本质和快速算法来查找和遍历网络。不管你选择哪种算法,你都必须理解算法的时空复杂性。例如,随着输入数据大小的变化,对操作的时空要求也会发生变化。在这种情况下,通常使用大0符号方法。

你在哪里学的

计算机科学专业课:离散数学简介 — Coursera, Univ. of California San Diego 数学思想简介 — Coursera,斯坦福大学 精通离散数学:集合与数学逻辑 — Udemy

六、优化、运筹学

要学什么

这部分题目与应用数学知识有关,最常用的是计算机科学原理、控制论、运筹学等。理解这些概念对于机器学习实践非常重要。事实上,每种机器学习算法都必须在有限的条件下最小化误差估计,这就是优化。要学习的内容如下:

最优化基础:如何规划命题 最大值、最小值、凸函数、全局解 线性规划、单纯形算法 整数规划 约束规划、背包问题

如何使用

用最小二乘损失函数来解决简单的线性回归问题一般可以得到更精确的解析解,但在解决逻辑回归问题时却不行。为了理解原因,我们必须理解最优化中凸性的概念。这个概念还告诉我们,在大多数机器学习问题中,近似解应该被接受是一个不争的事实。

你在哪里学的

商业分析最优化 — edX,麻省理工学院 离散优化 — Coursera,墨尔本大学 确定性优化 — edX,佐治亚理工学院

相关文献

结论

即使你不擅长数学,也不要太担心,更别说困惑和无助了。要成为一名高级数据分析师,需要学习很多东西。如果你平时不怎么运用数学知识,你必须更加努力。然而,这个时代最好的地方是网上有很多优秀的资源,比如各种视频教程。只要你花些时间和精力,你就能找到合适的学习资源。

我可以保证,即使在大学里学习了这些内容,现在复习或学习了新的数学知识,你也会发现这些时间和精力没有被浪费,你肯定会一点一点地开始理解数据分析和机器学习项目背后隐藏的旋律。这是成为数据科学家的一大步。

如果您有任何问题或想法,请联系作者Tirthajyoti。您还可以查看他的GitHub项目,并查看更多的Python、R和MATLAB代码以及机器学习资源。如果你喜欢数据科学和机器学习,你也可以把作者添加为领英的朋友,或者在推特上多加关注。

作者简介:Tirthajyoti Sarkar,半导体专家,电子信息工程博士,专业博客作者,技术作家,机器学习和数据科学的忠实粉丝。

Tirthajyoti Sarkar

因为数学不好,虽然我查了一些数学书,咨询了我学数学和统计学的朋友,但毕竟有很多内容,有些遗漏是不可避免的。如果读者发现任何错误,请留言通知他们,以免误导他人。非常感谢!

另一方面,翻译并不容易。核实需要四天,翻译需要三天,校对需要两天,表扬只需要一秒钟。

如果你觉得有用,请转发:)

要获得一篇包含课程链接的完整文章,请参阅我的短篇小说专题[·Py]由愚蠢的鸟儿:https://www.jianshu.com/p/4d7d489111f8翻译

[/s2/]扫描,提供[图书/s2/]返回搜狐查看更多信息

负责任的编辑:

转载请注明:红包接龙群怎么拉人 » 高级数据分析师的六种数学利器