软耳朵DONG

【机器学习2021】预测本频道观看人数（上）- 机器学习基本概念简介

$\qquad$ 好，那我们就开始上课吧，那第一堂课，是要简单跟大家介绍一下 machine learning 还有 deep learning 的基本概念。等一下会讲一个跟宝可梦完全没有关系的故事，告诉你机器学习还有深度学习的基本概念。

$\qquad$ 好，那什么是机器学习呢？想必大家在报章杂志上其实往往都已经听过机器学习这一个词汇，那你可能也知道说机器学习就是跟今天很热门的AI好像有那么一点关联。那所谓的机器学习到底是什么呢？顾名思义好像是说，机器他具备有学习的能力，那些科普文章往往把机器学习这个东西吹得玄之又玄，好像机器会学习以后，我们就有了人工智能，有了人工智能以后机器接下来就要统治人类了。

$\qquad$ 那机器学习到底是什么呢？事实上，机器学习概括来说可以用一句话来描述机器学习这件事。什么叫机器学习呢？机器学习就是让机器具备找一个函式的能力，那机器具备找函式的能力以后他可以做什么样的事情呢？他确实可以做很多事，举例来说，假设你今天想要叫机器做语音识别，机器听一段声音，产生这段声音对应的文字，那你需要的就是一个函式，这个函式的输入是声音讯号，输出是这段声音讯号的内容。那你可以想象说，这个可以把声音讯号当作输入，文字当作输出的函式显然非常非常的复杂，他绝对不是你可以用人手写出来的方程式。这个函式他非常非常的复杂，人类绝对没有能力把它写出来，所以我们期待凭借着机器的力量把这个函式自动找出来，这件事情就是机器学习。那刚才举的例子是 语音识别。还有好多好多的任务我们都需要找一个很复杂的函式。举例来说，假设我们现在要做影像辨识，那这个影像辨识我们需要什么样的函式呢？这个函式的输入是一张图片，他的输出是什么呢？他是这个图片里面有什么样的内容。或者是大家都知道的 AlphaGo 其实也可以看作是一个函式要让机器下围棋，我们需要的就是一个函式，这个函式的输入是棋盘上黑子跟白子的位置，输出是什么？输出是机器下一步应该落子的位置。假设你可以找到一个函式，这个函式的输入就是棋盘上黑子跟白子的位置，输出就是下一步应该落子的位置。那我们就可以让机器做自动下围棋这件事，就可以做一个 AlphaGo。

【机器学习2021】预测本频道观看人数（上）- 机器学习基本概念简介_第2张图片

$\qquad$ 那随着我们要找的函式不同，机器学习有不同的类别，那这边介绍几个专有名词给大家认识一下。第一个专有名词叫作 Regression，Regression 的意思是说假设我们今天要找的函式他的输出是一个数值，他的输出是一个 scalar，那这样子的机器学习的任务我们称之为 Regression。那这边举一个 Regression 的例子，假设我们今天要机器做的事情是预测未来某一个时间的 PM2.5 的数值，你要叫机器做的事情是找一个函式，这个我们用 f 来表示，这个函式的输出是明天中午的 PM2.5 的数值，他的输入可能是种种跟预测 PM2.5 有关的指数，包括今天的 PM2.5 的数值、今天的平均温度、今天平均的臭氧浓度等等，这一个函式可以拿这些数值当作输入，输出明天中午的 PM2.5 的数值。那这一个找这个函式的任务叫作 Regression。

$\qquad$ 那还有别的任务吗？还有别的任务，除了 Regression 以外，另外一个大家耳熟能详的任务叫作 Classification，那 Classification 这个任务要机器做的是选择题。我们人类先准备好一些选项，那这些选项又叫作类别，又叫作 classes，我们现在要找的函式，它的输出就是从我们设定好的选项里面选择一个当作输出，那这个问题，这个任务就叫作 Classification。举例来说，现在每个人都有 gmail account，那 gmail account 里面有一个函式，这个函式可以帮我们侦测一封邮件是不是垃圾邮件，这个函式的输入是一封电子邮件，那他的输出是什么呢？你要先准备好你要机器选的选项，在侦测垃圾邮件这个问题里面可能的选项就是两个，是垃圾邮件或不是垃圾邮件，Yes 或者是 No。那机器要从 Yes 跟 No 里面选一个选项出来这个问题叫作 Classification。

【机器学习2021】预测本频道观看人数（上）- 机器学习基本概念简介_第3张图片

$\qquad$ 那 Classification 不一定只有两个选项，也可以有多个选项，举例来说，alpha go 本身也是一个 Classification 的问题，那只是这个 Classification 他的选项是比较多的。那如果要叫机器下围棋，你想做一个 alpha go的话我们要给机器多少的选项呢？你就想想看，棋盘上有多少个位置？那我们知道棋盘上有 19 乘 19 个位置，那叫机器下围棋这个问题，其实就是一个有 19 乘 19 个选项的选择题，你要叫机器做的就是找一个函式，这个函式的输入是棋盘上黑子跟白子的位置，输出就是从 19 乘 19 个选项里面选出一个正确的选项，从 19 乘 19 个可以落子的位置里面选出下一步应该要落子的位置。那这个问题也是一个分类的问题。

【机器学习2021】预测本频道观看人数（上）- 机器学习基本概念简介_第4张图片

$\qquad$ 那其实很多教科书，在讲机器学习的种种不同类型的任务的时候，往往就讲到这边，告诉你说机器学习两大类任务，一个叫作 Regression，一个叫作 Classification，然后就结束了。但是假设你对机器学习的认知只停留在机器学习就是两大类任务 Regression 跟 Classification，那就好像你以为说这个世界只有五大洲一样，你知道这个世界不是只有五大洲对不对，这个世界外面是有一个黑暗大陆的，这鬼灭之刃连载之前我们就已经出发前往黑暗大陆了，鬼灭之刃连载以后我们居然都还没有到，可见这个黑暗大陆距离那么远（这段话应该是以《鬼灭之刃》漫画调侃《全职猎人》漫画托更）。那在机器学习这个领域里面所谓的黑暗大陆是什么呢？在 Regression 跟 Classification 以外大家往往害怕碰触的问题叫作 Structured Learning，也就是机器今天不只是要做选择题，不只是输出一个数字，还要产生一个有结构的对象。举例来说，机器画一张图，写一篇文章，这种叫机器产生有结构的东西的问题就叫作 Structured Learning。那如果要讲得比较拟人化，比较潮一点，Structured Learning 你可以用拟人化的讲法说，我就是要叫机器学会 “创造” 这件事情。

【机器学习2021】预测本频道观看人数（上）- 机器学习基本概念简介_第5张图片

$\qquad$ 好那到目前为止我们就是讲了三个机器学习的任务 Regression、Classification 跟 Structured Learning，接下来我们要讲的是，那我们说机器学习就是要找一个函式，那机器怎么找一个函式呢？那这边要用个例子跟大家说明，说机器怎么找一个函式。这边的例子是什么呢？

【机器学习2021】预测本频道观看人数（上）- 机器学习基本概念简介_第6张图片

$\qquad$ 这边的例子，在讲这个例子之前，先跟大家说一下说这一门课有一个 youtube 的频道，然后这个我会把上课的录像放到这个 youtube 的频道上面，那这个频道，感谢过去修过这门课的同学不嫌弃，其实也蛮多人订阅所以我算是一个三流的 youtuber，是没有什么太多流量，但是这边也是有 7 万多订阅。

【机器学习2021】预测本频道观看人数（上）- 机器学习基本概念简介_第7张图片

$\qquad$ 那为什么突然提到这个 youtube 的频道呢？因为我们等一下要举的例子跟 youtube 是有关系的。那你知道身为一个 youtuber，youtuber 在意的东西是什么呢？youtuber 在意的就是这个频道的流量对不对？假设有一个 youtuber 是靠着 youtube 维生的，他会在意频道有没有流量，这样他才会知道他可以获利多少。所以我在想说我们有没有可能找一个函式，这个函式他的输入是 youtube 后台的信息，输出是这个频道隔天的总点阅率总共有多少。假设你自己有 youtube 频道的话，你会知道说在 youtube 后台你可以看到很多相关的信息，比如说每一天按赞的人数有多少、每一天订阅的人数有多少、每一天观看的次数有多少。我们能不能够根据一个频道过往所有的信息去预测它明天有可能的观看的次数是多少呢？我们能不能够找一个函式这个函式的输入是 youtube 上面 youtube 后台是我的信息，输出就是某一天隔天这个频道会有的总观看的次数。有可能会说，为什么要做这个，如果我有营利的话，我可以知道我未来可以赚到多少钱，但我其实没有开营利，所以我也不知道我为什么要做这个就是了，完全没有任何管用。我单纯就是想举一个例子而已，好那接下来我们就要问怎么找出这个函式呢？怎么找这个函式 F，输入是 Youtube 后台的数据，输出是这个频道隔天的点阅的总人数呢？

【机器学习2021】预测本频道观看人数（上）- 机器学习基本概念简介_第8张图片

$\qquad$ 那机器学习找这个函式的过程分成三个步骤，那我们就用 Youtube 频道点阅人数预测这件事情来跟大家说明这三个步骤是怎么运作的。第一个步骤是我们要写出一个带有未知参数的函式，简单来说就是，我们先猜测一下我们打算找的这个函式 F 它的数学式到底长什么样子。举例来说，我们这边先做一个最初步的猜测：这个 F 长什么样子呢？这个输入跟 y 之间有什么样的关系呢？我们写成这个样子，y 等于 b 加 w 乘以 $x_1$ ，这边的每一个数值是什么呢？这个 y 啊，就假设是今天吧，因为今天还没有过完，所以我还不知道今天总共的点阅次数是多少，所以这件事情是我们未知的，y 是我们准备要预测的东西，我们准备要预测的是今天 2 月 26 号这个频道总共观看的人数。那 $x_1$ 是什么呢？ $x_1$ 是这个频道前一天总共观看的人数。y 跟 $x_1$ 都是数值，这个 y 是我们要准备预测的东西， $x_1$ 是我们已经知道的信息。那 b 跟 w 是什么呢？b 跟 w 是未知的参数，它是准备要透过数据去找出来的。我们还不知道 w 跟 b 应该是多少，我们只是隐约的猜测，但为什么会有这个猜测呢？这个猜测往往就来自于你对这个问题本质上的了解，也就是 Domain knowledge，所以才会常常听到有人说这个做机器学习啊，就需要一些 Domain knowledge，这个 Domain knowledge 通常是用在哪里呢？这个 Domain knowledge 就是用在写这个带有未知数的函数的时候。所以我们怎么知道说这个能够预测未来点阅次数的函式 F，它就一定是前一天的点阅次数乘上 w 再加上 b 呢？我们其实不知道，这是一个猜测，也许我们觉得说这个今天的点阅次数总是会跟昨天的点阅次数有点关联，所以我们把昨天的点阅次数乘上一个数值，但是总是不会一模一样，所以再加上一个 b 做修正，当作是对于 2 月 26 号点阅次数的预测。这是一个猜测，它不一定是对的，我们等一下回头会再来修正这个猜测。好那现在总之我们就随便猜说 y 等于 b 加 w 乘以 $x_1$ ，而 b 跟 w 是未知的。这个带有未知的参数，这个 Parameter 中文通常翻成参数，这个带有Unknown 的 Parameter 的这个 Function 我们就叫做 Model。所以我们常常听到有人说模型 Model 这个东西，Model 这个东西在机器学习里面就是一个带有未知的Parameter 的 Function。好那这个 $x_1$ 啊，是这个 Function 里面我们已知的，已经知道的东西，它是来自于 Youtube 后台的信息，我们已经知道 2 月 25 号点阅的总人数是多少，这个东西叫做 Feature，而 w 跟 b 是我们不知道的，它是Unknown 的 Parameter，那这边我们也给 w 跟 b 给他一个名字，这个跟 Feature 做相乘的未知的参数，这个 w 我们叫它 weight，这个没有跟 Feature 相乘的是直接加下去的，这个我们叫它 Bias，那这个只是一些名词的定义而已。等一下我们讲课的时候，我们在称呼模型里面的每一个东西的时候会更为方便，好那这个是第一个步骤。

【机器学习2021】预测本频道观看人数（上）- 机器学习基本概念简介_第9张图片

$\qquad$ 好那第二个步骤是什么呢？第二个步骤呢是我们要定义一个东西叫做 Loss。什么是 Loss 呢？Loss 它也是一个 Function，那这个 Function 它的输入是我们 Model 里面的参数。我刚才已经把我们的 Model 写出来了对不对，我们的 Model 叫做 y 等于 b 加 w 乘以 $x_1$ ，而 b 跟 w 是未知的，是我们准备要找出来的。那所谓的 L 啊，所谓的这个 Loss 啊，它是一个 Function。这个 Function 的输入是什么？这个 Function 的输入就是 b 跟 w，所以 L 它是一个 Function，它的输入是 Parameter，是 model 里面的 Parameter。那这个 Loss，这个 Function 输出的值代表什么呢？这个 Function 输出的值代表说现在如果我们把这一组未知的参数设定某一个数值的时候，这笔数值好还是不好。

$\qquad$ 那这样讲可能你觉得有点抽象，所以我们就举一个具体的例子，假设现在我们给未知的参数的设定是 b 这个 bias 等于 0.5k，这个 w 呢直接等于 1。那这个 Loss 怎么计算呢？如果我们 b 设 0.5k，这个 w 设 1，那我们拿来预测未来的点阅次数的函式就变成 y 等于 0.5k 加 1 倍的 $x_1$ ，那这样子的一个函式，这个 0.5k 跟 1，他们所代表的这个函式它有多好呢？这个东西就是 Loss，那在我们的问题里面，我们要怎么计算这个 Loss 呢？这个我们就要从训练数据来进行计算，在这个问题里面，我们的训练数据是什么呢？我们的训练数据是这一个频道过去的点阅次数，举例来说，从 2017 年到 2020 年的点阅次数，每天的这个频道的点阅次数都知道，这边是假的数字啦，随便乱编的。好，那所以我们知道 2017 年 1 月 1 号到 2020 年 12 月 31 号的点阅数字是多少，接下来我们就可以计算 Loss。怎么计算呢？我们把 2017 年 1 月 1 号的点阅次数代入这一个函式里面，我们已经说我们想要知道 b 设定为 0.5k，w 设定为 1 的时候，这个函式有多棒。当 b 设定为 0.5k，w 设定为 1 的时候，我们拿来预测的这个函数是 y 等于 0.5k 加一倍的 $x_1$ ，那我们就把这个 $x_1$ 代 4.8k，看它的预测出来的结果是多少。所以，根据这一个函式，根据 b 设 0.5k，w 设 1 的这个函式，如果 1 月 1 号是 4.8k 的点阅次数的话，那隔天应该是 4.8k 乘 1 加 0.5k，就是 5.3k 的点阅次数。那隔天实际上的点阅次数，1 月 2 号的点阅次数我们知道吗？从后台的信息里面，我们是知道的，所以我们可以比对一下现在这个函式预估的结果跟真正的结果它的差距有多大，这个函式预估的结果是 5.3k，真正的结果是多少呢？真正的结果是 4.9k，它是高估了，高估了这个频道可能的点阅人数。那就可以计算一下这个差距，计算一下估测的值跟真实的值的差距，这边估测的值用 y 来表示，真实的值用 ŷ 来表示，你可以计算 y 跟 ŷ 之间的差距，得到一个 $e_1$ 代表估测的值跟真实的值之间的差距。那计算差距其实不只一种方式，我这边把 y 跟 ŷ 相减直接取绝对值算出来的值是 0.4k。好那我们今天有的数据不是只有 1 月 1 号跟 1 月 2 号的数据，我们有 2017 年 1 月 1 号到 2020 年 12 月 31 号总共三年的数据，那这个真实的值叫做 Label，所以常常听到有人说机器学习都需要 Label，Label 指的就是正确的数值，这个东西叫做 Label。

【机器学习2021】预测本频道观看人数（上）- 机器学习基本概念简介_第10张图片

$\qquad$ 那我们不是只能用 1 月 1 号来预测 1 月 2 号的值，我们可以用 1 月 2 号的值来预测 1 月 3 号的值。如果我们现在的函式是 y 等于 0.5k 加一倍的 $x_1$ ，那 1 月 2 号，根据 1 月 2 号的点阅次数预测的 1 月 3 号的点阅次数的值是多少呢？是 5.4k，以 $x_1$ 代 4.9k 进去乘 1 在加 0.5k 等于 5.4k。接下来计算这个 5.4k 跟真正的答案跟 Label 之间的差距，Label 是 7.5k，看来是一个低估，低估了这个频道在 1 月 3 号的时候的点阅次数，可以算出 $e_2$ ，这个 $e_2$ 是 y 跟 ŷ 之间的差距，算出来是 2.1k，那同一个方法你就可以算过这三年来每一天的预测的误差。假设我们今天的 Function 是 y 等于 0.5k 加一倍的 $x_1$ ，这三年来每一天的误差通通都可以算出来，每一天的误差都可以给我们一个小 $e$ 。

【机器学习2021】预测本频道观看人数（上）- 机器学习基本概念简介_第11张图片

$\qquad$ 好，那接下来我们就把每一天的误差通通加起来，加起来然后取得平均，这个大 N 代表我们的训验数据的个数，那我们训练数据的个数就是三年来的训练数据，就是 365 乘以 3，每年 365 天，三年所以 365 乘以 3。那我们算出一个 L，我们算出一个大 L，这大 L 是每一笔训练数据的误差，这个 e 相加以后的结果。这个大 L 就是我们的 Loss，这个大 L 越大代表我们现在这一组参数越不好，这个大 L 越小代表现在这一组参数越好。那这个 e 啊，就是计算这个估测的值跟实际的值之间的差距，其实有不同的计算方法，在我们刚才的例子里面我们是算 y 跟 ŷ 之间绝对值的差距，这一种计算差距的方法得到的这个大 L，得到的 Loss 叫 mean absolute error，缩写是 MAE。那在这 MSE 里面，我们是算 y 跟 ŷ 相减以后的平方，如果你今天的 e 是用相减 y 平方算出来的，这个叫 mean square error，又叫 MSE。那 MSE 跟 MAE 他们其实有非常微妙的差别，通常你要选择用哪一种方法来衡量距离，那是看你的需求和你对这个任务的理解。那在这边呢我们就不往下讲，反正我们就是选择 MAE 作为我们计算这个误差的方式，把所有的误差加起来就得到 Loss。那你要选择 MSE 也是可以的，在作业里面我们会用 MSE。那有一些任务如果 y 和 ŷ 它都是机率，都是机率分布的话，在这个时候你可能会选择 Cross-entropy，这个我们都之后再说，反正我们这边就是选择了 MAE，那这个是机器学习的第二步。

【机器学习2021】预测本频道观看人数（上）- 机器学习基本概念简介_第12张图片

$\qquad$ 那我刚才举的那些数字不是真正的例子，但是在这一门课里面，我在讲课的时候就是要举真正的例子给你看，所以以下的数字是真实的例子，是这个频道真实的后台的数据所计算出来的结果。那我们可以调整不同的 w，我们可以调整不同的 b，穷举各种 w，穷取各种 b，组合起来以后我们可以为不同的 w 跟 b 的组合都去计算它的 Loss，然后就可以画出以下这一个等高线图。在这个等高线图上面，越偏红色系代表计算出来的 Loss 越大，就代表这一组 w 跟 b 越差；如果越偏蓝色系就代表 Loss 越小，就代表这一组 w 跟 b 越好。拿这一组 w 跟 b 放到我们的 Function 里面，放到我们的 Model 里面，那我们的预测会越精准。所以你就知道说假设 w 在负 0.25，这个 b 在负 500，就代表说呢，这个 W 在负 0.25，b 在负 500，就代表说这个频道每天看的人越来越少，而且 Loss 这么大跟真实的状况不太合；如果 w 代 0.75，b 代 500，那这个正确率，这个估测会比较精准。那估测最精准的地方看起来应该是在这里啦，如果你今天 w 代一个很接近 1 的值，b 带一个小小的值，比如说 100 多，那这个时候估测是最精准的。那这跟大家的预期可能是比较接近的，就是你拿前一天的点阅的总次数去预测隔天的点阅的总次数，那可能前一天跟隔天的点阅的总次数其实是差不多的，所以 w 设 1，然后 b 设一个小一点的数值，也许你的估测就会蛮精准的。那像这样子的一个等高线图，就是你试着试了不同的参数，然后计算它的 Loss 画出来的这个等高线图叫做 Error Surface，那这个是机器学习的第二步。

【机器学习2021】预测本频道观看人数（上）- 机器学习基本概念简介_第13张图片

$\qquad$ 接下来我们进入机器学习的第三步，那第三步要做的事情，其实是解一个优化的问题。如果你不知道优化的问题是什么的话也没有关系，我们今天要做的事情就是找一个 w 跟 b，把未知的参数找一个数值出来，看代那一个数值进去可以让我们的大 L，让我们的 Loss 的值最小，那个就是我们要找的 w 跟 b。那这个可以让 loss 最小的 w 跟 b，我们就叫做 w* 跟 b*，代表说他们是最好的一组 w 跟 b，可以让 loss 的值最小。那这个东西要怎么做呢？在这一门课里面，我们唯一会用到的 Optimization 的方法叫做 Gradient Descent。

【机器学习2021】预测本频道观看人数（上）- 机器学习基本概念简介_第14张图片

$\qquad$ 那这个 Gradient Descent 这个方法要怎么做呢？它是这样做的，为了要简化起见，我们先假设我们未知的参数只有一个就是 w，我们先假设没有 b 那个未知的参数，只有 w 这个未知的参数。那当我们 w 代不同的数值的时候，我们就会得到不同的 Loss，这一条曲线就是 error surface，只是刚才在前一个例子里面我们看到的 error surface 是二维的，是 2D 的，那这边只有一个参数，所以我们看到的这个 error surface 是 1D 的。

【机器学习2021】预测本频道观看人数（上）- 机器学习基本概念简介_第15张图片

$\qquad$ 那怎么样找一个 w 去让这个 loss 的值最小呢？那首先你要随机选取一个初始的点，那这个初始的点我们叫做 $\pmb{w^0}$ ，那这个初始的点往往真的就是随机的，就是随便选一个，真的都是随机的。那在往后的课程里面我们其实会看到也许有一些方法可以给我们一个比较好的 $\pmb{w^0}$ 的值，那我们先不讲这件事，我们先当作都是随机的，随便掷个骰子随机决定 $\pmb{w^0}$ 的值应该是多少。那假设我们随机决定的结果是在这个地方，那接下来你就要计算说在 w 等于 $\pmb{w^0}$ 的时候，w 这个参数对 loss 的微分是多少？那我假设你知道微分是什么，这对你来说不是个问题，计算 w 对 loss 的微分是多少。如果你不知道微分是什么的话，那没有关系，反正我们做的事情就是计算在这一个点，在 $\pmb{w^0}$ 这个位置的这个 error surface 的切线斜率，也就是这一条蓝色的虚线它的斜率。那如果这一条虚线的斜率是负的，那代表什么意思呢？代表说左边比较高右边比较低，在这个位置附近左边比较高右边比较低。那如果左边比较高右边比较低的话，那我们要做什么样的事情呢？如果左边比较高右边比较低的话，我们就把 w 的值变大那我们就可以让 loss 变小。如果算出来的斜率是正的，就代表说左边比较低右边比较高，是这个样子的，左边比较低右边比较高。如果左边比较低右边比较高的话，那就代表我们把 w 变小了，w 往左边移，我们可以让 Loss 的值变小，那这个时候你就应该把 w 的值变小。那假设你连斜率是什么都不知道的话也没有关系，你就想象说有一个人站在这个地方，然后他左右环视一下，那这一个算微分这件事啊就是左右环视，它会知道左边比较高还是右边比较高，看哪边比较低它就往比较低的地方跨出一步。

【机器学习2021】预测本频道观看人数（上）- 机器学习基本概念简介_第16张图片

$\qquad$ 那这一步要跨多大呢？这一步的步伐的大小取决于两件事情，第一件事情是这个地方的斜率有多大，这个地方的斜率大，这个步伐就跨大一点；斜率小步伐就跨小一点。另外，除了斜率以外，就是除了微分这一项（微分这一项我们刚才说它就代表斜率），除了微分这一项以外还有另外一个东西会影响步伐大小，这个东西我们这边用 $\pmb{\eta}$ 来表示，这个 $\pmb{\eta}$ 叫做 learning rate，叫做学习速率。这个 learning rate 它是怎么来的呢？它是你自己设定的，你自己决定这个 $\pmb{\eta}$ 的大小，如果 $\pmb{\eta}$ 设大一点，那你每次参数 update 就会量大，你的学习可能就比较快；如果 $\pmb{\eta}$ 设小一点，那你参数的 update 就很慢，每次只会改变一点点参数的数值。那这种你在做机器学习需要自己设定的东西叫做 hyperparameters。这个我们刚刚讲说机器学习的第一步就是订一个有未知参数的 function，而这些参数这些未知的参数是机器自己找出来的。

$\qquad$ 请说好，那你请说。（此处有人提问）好，这其实是一个好的问题，我复述一下这个问题，有同学问说为什么 Loss 可以是负的呢？Loss 这个函数是自己定义的，所以在刚才我们的定义里面，我们说 Loss 就是估测的值跟正确的值它的绝对值。那如果根据刚才 Loss 的定义，那它不可能是负的，但是 Loss 的这一个 function 是你自己决定的，你可以说我今天要决定一个 loss function 就是绝对值再减100，那你可能就有负的。所以我这边这一个 curve，我这边可能刚才忘了跟大家说明说这个 curve 并不是一个真实的 Loss，它是我随便乱举的一个例子。因为在今天我想要举一个比较 general 的 case，它并不是一个真实任务的 Error surface。所以这个 Loss 的这个 curve，这个 error surface 它可以是任何形状，这边没有预设立场说它一定要是什么形状。但是确实在真实在刚才这一个如果 Loss 的定义就跟我刚才定的一样是绝对值，那它就不可能是负值，但这个 Loss 这个 function 是你自己决定的所以它有可能是负的。好既然有同学在这边问问题我们就在这边停一下看大家有没有问题想问的，然后助教以后会帮我看 Youtube 的直播，有人在直播上问问题吗？如果有的话你就帮我念一下，你先看好以后在念给我听，我们就先继续讲，我们讲到一个段落再来要继续回答大家的问题。再问一下现场同学有没有同学想要问问题的？好没有的话就请容我继续讲。

【机器学习2021】预测本频道观看人数（上）- 机器学习基本概念简介_第17张图片

$\qquad$ 好那刚才讲到那里呢？刚才讲到 hyperparameter 这个东西，hyperparameter 是你自己设的，所以在机器学习的这整个过程中，你需要自己设定的这个东西就叫做 hyperparameter。那我们说我们要把 $\pmb{w^0}$ 往右移一步，那这个新的位置就叫做 $\pmb{w^1}$ ，这一步的步伐是 $\pmb{\eta}$ 乘上微分的结果，那如果你要用数学式来表示它的话就是把 $\pmb{w^0}$ 减掉 $\pmb{\eta}$ 乘上微分的结果得到 $\pmb{w^1}$ 。

【机器学习2021】预测本频道观看人数（上）- 机器学习基本概念简介_第18张图片

$\qquad$ 那接下来你就是反复进行刚才的操作，你就计算一下 $\pmb{w^1}$ 这个微分的结果，然后再决定现在要把 $\pmb{w^1}$ 移动多少，然后再移动到 $\pmb{w^2}$ ，然后你再继续反复做同样的操作不断的把 $\pmb{w}$ 移动位置，最后你会停下来，什么时候会停下来呢？往往有两种状况，第一种状况是你失去耐心了，你一开始会设定说我今天在调整我的参数的时候，我在计算我的微分的时候，我最多计算几次，你可能会设说我的上限就是设定 100 万次，就我参数更新 100 万次以后我就不再更新了。那至于要更新几次，这个也是一个 hyperparameter，这个是你自己决定的，如果说 deadline 是明天，那你可能更新的次数就设少一点，如果 deadline 是下周，更新的次数就设多一点。那还有另外一种理想上的停下来的可能，是今天当我们不断调整参数调整到一个地方它的微分的值就是这一项算出来正好是 0 的时候，如果这一项正好算出来是 0，0 乘上 learning rate —— $\pmb{\eta}$ 还是 0。所以你的参数就不会再移动位置，那假设我们是这个理想的状况，我们把 $\pmb{w^0}$ 更新到 $\pmb{w^1}$ 再更新到 $\pmb{w^2}$ ，最后更新到 $\pmb{w^T}$ 。 $\pmb{w^T}$ 卡住了也就是算出来这个微分的值是 0 了，那参数的位置就不会再更新。

【机器学习2021】预测本频道观看人数（上）- 机器学习基本概念简介_第19张图片

$\qquad$ 那讲到这边你可能会马上发现说 Gradient Descent 这个方法有一个巨大的问题，这个巨大的问题在这一个例子里面非常容易被看出来，就是我们没有找到真正最好的解，我们没有找到那个可以让 Loss 最小的那个 w。在这个例子里面把 w 设定在这个地方（最右边红色点）你可以让 Loss 最小，但是如果 Gradient Descent 是从这个地方（小人所在位置）当作随机初始的位置的话，也很有可能走到这里（ $w^T$ ）你的训练就停住了，你就没有办法再移动 w 的位置。那这一个位置（最右边红色点）这个真的可以让 Loss 最小的地方叫做 global 的 minima，而这个地方（ $w^T$ ）叫做 local 的 minima，它的左右两边都比这个地方的 loss 还要高一点，但是它不是整个 error surface 上面的最低点，这个东西叫做 local minima。所以常常可能会听到有人讲到 Gradient Descent 就会说 Gradient Descent 不是个好方法，这个方法会有 local minima 的问题，没有办法真的找到 global minima，但教科书常常这样讲，农场文常常这样讲。但这个其实只是幻觉而已，事实上假设你有做过深度学习相关的事情，假设你有自己训练 network，自己做过 Gradient Descent 经验的话，其实 local minima 是一个假问题，我们在做 Gradient Descent 的时候真正面对的难题不是 local minima，到底是什么这个，我们之后会再讲到，在这边你就先接受先相信多数人的讲法说 Gradient Descent 有 local minima 的问题。在这个图上在这个例子里面显然有 local minima 的问题，但之后会再告诉你说 Gradient Descent 真正的痛点到底是什么。

【机器学习2021】预测本频道观看人数（上）- 机器学习基本概念简介_第20张图片

$\qquad$ 那刚才举的是只有一个参数的例子而已，那我们实际上刚才的模型有两个参数，有 w 跟 b，那有两个参数的情况下怎么用 Gradient Descent 呢？其实跟刚才一个参数没有什么不同，若一个参数你没有问题的话，你可以很快的推广到两个参数。我们现在有两个参数，那我们给它两个参数都给它随机的初始的值就是 $\pmb{w^0}$ 跟 $\pmb{b^0}$ 。然后接下来呢，你要计算 $\pmb{w}$ 跟 Loss 的微分，你要计算 $\pmb{b}$ 对 Loss 的微分。计算是在 $\pmb{w}$ 等于 $\pmb{w^0}$ 的位置， $\pmb{b}$ 等于 $\pmb{b^0}$ 的位置，在 $\pmb{w}$ 等于 $\pmb{w^0}$ 的位置， $\pmb{b}$ 等于 $\pmb{b^0}$ 的位置，你要计算 $\pmb{w}$ 对 $\pmb{L}$ 的微分，计算 $\pmb{b^0}$ 对 $\pmb{L}$ 的微分。计算完以后就根据我们刚才一个参数的时候的做法去更新 $\pmb{w}$ 跟 $\pmb{b}$ ，把 $\pmb{w^0}$ 减掉 learning rate 乘上微分的结果得到 $\pmb{w^1}$ ，把 $\pmb{b^0}$ 减掉 learning rate 乘上微分的结果得到 $\pmb{b^1}$ 。

$\qquad$ 那有同学可能会问说这个微分这个要怎么算啊？如果你不会算微分的话不用紧张，怎么不用紧张呢？在 deep learning 的 framework 里面，或在我们作业一会用的 pytorch 里面，算微分都是程序自动帮你算的，你就写一行程序自动就把微分的值就算出来了，你就算完全不知道自己在干嘛也还是可以把微分的值算出来。所以这边如果你根本就不知道微分是什么，不用担心，这一步骤就是一行程序。这个等一下之后在作业一的时候大家可以自己体验看看，那就是反复同样的步骤就不断的更新 $\pmb{w}$ 跟 $\pmb{b}$ ，然后期待最后你可以找到一个最好的 $\pmb{w}$ 、 $\pmb{w^*}$ 跟最好的 $\pmb{b}$ 、 $\pmb{b^*}$ 。

【机器学习2021】预测本频道观看人数（上）- 机器学习基本概念简介_第21张图片

$\qquad$ 那这边呢就是举一下例子跟大家看一下说，如果在这一个问题上它操作起来是什么样子？假设你随便选一个初始的值在这个地方（图中最左侧黄点），那你就先计算一下 $\pmb{w}$ 对 L 的微分跟计算一下 $\pmb{b}$ 对 L 的微分。然后接下来你就要更新 $\pmb{w}$ 跟 $\pmb{b}$ ，更新的方向就是 $\pmb{w}$ 对 L 的微分乘以 $\pmb{\eta}$ 再乘以一个负号， $\pmb{b}$ 对 L 的微分乘以 $\pmb{\eta}$ 再乘以一个负号。算出这个微分的值你就可以决定更新的方向，你就可以决定 $\pmb{w}$ 要怎么更新， $\pmb{b}$ 要怎么更新。那把 $\pmb{w}$ 跟 $\pmb{b}$ 更新的方向结合起来就是一个向量，就是这个红色的箭头，我们就从这个位置（左数第一个黄点）移到这个位置（左数第二个黄点）。然后再计算一次微分，然后你再决定要走什么样的方向，把这个微分的值乘上 learning rate 再乘上负号，你就知道红色的箭头要指向那里，你就知道怎么移动 $\pmb{w}$ 跟 $\pmb{b}$ 的位置，一直移动一直移动一直移动，期待最后可以找出一组不错的 $\pmb{w}$ 跟 $\pmb{b}$ 。那实际上真的用 Gradient Descent 进行一番计算以后，这个是真正的数据，我们算出来的最好的 $\pmb{w}$ 是 0.97，最好的 $\pmb{b}$ 是 0.1k，跟我们的猜测蛮接近的，因为 $\pmb{x_1}$ 的值可能跟 $\pmb{y}$ 很接近，所以这个 $\pmb{w}$ 就设一个接近 1 的值， $\pmb{b}$ 就设一个比较偏小的值。那 Loss 多大呢？Loss 算一下是 0.48k，也就是在 2017 到 2020 年的数据上如果使用这一个函式， $\pmb{b}$ 代 0.1k， $\pmb{w}$ 代 0.97，那平均的误差是 0.48k，也就是它的预测的观看人数误差大概是 500 人次左右。

【机器学习2021】预测本频道观看人数（上）- 机器学习基本概念简介_第22张图片

$\qquad$ 讲到目前为止，我们就讲了机器学习的三个步骤。第一个步骤写出一个函式，这个函式里面是有未知数的；第二个步骤，定义一个叫做 Loss 的 function；第三个步骤解一个 Optimization 的 problem，找到一组 $\pmb{w}$ 跟 $\pmb{b}$ 让 Loss 最小。那 $\pmb{w}$ 跟 $\pmb{b}$ 的值刚才已经找出来的，那这组 $\pmb{w}$ 跟 $\pmb{b}$ 可以让 Loss 小到 0.48k，但是这样是一个让人满意或值得称道的结果吗？也许不是，为什么？因为这三个步骤合起来啊叫做训练，我们现在是在我们已经知道答案的数据上去计算 Loss，2017 到 2020 年的数据我们已经知道啦，我们其实已经知道 2017 到 2020 年每天的观看次数，所以其实我们现在其实只是在自 high 而已，就是假装我们不知道隔天的观看次数然后拿这一个函式来进行预测，发现误差是 0.48k。但是我们真正要在意的是已经知道的观看次数吗？不是，我们真正要在意的是我们不知道的未来的观看的次数是多少，所以我们接下来要做的事情是什么呢？就是拿这个函式来真的预测一下未来的观看次数，那这边我们只有 2017 年到 2020 年的值，我们在 2020 年的最后一天跨年夜的时候找出了这个函式。接下来从 2021 年开始每一天我们都拿这个函式去预测隔天的观看人次，我们就拿 2020 年的 12 月 31 号的观看人次去预测 2021 年元旦的观看人次，用 2021 年元旦的观看人次预测一下 2021 年元旦隔天 1 月 2 号的观看人次，用 1 月 2 号的观看人次去预测 1 月 3 号的观看人次，每天都做这件事，一直做到 2 月 14 号，就做到情人节。然后得到平均的值，平均的误差值是多少呢？这个是真实的数据的结果，在 2021 年没有看过的数据上这个误差值是我们这边用 L' 来表示，它是 0.58，所以在有看过的数据上，在训练数据上误差值是比较小的，在没有看过的资料上，在 2021 年的数据上看起来误差值是比较大的。那我们每一天的平均误差有 580 人左右，600 人左右。

【机器学习2021】预测本频道观看人数（上）- 机器学习基本概念简介_第23张图片

$\qquad$ 只是能不能够做得更好呢？在做得更好之前我们先来分析一下结果，这个图怎么看呢？这个图的横轴是代表的是时间，所以 0 这个点，最左边的点代表的是 2021 年 1 月 1 号，最右边点代表的是 2021 年 2 月 14 号，然后这个纵轴啊就是观看的人次，这边是用千人当作单位。红色的线是什么呢？红色的线是真实的观看人次，蓝色的线是机器用这一个函式预测出来的观看人次，你有发现很明显的，这个蓝色的线没什么神奇的地方，它几乎就是红色的线往右平移一天而已。它其实也没做什么特别厉害的预测，就把红色的线往右平移一天，因为这很合理，因为我们觉得 $\pmb{x_1}$ ，也就是前一天的观看人次跟隔天观看人次的，要怎么拿前一天的观看人次去预测隔天的观看人次呢？前一天观看人次乘以 0.97 加上 0.1k，加上 100 就是隔天的观看人次。所以你会发现说机器几乎就是拿前一天的观看人次来预测隔天的观看人次，但是如果你仔细观察这个图你就会发现，这个真实的资料有一个很神奇的现象，它是有周期性的，它有神奇的周期性，你知道这个周期是什么吗？你知道它每隔七天就会有两天特别低，两天观看的人特别少，那两天是什么日子呢？那我发现那两天都固定是礼拜五跟礼拜六，礼拜五跟礼拜六我可以了解，就礼拜五周末，大家出去玩谁还要学机器学习，礼拜六谁还要学机器学习，那不知道为什么礼拜天大家去学机器学习？这个我还没有参透为什么是这个样子，也许跟 youtube 背后神奇的算法有关系，比如说 youtube 都会推频道的影片，也许 youtube 在推频道的影片的时候它都选择礼拜五礼拜六不推，只推礼拜天到礼拜四，可是为什么推礼拜天到礼拜四呢？这个我也不了解，但是反正看出来的结果，我们看真实的数据就是这个样子，每隔七天一个循环，每个礼拜五礼拜六看的人就是特别少。所以既然我们已经知道每隔七天就是一个循环，那这一个式子，这一个 model 显然很烂，因为它只能够看前一天。如果说每隔七天它一个循环，我们应该要看七天对不对？如果我们一个模型它是参考前七天的数据，把七天前的数据直接复制到拿来当作预测的结果，也许预测的会更准也说不定。

【机器学习2021】预测本频道观看人数（上）- 机器学习基本概念简介_第24张图片

$\qquad$ 所以我们就要修改一下我们的模型。通常一个模型的修改往往来自于你对这个问题的理解，也就是 Domain Knowledge，所以一开始我们对问题完全不理解的时候我们就胡乱写一个 y 等于 b 加 $\pmb{wx_1}$ 并没有做得特别好。接下来我们观察了真实的数据以后得到一个结论是每隔七天有一个循环，所以我们应该要把前七天的观看人次都列入考虑，所以我们写了一个新的模型，这个模型长什么样子呢？这个模型就是 y 等于 b 加 $\pmb{x_j}$ ， $\pmb{x_j}$ 代表什么？这个下标 j 代表是几天前，然后这个 j 等于 1 到 7，也就是从一天前、两天前、一直考虑到七天前，那七天前的资料通通乘上不同的 weight，乘上不同的 $\pmb{w_j}$ 加起来，再加上 bias 得到预测的结果。如果这个是我们的 model，那我们得到的结果是怎么样呢？我们在训练数据上的 Loss 是 0.38k，那因为这边只考虑一天，这边考虑七天，所以在训练数据上你会得到比较低的 Loss。这边考虑了比较多的信息，在训练数据上你应该要得到更好的更低的 Loss，这边算出来是 0.38k。但它在没有看过的数据上面做不做得好呢？在没有看到的数据上有比较好是 0.49k，所以刚才只考虑一天是 0.58k 的误差，考虑七天是 0.49k 的误差，那这边每一个 w 跟 b 我们都会用 Gradient Descent 算出它的最佳值。它的最佳值长什么样子呢？这边 show 出来给你看，它的最佳值长这样，当然机器的逻辑我是有点没有办法了解，我本来以为它会选七天前的数据，七天前的观看人数直接复制过来，我看来它没有这样选就是了。它的逻辑是前一天跟你要预测的隔天的数值的关系很大，所以 $\pmb{w^*_1}$ 是 0.79，那不知道为什么它还考虑前三天，前三天是 0.12，然后前六天是 0.3，前七天是 0.18。不过它知道说如果是前两天前四天前五天它的值会跟未来我们要预测的隔天的值是成反比的，所以 $\pmb{w^*_2}$ 、 $\pmb{w^*_4}$ 跟 $\pmb{w^*_5}$ 它们最佳的值（让 Loss 可以在训练数据上是 0.38k 的值）是负的，但是 $\pmb{w^*_1}$ 、 $\pmb{w^*_3}$ 、 $\pmb{w^*_6}$ 跟 $\pmb{w^*_7}$ 是正的。我们考虑前 7 天的值，那你可能会问说能不能够考虑更多天呢？可以，那这个轻易的改考虑更多天，本来是考虑前 7 天然后考虑 28 天会怎么样呢？28 天就一个月，考虑前一个月每一天的观看人次去预测隔天的观看人次，预测出来结果怎样呢？训练资料上是 0.33k，那在 2021 年的资料上，在没有看过的数据上是 0.46k，看起来又更好一点。好 28 天，好那接下来考虑 56 天会怎么样呢？在训练资料上是稍微再好一点是 0.32k，在没看过的数据上还是 0.46k，看起来考虑更多天没有办法再更进步了，看来考虑天数这件事也许已经到了一个极限。好那这边这些模型它们都是把输入的这个 $\pmb{x}$ ，这个 $\pmb{x}$ 还记得它叫什么吗？它叫做 feature，把 feature 乘上一个 weight 再加上一个 bias 就得到预测的结果这样的模型有一个共同的名字叫做 Linear model，那我们接下来会看怎么把 Linear model 做得更好。

你可能感兴趣的:(李宏毅,机器学习,深度学习,人工智能)

与羊有关的诗句胡天寿01
1.《初春汉中漾舟》（孟浩然）羊公岘山下，神女汉皋曲。雪罢冰复开，春潭千丈绿。轻舟恣来往，探玩无厌足。波影摇妓钗，沙光逐人目。倾杯鱼鸟醉，联句莺花续。良会难再逢，日入须秉烛。2.《边头作》（李端）邠郊泉脉动，落日上城楼。羊马水草足，羌胡帐幕稠。射雕过海岸，传箭怯边州。事归朝将，今年又拜侯。3.《出境游山》(王勃)源水终无路，山阿若有人。羊先动石，走兔欲投巾。4.《按覆后归睦州，赠苗侍御》（刘长卿）
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
3次创业身价百亿，2年前却被大众判“死刑”，李想如今怎样了？职心眼儿
他，19岁放弃高考去创业；25岁，成为亿万富豪，被央视评为“80后创业”领军人物；39岁，身价再次暴涨，一夜间闯过200亿大关。他，在3个领域连续创业20年，一家公司市值700亿，一家公司市值2000亿。而他的最高学历，却只有高中。这个人，就是理想汽车的创始人——李想。纵观李想的创业史，可谓是颇为传奇：一个既没背景，又没资金高中毕业生，怎么就让3位互联网巨头（张一鸣、王兴、程维）同时为自己站台？更
父母拼尽一切孩子却不领情？一定要学会这一招四叶草_add9
中原焦点团队李金梅坚持分享第601天2021.5.28中国的父母是世界上最累的父母，从孩子出生，他们就开始了操劳的父母生涯：孩子年幼时，照顾他的吃喝拉撒；孩子上学后，忙完工作回到家还要辅导孩子的功课，辅导不了要报辅导班；孩子长大成人了，父母仍然要操心孩子的工作和婚姻；孩子结婚的房子，父母帮着买；孩子生了孩子，父母帮着带……父母的大半生都把孩子排在自己前面，一切为了孩子，最后却往往落不着好：孩子要么
平凡与伟大--父亲的一生张翔淋
10.寻找四表哥先生要账还是没有结果，做工程，每到年关都会和农民工一起去要工程款。生活不易。从张家口东站下车的父亲下了车才知道离他四表哥的所在地张北县还有好几十里路，父亲背着随身携带的薄薄的一床被子，在没有路，一人高的杂草淀子里越走越迷路，实在找不着方向了，随身携带的被子也被换了吃的。身无分文，又累又饿的父亲只好去了难民登记处。登记员看见父亲带着的地址要找的人是张北县粮食局的李进替，非常高兴的告诉
黛玉葬花是一种什么心情爱的生命力
图片发自App小区里的花终于开了，带着孩子在小区散步的时候，无意间我注意到了玉兰，第一次我发现原来它是先开花后长叶子的，洁白如玉的花高耸入云，那种洁白，让人敬畏。因为有风，所以带孩子在楼遮挡的草坪上玩，发现紫叶李的花也开了，并且随着风的吹动，落了满地，孩子捡起一朵花，拿到我面前，细声细气的说“花”，我的大脑细胞瞬间激活，为什么不和孩子一起捡花呢！这可是一项好玩的游戏，于是我给孩子拿了一个大的挖土用
替身贵妃将我扒光沉塘，暴君杀红了眼陆知白李双儿全本免费小说阅读_最新完本小说替身贵妃将我扒光沉塘，暴君杀红了眼(陆知白李双儿) 多多文馆
《替身贵妃将我扒光沉塘，暴君杀红了眼》主角：陆知白李双儿简介：我是贫门农女，也是暴君爱而不得的白月光。为逼我入宫，他将我满村屠尽！暴君在后宫建了一座水晶殿，将我禁锢其中。他日日宠幸我，直至寻到一个与我七分相似的替身，方才淡了兴致。他将替身封为贵妃，千娇万宠一言可戏诸侯。贵妃恃宠生娇，趁着暴君出宫巡视，带着一群人闯进水晶殿。“本宫马上就要受封为后，今天就来清理后宫！”她在我脸上刻奴字，挑断我的手筋脚
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
张长玲碎嘴惹闲气，郭德旺无心泄天机【三】南山顽石
玲玲便紧紧靠在他身边不情不愿地继续朝前走，一边走一双手却一边不太安分的在他身上摩挲起来。突然，她的一只手伸进了他的衣袋里，紧接着又出来，却已捏着个东西，口中欢叫起来：“啊！你有这，咋不早说？”瑞年朝她手上一看说：“气球嘛，有啥稀奇？”“你瓜呀！”玲玲笑道，“这是biyuntao，我在我大嫂子屋里见过的，想偷偷拿几个呢，又没好意思。”瑞年停下脚步问道：“啥是biyuntao？”李玲玲看他半日，把脸微
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据中台中的数据科学工作台：Jupyter集成方案 AI大数据智能洞察大数据与AI人工智能 jupyter 信息可视化 ide ai
数据中台中的数据科学工作台：Jupyter集成方案关键词：数据中台、数据科学工作台、JupyterNotebook、数据科学、机器学习、数据可视化、协作开发摘要：本文深入探讨了在数据中台架构中集成JupyterNotebook作为数据科学工作台的完整解决方案。我们将从数据中台的基本概念出发，详细分析Jupyter在数据科学工作流中的核心作用，介绍多种集成方案和技术实现细节，并通过实际案例展示如何构
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
基于随机森林的白酒风味智能分类系统：从数据到洞察的完整实践笙囧同学 python
作者：笙囧同学|中科院计算机大模型方向硕士|全栈开发爱好者座右铭：偷懒是人生进步的阶梯联系方式：[email protected]各大平台账号/公众号：笙囧同学前言大家好，我是笙囧同学！今天给大家分享一个超级有趣且技术含量爆表的项目——白酒风味智能分类系统。作为一个既爱技术又爱美酒的程序员，我花了大量时间研究如何用机器学习的方法来"品酒"，让AI帮我们识别白酒的风味特征。这个项目融合了机器学习、数
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
李汶翰、徐娇领衔主演，杭州2022年亚运组委会授权电视剧《泳往直前》阵容官宣！楚离杜子腾
今日，杭州亚组委授权电视剧《泳往直前》阵容官宣，由黄克敏执导，李汶翰、徐娇领衔主演。《泳往直前》是亚运会筹备工作启动以来,着手谋划创作的亚运主题文艺精品项目之一，也是杭州亚组委官方授权拍摄的唯一一部亚运主题电视剧。《泳往直前》主要讲述了四名背景各异，独具个性的少年在泳池奋力拼搏、执着追梦的故事。中年失意的游泳教练梁友光，为了证明自己的能力，四处挖掘游泳的好苗子冲刺亚运会，在发现了毫无训练经验却颇有
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo