德鲁那挺好的这更像是我的数据科学水平
她是 Netlify 的高级前端开发人员、网络技术方面的 Google 开发人员专家以及 Mozilla 技术演讲者。在业余时间,她探索人机交互领域,并利用硬件、机器学习和创意编码构建交互原型。她经常在会议上发言并撰写博客文章来分享她学到的东西。最近,他是《Practical Machine Learning in JavaScript for Apress》一书的作者。德鲁:所以我们知道她是一位前端专家,但她是否曾经使用她梦中编织的金属锉刀越狱过?我的超级朋友们,欢迎您,查理·杰拉德。嗨查理。你好吗?
查理·杰拉德:我粉碎了。
德鲁:我今天想和大家谈谈机器学习,对于一个主要关注 Web 开发的浏览器端的播客来说,这似乎是一个有点奇怪的话题。我倾向于认为机器学习是在巨大的数据中心或实验室中发生的事情,人们穿着白大褂。如今,这绝对是一个流行词。当我们说机器学习时,我们到底在说什么?
查理:所以一般来说,标准定义是它赋予计算机在不被告知要做什么的情况下生成预测的能力。希望当我们继续谈论它时这会有意义,但这是一种通用的对话定义。你并没有真正告诉算法或模型去搜索某些东西。他们通过您提供的数据进行学习,然后可以生成预测。
德鲁:因此,您不必为某些情况专门编写代码,而是创建一个通用案例,让软件可以学习如何自行完成这些工作?
查理:是的,完全正确。
德鲁:这听起来有点令人毛骨悚然。这有点接近人工智能的一面。您需要成为一名铁杆数学迷或数据科学家才能做到这一点吗?或者是否有诸如已建立的算法之类的东西以及您可以调用来开始使用的东西?
查理:是的。幸运的是,您不需要成为铁杆数学迷或数据科学家。不然我绝对不会谈论这个。但是有些算法已经被弄清楚,并且已经有了可用的工具,可以让您使用这些算法,而不必自己从头开始编写所有内容。因此,如果我们使用前端生态系统作为比较,当您想要访问网络摄像头或麦克风时,您可以使用 Web API(例如导航器)来获取用户媒体。
查理:而且您不必知道该 API 在幕后是如何实际实现的。重要的是您知道 B2C 电子邮件列表这个 API 的用途以及如何使用它(如果您愿意的话)。然后你可以去查看你最喜欢的浏览器的源代码,以了解它的真正工作原理,但它首先确实没有用。如果您以后想编写自己的算法,它会很有用。但说实话,您不太可能愿意这样做。
德鲁:好的。这有点像编写 CSS 在页面上定位元素的方式。你并不关心浏览器实际上是如何做到这一点的。您只需编写一些 CSS,浏览器就会处理它。
查理:是的。当你开始时,大部分都是这样的。
查理:我也是。
德鲁:那么机器学习可以解决哪些问题呢?它适合什么样的事情?
查理:这取决于您首先想要做什么,因为当您想要构建某个东西时,我建议首先考虑您想要学习的问题类型,然后帮助您选择可以使用的算法修复或找到问题的解决方案。所以总的来说,我会首先考虑我要解决的问题类型,主要有三个问题。我认为可能还有更多,但总的来说,对于我接受的培训和我读过的内容,提到了三个主要内容。
查理:如果你想让我深入探讨这个问题,我会告诉你有监督学习、无监督学习和强化学习。你也有很多受监督的人,但说实话,我对此不太了解,因为我已经能够用前三个项目来构建我的项目。
德鲁:你说有监督、无监督和强化吗?
查理:是的,强化学习。
德鲁:好的。那么什么是监督学习呢?您能给我们举个例子说明这意味着什么吗?
http://aolemaillist.com/wp-content/uploads/2023/08/Pic.jpg
查理:监督学习是指您的数据集由特征和标签组成,并将其输入算法。因此,如果我们举一个希望大多数人都能理解的例子,那就是,如果您有一套房子并且您想卖掉它,并且您想弄清楚您打算以什么价格出售您的房子或您的房产顺便说一句,汽车实际上是同一件事。你会使用相同环境或相同类型房屋的数据集,并了解它们在市场上的价格,你将能够使用你自己房屋的功能;那么有多少个房间,有没有花园,位于哪个街区?诸如此类的事情。
查理:这些是功能,标签是价格,并且使用您周围已有的所有这些房屋数据集,您可以使用机器学习算法来学习您的房屋功能和房屋特征之间的相关性。市场上的价格,然后了解你的房子的特点,并能够据此得出价格。所以最重要的是在监督学习中,你有一堆特征和一个标签,所以你能够真正得出两者之间的相关性。
德鲁:在这个例子中,你会向模型提供大量有关房屋的数据,你知道它们的价格,然后你就知道它们的所有这些特征。比如说卧室和你有什么,比如平方英尺,我想位置可能是另一种可能考虑的因素?
查理:是的。因此,机器学习的问题之一是,你可以拥有很多功能,但其中一些功能实际上并不像其他功能那样高效。例如,你的房子的颜色实际上可能与价格没有相关性,但你可以给出一堆特征,模型本身会发现两者之间的相关性。然后,如果需要,您可以调整数据集并删除颜色,或者您意识到花园的大小并不重要或类似的事情。
查理:因此,一般来说,即使您将数据集提供给模型,您也不会在第一次就得到完美的预测。通常你调整一些不同的东西然后你就会看到。你可以对其进行调整,直到得到你认为相当准确的预测。
德鲁:然后,一旦创建了该模型,或者说您使用一个城市的数据创建了它,您是否可以将其提供给它……您是否需要提供另一个城市的数据?一旦培训完成,您是否能够拿起它并在其他地方使用它,或者它是否特定于该数据集,或者它如何工作?
查理:我认为这将特定于数据集。因此,这意味着您可以使用相同的格式创建另一个数据集。如果您有一个包含不同列的 Excel 电子表格,您将能够保留相同的标签和功能,但必须将其替换为该城市的值。但总的来说,这意味着收集数据集也可能需要花费很多时间,但是如果您已经知道您为巴黎市做了什么,并且数据集的结构是相同的,但是您替换这些值,速度会快一些,并且可以重新生成模型。
查理:例如,如果您的数据不同,因为巴黎的房屋价格与澳大利亚小城市的房屋价格不同,则您不应该重复使用相同的模型。因此,您不希望出现错误的数据,因为数据集的核心最初并不完全相同。
页:
[1]