Page 1 of 1

因为更新的策略与行为策略

Posted: Wed Jan 15, 2025 7:04 am
by Habib01
5.学习外部政治和内部政治有什么区别?
在策略学习算法评估和改进相同的策略以执行和更新它。换句话说,用于更新的策略和用于执行操作的策略是相同的。

目标政策==行为政策

策略算法有Sarsa、策略蒙特卡罗、值迭代和策略迭代。

离策略学习算法完全不同,不同。例如,在 Q 学习中,代理在贪婪策 亚美尼亚数据 略的帮助下从最优策略中学习,并使用其他策略进行操作。

目标政策=行为政策

政治内部或外部的案例

政治与政治人工智能堆栈交换

16.为什么我们需要“深度”Q学习?
简单的Q学习很棒。它在较小的范围内解决了问题,但在较大的范围内却失败了。

想象一下环境有 1000 个状态,每个状态有 1000 个操作。我们需要一个包含数百万个单元格的表 Q。国际象棋和围棋比赛将需要更大的桌子。这就是深度 Q 学习可以发挥作用的地方。

它使用神经网络来近似 Q 值函数。神经网络将状态指定为输入并输出所有可能动作的 Q 值。

用于自动驾驶的 Deep Q 网络

用于自动驾驶的 Deep Q 网络 |研究之门

FAANG 机器学习工程师问题
以下是一些主要科技公司面试官可能会问你的一些问题:

亚马逊机器学习面试问题
17. ROC 曲线下面积的解释是什么?
接收者操作特性 (ROC) 显示灵敏度和特异性之间的平衡。

灵敏度:是当实际值也为正时模型预测为正结果的概率。
特异性:是指当真值也为负时,模型预测为负结果的概率。
使用假阳性率 (FP/(TN + FP)) 和真阳性率 (TP/(TP + FN)) 绘制曲线

曲线下面积 (AUC) 显示模型的性能。如果 ROC 曲线下面积为 0.5,则我们的模型是完全随机的。 AUC接近1的模型是最好的模型。

ROC曲线

Hadrien Jean ROC 曲线

18、降维的方法有哪些?
为了降低维度,我们可以使用特征选择或提取方法。

特征选择是选择最优特征并丢弃不相关特征的过程。我们使用 Filter、Wrapper 和 Embedded 方法来分析特征的重要性并删除不太重要的特征以提高模型性能。

特征提取将多维空间转换为更少维度。在此过程中不会丢失任何信息,并且使用更少的资源来处理数据。最常见的提取技术是线性判别分析 (LDA)、核 PCA 和二次判别分析。

19. 如何找到分类器的阈值?
对于垃圾邮件分类器,逻辑回归模型将返回概率。我们使用概率 0.8999 或使用阈值将其转换为类别(垃圾邮件/非垃圾邮件)。

通常,分类器的阈值是0.5,但在某些情况下需要调整它以提高准确性。阈值0.5意味着如果概率等于或大于0.5,则为垃圾邮件,如果小于则不是。

为了找到阈值,我们可以使用 Precision-Recall 曲线和 ROC 曲线、网格搜索和手动更改值来获得更好的 CV。

通过完成Python 机器学习科学家职业道路,成为一名专业的机器学习工程师。