2022 届 360 校招提前批推荐算法面试题总结

star2017 1年前 ⋅ 3346 阅读

文末彩蛋：七月在线干货组最新升级的《2021 大厂最新 AI 面试题 [含答案和解析，更新到前 121 题]》免费送！

问题 1：非递归的二叉树中序遍历

该题为 Leetcode-94：二叉树的中序遍历

方法：迭代

需要一个栈的空间，先用指针找到每颗子数的最左下角，然后进行进出栈的操作。

代码如下：
在这里插入图片描述

时间复杂度：O(n)，n 为树的节点个数

空间复杂度：O(h)，h 为树的高度

本文地址：2022 届 360 校招提前批推荐算法面试题总结
本文版权归作者和AIQ共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出

问题 2：lightgbm 相较于 xgboost 的优势

优点：直方图算法—更高（效率）更快（速度）更低（内存占用）更泛化（分箱与之后的不精确分割也起到了一定防止过拟合的作用）；

缺点：直方图较为粗糙，会损失一定精度，但是在 gbm 的框架下，基学习器的精度损失可以通过引入更多的 tree 来弥补。

总结如下：

更快的训练效率
低内存使用
更高的准确率
支持并行化学习
可处理大规模数据
支持直接使用 category 特征

问题 3：wide & deep 模型 wide 部分和 deep 部分分别侧重学习什么信息

Wide&Deep 模型的主要思路正如其名，是由单层的 Wide 部分和多层的 Deep 部分组成的混合模型。其中，Wide 部分的主要作用是让模型具有较强的“记忆能力”，“记忆能力”可以被理解为模型直接学习并利用历史数据中物品或者特征的“共现频率”的能力；

Deep 部分的主要作用是让模型具有“泛化能力”，“泛化能力”可以被理解为模型传递特征的相关性，以及发掘稀疏甚至从未出现过的稀有特征与最终标签相关性的能力；正是这样的结构特点，使模型兼具了逻辑回归和深度神经网络的优点-----能够快速处理并记忆大量历史行为特征，并且具有强大的表达能力。

问题 4：点击率预估任务中负样本过多怎么办

正负样本不均衡问题一直伴随着算法模型存在，样本不均衡会导致：对比例大的样本造成过拟合，也就是说预测偏向样本数较多的分类。这样就会大大降低模型的泛化能力。往往 accuracy（准确率）很高，但 auc 很低。

正负样本不均衡问题的解决办法有三类：

采样处理——过采样，欠采样
类别权重——通过正负样本的惩罚权重解决样本不均衡的问题。在算法实现过程中，对于分类中不同样本数量的类别分别赋予不同的权重
集成方法——使用所有分类中的小样本量，同时从分类中的大样本量中随机抽取数据来与小样本量合并构成训练集，这样反复多次会得到很多训练集，从而训练出多个模型。例如，在数据集中的正、负样本分别为 100 和 10000 条，比例为 1：100，此时可以将负样本随机切分为 100 份，每份 100 条数据，然后每次形成训练集时使用所有的正样本（100 条）和随机抽取的负样本（100 条）形成新的训练数据集。如此反复可以得到 100 个模型。然后继续集成表决

一般情况下在选择正负样本时会进行相关比例的控制，假设正样本的条数是 N，则负样本的条数会控制在 2N 或者 3N，即遵循 1:2 或者 1:3 的关系，当然具体的业务场景下要进行不同的尝试和离线评估指标的对比。
在这里插入图片描述想要逃避总有借口，想要成功总有办法！今天给大家一个超棒的课程福利——【电商推荐系统特训】课程！8 月 10 日开课，限时 1 分秒杀！

课程通过四大实战项目实战掌握深度神经网络，且包含共享社群答疑 ➕ 免费 CPU 云平台等课程配套服务，理论和实践完美结合；每个算法配套项目实战代码完全学会深度学习的本质和应用。
在这里插入图片描述
课程配备优秀讲师和助教团队跟踪辅导、答疑，班主任督促学习，群内学员一起学习，对抗惰性。同时课程还配备专业职业规划老师，为你的求职规划，涨薪跳槽保驾护航。