协同过滤推荐模型

发布时间: 2021-01-17 21:48:02

『壹』爱奇艺的推送机制是怎样的呢

我们的推荐系统主要分为两个阶段，召回阶段和排序阶段。

召回阶段根据用户的兴趣和历史行为，同千万级的视频库中挑选出一个小的候选集（几百到几千个视频）。这些候选都是用户感兴趣的内容，排序阶段在此基础上进行更精准的计算，能够给每一个视频进行精确打分，进而从成千上万的候选中选出用户最感兴趣的少量高质量内容（十几个视频）。

推荐系统的整体结构如图所示，各个模块的作用如下：

用户画像：包含用户的人群属性、历史行为、兴趣内容和偏好倾向等多维度的分析，是个性化的基石
特征工程：包含了了视频的类别属性，内容分析，人群偏好和统计特征等全方位的描绘和度量，是视频内容和质量分析的基础
召回算法：包含了多个通道的召回模型，比如协同过滤，主题模型，内容召回和SNS等通道，能够从视频库中选出多样性的偏好内容
排序模型：对多个召回通道的内容进行同一个打分排序，选出最优的少量结果。
除了这些之外推荐系统还兼顾了推荐结果的多样性，新鲜度，逼格和惊喜度等多个维度，更能够满足用户多样性的需求。
推荐排序系统架构

在召回阶段，多个通道的召回的内容是不具有可比性的，并且因为数据量太大也难以进行更加精确的偏好和质量评估，因此需要在排序阶段对召回结果进行统一的准确的打分排序。

用户对视频的满意度是有很多维度因子来决定的，这些因子在用户满意度中的重要性也各不相同，甚至各个因子之间还有多层依赖关系，人为制定复杂的规则既难以达到好的效果，又不具有可维护性，这就需要借助机器学习的方法，使用机器学习模型来综合多方面的因子进行排序。

『贰』大数据分析领域有哪些分析模型

数据角度的模型一般指的是统计或数据挖掘、机器学习、人工智能等类型的模型，是纯粹从科学角度出发定义的。
1. 降维
在面对海量数据或大数据进行数据挖掘时，通常会面临“维度灾难”，原因是数据集的维度可以不断增加直至无穷多，但计算机的处理能力和速度却是有限的；另外，数据集的大量维度之间可能存在共线性的关系，这会直接导致学习模型的健壮性不够，甚至很多时候算法结果会失效。因此，我们需要降低维度数量并降低维度间共线性影响。
数据降维也被成为数据归约或数据约减，其目的是减少参与数据计算和建模维度的数量。数据降维的思路有两类：一类是基于特征选择的降维，一类是是基于维度转换的降维。
2. 回归
回归是研究自变量x对因变量y影响的一种数据分析方法。最简单的回归模型是一元线性回归（只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示），可以表示为Y=β0+β1x+ε，其中Y为因变量，x为自变量，β1为影响系数，β0为截距，ε为随机误差。
回归分析按照自变量的个数分为一元回归模型和多元回归模型；按照影响是否线性分为线性回归和非线性回归。
3. 聚类
聚类是数据挖掘和计算中的基本任务，聚类是将大量数据集中具有“相似”特征的数据点划分为统一类别，并最终生成多个类的方法。聚类分析的基本思想是“物以类聚、人以群分”，因此大量的数据集中必然存在相似的数据点，基于这个假设就可以将数据区分出来，并发现每个数据集（分类）的特征。
4. 分类
分类算法通过对已知类别训练集的计算和分析，从中发现类别规则，以此预测新数据的类别的一类算法。分类算法是解决分类问题的方法，是数据挖掘、机器学习和模式识别中一个重要的研究领域。
5. 关联
关联规则学习通过寻找最能够解释数据变量之间关系的规则，来找出大量多元数据集中有用的关联规则，它是从大量数据中发现多种数据之间关系的一种方法，另外，它还可以基于时间序列对多种数据间的关系进行挖掘。关联分析的典型案例是“啤酒和尿布”的捆绑销售，即买了尿布的用户还会一起买啤酒。
6. 时间序列
时间序列是用来研究数据随时间变化趋势而变化的一类算法，它是一种常用的回归预测方法。它的原理是事物的连续性，所谓连续性是指客观事物的发展具有合乎规律的连续性，事物发展是按照它本身固有的规律进行的。在一定条件下，只要规律赖以发生作用的条件不产生质的变化，则事物的基本发展趋势在未来就还会延续下去。
7. 异常检测
大多数数据挖掘或数据工作中，异常值都会在数据的预处理过程中被认为是“噪音”而剔除，以避免其对总体数据评估和分析挖掘的影响。但某些情况下，如果数据工作的目标就是围绕异常值，那么这些异常值会成为数据工作的焦点。
数据集中的异常数据通常被成为异常点、离群点或孤立点等，典型特征是这些数据的特征或规则与大多数数据不一致，呈现出“异常”的特点，而检测这些数据的方法被称为异常检测。
8. 协同过滤
协同过滤（Collaborative Filtering，CF)）是利用集体智慧的一个典型方法，常被用于分辨特定对象（通常是人）可能感兴趣的项目（项目可能是商品、资讯、书籍、音乐、帖子等），这些感兴趣的内容来源于其他类似人群的兴趣和爱好，然后被作为推荐内容推荐给特定对象。
9. 主题模型
主题模型（Topic Model），是提炼出文字中隐含主题的一种建模方法。在统计学中，主题就是词汇表或特定词语的词语概率分布模型。所谓主题，是文字（文章、话语、句子）所表达的中心思想或核心概念。
10. 路径、漏斗、归因模型
路径分析、漏斗分析、归因分析和热力图分析原本是网站数据分析的常用分析方法，但随着认知计算、机器学习、深度学习等方法的应用，原本很难衡量的线下用户行为正在被识别、分析、关联、打通，使得这些方法也可以应用到线下客户行为和转化分析。

『叁』大数据工作都做什么。我对大数据感兴趣，想从事这方面的工作，但是不知道他具体是要做什么。求解~~

大数据其实分为2类，一个是开发类的一个是运维类的，以道教育是开发类的，所以专学之前需属要决定自己学哪个，决定培训学习的话可以索取课程体系进行详细的了解，大数据主要学习java、数据库和大数据本身的一些东西，东西挺多，篇幅有限

『肆』想要自学python，有什么好的学习方法推荐

人生苦短，我选Python！

最后，一点学习建议：

在学习之前先给自己定一个目标规划，培养自己对编程的兴趣，在学习过程中一定要碰敲代码，学会做笔记，但不用刻意去记住这些代码，理解代码比记住代码更重要。学会使用搜索引擎的能力，学会自己解决问题，除了这些要多看大牛的技术专栏，通过对比大牛认清自己的现状并及时做出调整和改变。

学编程是一个长期的过程。所有各位小伙伴一定要有自己的一个长期计划，并把长期的计划分解成段目标，目标完成后给自己一定的激励，一句话，加油就完事儿了。

『伍』如何用机器学习挑选座驾

阅读全文

热点内容

丁度巴拉斯情人电影推荐发布：2024-08-19 09:13:07 浏览：886

类似深水的露点电影发布：2024-08-19 09:10:12 浏览：80

《消失的眼角膜》2电影发布：2024-08-19 08:34:43 浏览：878

私人影院什么电影好看发布：2024-08-19 08:33:32 浏览：593

干 B 发布：2024-08-19 08:30:21 浏览：910

夜晚看片网站发布：2024-08-19 08:20:59 浏览：440

台湾男同电影《越界》发布：2024-08-19 08:04:35 浏览：290

看电影选座位追女孩发布：2024-08-19 07:54:42 浏览：975

日本a级爱情发布：2024-08-19 07:30:38 浏览：832

生活中的玛丽类似电影发布：2024-08-19 07:26:46 浏览：239

协同过滤推荐模型

与协同过滤推荐模型相关的资讯