如何摆脱信息茧房？(3)

来源：电子信息对抗技术 【在线投稿】栏目：综合新闻时间：2021年12月17日 01:35:12

作者:网站采编
关键词:
摘要：Y= F(Xi ,Xu ,Xc) ，这三个函数包含三个维度的变量分别为： 1）内容，2）用户特征，3）环境特征三者匹配起来是一个复杂的数学问题；市面常用模型有好几

Y= F(Xi ,Xu ,Xc)，这三个函数包含三个维度的变量分别为：1）内容，2）用户特征，3）环境特征

三者匹配起来是一个复杂的数学问题；市面常用模型有好几种，字节系无非是把多模型混合使用，简单来说就是：你是谁、你在哪里、你爱看什么？基于这些给你推荐什么。

一般当推荐系统的自动化运作时，它就像山头巡视的小兵，不断从整个物品或者信息聚合中抽取当次需要查询的候选集；根据各种不同维度，如物品、年龄、性别、爱好，场景等种类以及规模的大小对候选集进行推送。

此场景犹如流水线工作的「抽样检查」，也同样用在大部分平台的召回手段上，具体策略是什么样呢？

其一：内容过滤（Content Filtering）

其二：协同过滤（Collaborative Filtering）

资讯类产品的内容审核是不可缺失一部分，主要目的是确保无低质庸俗，保持平台该有的调性；通常有“先发后审”和“先审后发”两个原则。

场景较轻如网易云，QQ音乐此类阅读、听歌类产品通常是前者；对社区论坛、偏观点讨论、树立权威通常是后者；因此内容抽检或过滤的基础也是查敏感关键词、重复度、IP发布次数等权重指数。

协同过滤是基于已知部分用户或部分物品的偏好或评分，预测缺失偏好或评分的一种方法。

从切入点上，则可分为基于“去邻域”的方法（本地生活类平台使用居多）和隐语义模型（给每个分类中不同维度标签的人进行推送），比较难理解对不对？

举个例子：

跟朋友聚餐会习惯性打开美食点评平台去搜索周边餐厅，过程中我们能看到按照公里排行的推荐、也有部分商家的竞价广告。

疑问的是，你会发现那些广告的美食是自己日常爱吃的，并且区域也不是太远，为什么会这么做？

因为可以基于“邻域”做精准的推荐，以此满足用户多频次的消费和深度洞察；如果把“邻域”比作数学的“2”，它左手链接“1”，右手链接数字“3”。

去邻域算法就是把“1”推荐给“3”，假设不做去中心化折中结果就是上述你看到场景，基于自己搜索习惯、爱好、距离做折中推荐。

对于人工干预比较容易理解，基础的说我基于某类标签做手动推送，如：性别类型、兴趣爱好、话题、KOL量级等。

高维一点会融会贯通几项不同的数据综合考量，好比针对女人中对护肤话题感兴趣，客单价又在多少区间等。

这种方式常见在中小型（百万级用户量）以上的平台，主要特征表现在技术的基础建设已经完成，属于发展中期还完全不能依靠自动化解决。

一方面防止有巨大漏洞出现，造成损失。

另一方面也能运用人工的方式灵活多维度的基于用户（商品）进行推送，比如基于点击率作为推荐指标时，排序算法筛选后，我们会以预测结果为目标。

这些场景中就会用到因子分解，逻辑归因，梯度提升决策树，以及各种神经网络算法，这一切也把它称之为“混合模型”。

但不管怎么样始终都离不开那两大原则“基于用户行为”和“基于内容”；综合上述，我们能得到什么启发呢？

企业招聘大量研发人员，利用理科的思维逻辑将人的行为特征变成“数据化”，由数据进行颗粒化，最终通过个性化的分析让平台更了解每个人，也就有了那句感同身受的话“我都没有平台了解我自己”。

但真的是这样吗？这种理解就狭隘了。

你以为平台很了解自己？其实我们不过是把爱好，需求形成的特征进行标签化沉淀在平台上，这造成推荐的内容都在自身的“认知圈内”。

简而言之，每个人在头部资讯（购物）平台看到的展示页均不同，他代表一个人的视野和爱好，这仿佛似一面镜子疯狂的为你展现热爱的一面，它带来的利弊也是极为可见。

孰是孰非

从优劣上有两个方面：

一是良好的认知能力，二是陷入回音室效应。

如果我们能够正确认知到信息茧房如何由来的，或者算法如何基于自身的各种行为形成“虚拟人设”为你定做线上画像；加上我们能够辨别哪些信息是优质的，哪些是不能为我所用，那就不存在“茧房”。

这就给我们最大的启示是，