风控系统/架构的资料收集

=Start=

缘由:

最近在做数据安全相关的工作,(也因为这几天pdd被薅羊毛事件刷了屏)同时对风控等业务安全也比较关注,所以花了一些时间和心思整理了风控系统/架构相关的资料,方便以后学习和参考。

正文:

参考解答:
大数据风控需要哪些数据?

IP、GPS、设备ID、WIFI、时间(注册申请时间、申请信息填写时间等)、多头借贷信息(共享机制)、人脸识别技术(只认face++)、社交信息(关系链信息、腾讯)、电商信息(阿里系、京东、亚马逊等)、阅读类信息(今日头条、阅读类app等看阅读习惯、关注的内容等)、身份证认证(公安部)、银行卡要素认证、运营商数据(手机实名、通话记录、消费记录、上网记录、联系人、出没地点等)、银联画像(消费额度、消费地点、消费时间、消费场所等分析出客户是否结婚、是否有房贷、是否买车、消费能力、是否怀孕、是否有孩子等)、乘机信息(航空公司)、车管所信息、学籍信息、工商信息、税控信息(航天科工?)、涉诉信息(政府某网站)、被执行信息、企业商标专利/软件作品著作权。

大数据风控的本质作用是什么?
丰富风控指标所涉及的数据的维度,尽可能地解决信息不对称的问题(风险存在的根本原因)、提高风控效率、解放人的重复劳动。

 

参考链接:
  • 如上

=END=

声明: 除非注明,ixyzero.com文章均为原创,转载请以链接形式标明本文地址,谢谢!
https://ixyzero.com/blog/archives/4270.html

《风控系统/架构的资料收集》上有7条评论

  1. 58集团风控实战指南
    https://mp.weixin.qq.com/s/KbFWf0wZeKqpfTsWE_caEw

    风险发现环节:发现什么、怎么发现、怎么快速发现是核心痛点
    1. 发现什么:什么是我们要解决的安全或风控问题,就发现什么
    1) 安全漏洞
    2) 垃圾信息
    3) 重大舆情
    4) 黑产资源

    2. 怎么发现:通过什么样的手段来发现风险
    1) SRC、漏洞扫描器(漏洞)
    2) 聚类分析、信息巡检抽检(垃圾信息)
    3) 舆情抓取分析(重大舆情)
    4) IP画像、手机号画像(黑产资源)
    5) 一些第三方提供的威胁感知能力

    3. 怎么快速发现:整个监测预警机制的搭建

    风险分析环节:如何快速分析产生决策是核心痛点。
    对应着一些核心能力:智能分析平台、风控引擎、算法孵化平台

    风险处置环节:如何处置、处置哪些。
    如何处置:
    我们将用户所有的权益进行总结,以58为例,用户可以拥有:发布的权益、浏览的权益、账户使用的权益、推广的权益等,在每一个关键的权益上都需要有着灵活的处理方法。
    处置哪些:
    所有资源类的唯一性数据都是处置的范围,处置的时间范围应该覆盖过去和未来,当一个资源被定性成黑产,那么相关的所有资源都会被处理,最大程度的提升黑产对抗成本。

    一些核心能力:聚类处理、社区挖掘、策略回溯

    效果回归:通过对已产生效果的策略生命周期进行监控,随时关注在业务中的准召率,并及时作出优化

  2. 关于风控预警体系的搭建方案
    https://mp.weixin.qq.com/s/2r61XB_Po4s3ihkLy46xbA

    当我们只考虑如何快速发现异常的时候,预警系统的效果是很难到我们的预期的,所以要想搭建一套有效的预警体系必须要解决两个核心问题:
    1. 如何快速发现异常
    一、通过核心指标的变化发现异常
    二、通过聚类手段发现异常
    三、通过其他手段的异常发现
    2. 如何准确定义风险

  3. 业务安全:不只是跑赢最慢的那个人
    https://mp.weixin.qq.com/s/NqsJsC3y5Q-Y0HpMcNFMqw

    [1] 引子:后有群狼
    有人讲安全是一场残酷的追逐赛 —— 我们只要跑赢最慢的那个人,身后的老虎就不会扑向我们。
    殊不知,这个年代的信息安全,追逐我们的并非一只猛虎,而是一队群狼。
    在这个年代的信息安全环境中,没有人能够幸存,我们已经不再争议谁还没有被黑,只是在考虑,谁才有被黑的价值。

    [2] 业务安全,性价比为王
    安全其实就是这样,垒砌砖墙的目的不是在于其设计工艺的高端和完美,只要能够提高黑客的攻击成本,就是成功。

    [3] 海恩法则变身海恩陷阱
    海恩法则(Heinrich's Law),是德国飞机涡轮机的发明者德国人帕布斯·海恩提出的一个在航空界关于安全飞行的法则,海恩法则指出: 每一起严重事故的背后,必然有29次轻微事故和300起未遂先兆以及1000起事故隐患。 —— 摘自百度百科
    但贯彻海恩法则的前提是:业务逻辑的完整性、业务流程的完整性、原始数据、完整数据、线下能力。
    我们在每次数据采集时,如果并不完整或选择性忽略,一点遗漏就可能谬之千里。于是,海恩法则也就变成了海恩陷阱。

  4. 唯品会舆情监控系统
    https://mp.weixin.qq.com/s/ClYYfpvylQGlYYHDFBuKpA

    总体介绍
    目前,市面上有腾讯企鹅风讯、百度舆情、七麦数据等舆情监控系统,这些系统能对市面的上的主流应用app,通过分布式爬虫抓取各大应用市场、主流论坛、微博等渠道的用户评论,并对爬取到的信息进行汇总、智能分类、报表输出等。这些舆情分析系统能简化运营、产品对用户口碑的收集工作,在提供专业的运营质量分析的同时,节省了项目人力。市面上的这些系统虽然能为我们提供一些分析和参考数据,但是也存在一定的局限性,如数据来源有限(一般只能提供微博、app应用市场、论坛等渠道的用户评论信息)、无法实现定制化需求等,因此非常有必要开发属于唯品会自己的舆情监控系统,实现丰富的数据来源、各种定制化的功能需求等。

    当前唯品会舆情系统评论数据订阅来源主要有各大App应用市场用户评论、微信公众号评论和唯品会内部的客服留言。在获取这三部分数据后,会做持久化存储,用于后期的文本挖掘分析。

    系统会对获取的这些评论信息进行情感判定、文本分词、评论分类、词频分析等计算分析工作。舆情系统整体架构设计分为舆情采集、舆情分析、舆情应用三大模块。本文将着重介绍舆情分析模块中的几个重要功能模块。

  5. 咳血的独角兽丨互联网的幕后攻防
    https://mp.weixin.qq.com/s/e8BuhSnR4cOrvqVDsITo4A

    风险控制,“知道”的人多,“了解”的人少。

    我想谈谈一些真实发生的案例,来给大家展示一下风险控制这个职业,能为公司产生什么样的价值或者损失。

    这些内容我保证是你花钱都买不到的。但可以从中领悟多少进攻或者防守的思路,就全看自己的悟性了。

    老朋友们应该都知道,我本职工作是做风控的,从线下尽调,信用卡,金融,电商,安全,数据,基本每一个领域的风险管理,我都玩过,并且玩的不错。

    风险控制,或者说风险管理,在互联网公司中,一直是一个比较尴尬又不上不下的岗位。
    说风控不重要吧,你去问任何一个公司的老板,都可以balabala说出各种风控的重要性,大道理讲到你吐血。
    说风控重要吧,在绝大多数公司的实际情况中,风控都是为业务方让路的,运营部门要增长,市场部门要投放,活动部门要大促,这些都有明确的指标考核,而这些部门由于直接影响公司数据,进而影响公司讲故事融资,所以往往特别强势,风控这种做减法的部门,在他们眼中更是业绩的阻碍,最好统统赶走。

    多数老板为了面子好看,对外大力吹风控;为了里子好看,对内往往是默许业务部门Diss风控甚至搞点小动作的,所以到最后,风控往往里外不是人。

    某位老板曾经在酒后对我说过,你们这些风控,如果业务没有出现风险,养你们就像养猪;如果业务出了风险,养你们还不如养猪。
    某种程度上,这话是对的,风控只是业务的辅助。
    但在另一些维度中,业务营销如果风控放水,那么多少钱都只能打水漂。

    以下我讲谈及一些案例,以及其中的诀窍,功防技巧。

  6. 活动 Web 页面人机识别验证的探索与实践
    https://tech.meituan.com/2019/03/07/humans-and-bots-apart-for-activity-web-security.html
    https://www.jiqizhixin.com/articles/2019-03-08

    锦佰安创始人&CEO 冯继强:AI领域的人机识别对抗 千亿美金的验证码
    https://myslide.cn/slides/2236

    勾选一下就能通过验证的reCAPTCHA人机身份验证是什么原理?
    https://www.zhihu.com/question/51624138

    没有具体研究过,查询了一下,大概就是基于以下内容做判断:

    1. Google自己的风险检测引擎
    2. 依赖于你的cookie,你必须有一定的活动天数
    3. 你点击那个单选框的时候计算你的鼠标滑动轨迹,机器人应该没有这个(但是可以通过js模拟)
    4. 检测你浏览器的user agent是否真实
    5. 根据浏览器指纹追踪信息进行判断

    反正这个判断应该是非常复杂了,基于真实人类的行为做分析,而对机器来说,可能无法模拟或者模拟困难这些行为。

  7. https://www.google.com/recaptcha/intro/v3.html

    IP
    deviceID
    设备信息(IMEI/IDFV/IDFA/WIFI/MAC/...)

    Step 0 基础风控拦截
    基础风控拦截是上面提到的频次、名单等的拦截限制,在 Nginx 层就能直接实施拦截。如果发现是恶意请求,直接将请求过滤返回 403,这是初步的拦截,用户在请求 Web 页面的时候就开始起作用了。

    Step 1 风控服务端生成 Token 后传给前端

    Step 0 可能还没进入到活动 Web 页面,进入活动 Web 页面后才真正开始人机识别验证的流程,前端会先开始获取 Token。

    Step 2 前端生成敏感数据
    敏感数据应包含用户交互行为数据、设备环境数据、活动业务逻辑数据以及无效数据。

    Step 3 使用 HTTPS 的签名接口发送数据
    Token 可以作为 Authorization 的值添加到 Header 中,数据接口的签名可以有效防止 CSRF 的攻击。

    Step 4 数据接口的校验
    风控服务端收到请求后,会先验证数据接口签名中的 Token 是否有效。验证完 Token,才会对敏感数据进行解密。数据解密成功,再进一步对人机识别的数据合法性进行校验。

    Step 5 业务逻辑的处理
    前面的步骤为了做人机识别验证,这些验证不涉及到业务逻辑。在所有这些验证都通过后,后端业务服务才会开始处理实际的活动业务逻辑。处理完活动业务逻辑,最终才会返回用户参与活动的结果。

    ==
    人机识别:
    图片验证码
    滑块验证码
    ……

    身份验证:
    人脸识别
    短信验证
    邮箱验证
    ……

发表评论

电子邮件地址不会被公开。 必填项已用*标注