风控系统/架构的资料收集


=Start=

缘由:

最近在做数据安全相关的工作,(也因为这几天pdd被薅羊毛事件刷了屏)同时对风控等业务安全也比较关注,所以花了一些时间和心思整理了风控系统/架构相关的资料,方便以后学习和参考。

正文:

参考解答:
大数据风控需要哪些数据?

IP、GPS、设备ID、WIFI、时间(注册申请时间、申请信息填写时间等)、多头借贷信息(共享机制)、人脸识别技术(只认face++)、社交信息(关系链信息、腾讯)、电商信息(阿里系、京东、亚马逊等)、阅读类信息(今日头条、阅读类app等看阅读习惯、关注的内容等)、身份证认证(公安部)、银行卡要素认证、运营商数据(手机实名、通话记录、消费记录、上网记录、联系人、出没地点等)、银联画像(消费额度、消费地点、消费时间、消费场所等分析出客户是否结婚、是否有房贷、是否买车、消费能力、是否怀孕、是否有孩子等)、乘机信息(航空公司)、车管所信息、学籍信息、工商信息、税控信息(航天科工?)、涉诉信息(政府某网站)、被执行信息、企业商标专利/软件作品著作权。

大数据风控的本质作用是什么?
丰富风控指标所涉及的数据的维度,尽可能地解决信息不对称的问题(风险存在的根本原因)、提高风控效率、解放人的重复劳动。

 

参考链接:
  • 如上

=END=


《“风控系统/架构的资料收集”》 有 27 条评论

  1. 58集团风控实战指南
    https://mp.weixin.qq.com/s/KbFWf0wZeKqpfTsWE_caEw
    `
    风险发现环节:发现什么、怎么发现、怎么快速发现是核心痛点
    1. 发现什么:什么是我们要解决的安全或风控问题,就发现什么
    1) 安全漏洞
    2) 垃圾信息
    3) 重大舆情
    4) 黑产资源

    2. 怎么发现:通过什么样的手段来发现风险
    1) SRC、漏洞扫描器(漏洞)
    2) 聚类分析、信息巡检抽检(垃圾信息)
    3) 舆情抓取分析(重大舆情)
    4) IP画像、手机号画像(黑产资源)
    5) 一些第三方提供的威胁感知能力

    3. 怎么快速发现:整个监测预警机制的搭建

    风险分析环节:如何快速分析产生决策是核心痛点。
    对应着一些核心能力:智能分析平台、风控引擎、算法孵化平台

    风险处置环节:如何处置、处置哪些。
    如何处置:
    我们将用户所有的权益进行总结,以58为例,用户可以拥有:发布的权益、浏览的权益、账户使用的权益、推广的权益等,在每一个关键的权益上都需要有着灵活的处理方法。
    处置哪些:
    所有资源类的唯一性数据都是处置的范围,处置的时间范围应该覆盖过去和未来,当一个资源被定性成黑产,那么相关的所有资源都会被处理,最大程度的提升黑产对抗成本。

    一些核心能力:聚类处理、社区挖掘、策略回溯

    效果回归:通过对已产生效果的策略生命周期进行监控,随时关注在业务中的准召率,并及时作出优化
    `

  2. 关于风控预警体系的搭建方案
    https://mp.weixin.qq.com/s/2r61XB_Po4s3ihkLy46xbA
    `
    当我们只考虑如何快速发现异常的时候,预警系统的效果是很难到我们的预期的,所以要想搭建一套有效的预警体系必须要解决两个核心问题:
    1. 如何快速发现异常
    一、通过核心指标的变化发现异常
    二、通过聚类手段发现异常
    三、通过其他手段的异常发现
    2. 如何准确定义风险
    `

  3. 业务安全:不只是跑赢最慢的那个人
    https://mp.weixin.qq.com/s/NqsJsC3y5Q-Y0HpMcNFMqw
    `
    [1] 引子:后有群狼
    有人讲安全是一场残酷的追逐赛 —— 我们只要跑赢最慢的那个人,身后的老虎就不会扑向我们。
    殊不知,这个年代的信息安全,追逐我们的并非一只猛虎,而是一队群狼。
    在这个年代的信息安全环境中,没有人能够幸存,我们已经不再争议谁还没有被黑,只是在考虑,谁才有被黑的价值。

    [2] 业务安全,性价比为王
    安全其实就是这样,垒砌砖墙的目的不是在于其设计工艺的高端和完美,只要能够提高黑客的攻击成本,就是成功。

    [3] 海恩法则变身海恩陷阱
    海恩法则(Heinrich’s Law),是德国飞机涡轮机的发明者德国人帕布斯·海恩提出的一个在航空界关于安全飞行的法则,海恩法则指出: 每一起严重事故的背后,必然有29次轻微事故和300起未遂先兆以及1000起事故隐患。 —— 摘自百度百科
    但贯彻海恩法则的前提是:业务逻辑的完整性、业务流程的完整性、原始数据、完整数据、线下能力。
    我们在每次数据采集时,如果并不完整或选择性忽略,一点遗漏就可能谬之千里。于是,海恩法则也就变成了海恩陷阱。
    `

  4. 唯品会舆情监控系统
    https://mp.weixin.qq.com/s/ClYYfpvylQGlYYHDFBuKpA
    `
    总体介绍
    目前,市面上有腾讯企鹅风讯、百度舆情、七麦数据等舆情监控系统,这些系统能对市面的上的主流应用app,通过分布式爬虫抓取各大应用市场、主流论坛、微博等渠道的用户评论,并对爬取到的信息进行汇总、智能分类、报表输出等。这些舆情分析系统能简化运营、产品对用户口碑的收集工作,在提供专业的运营质量分析的同时,节省了项目人力。市面上的这些系统虽然能为我们提供一些分析和参考数据,但是也存在一定的局限性,如数据来源有限(一般只能提供微博、app应用市场、论坛等渠道的用户评论信息)、无法实现定制化需求等,因此非常有必要开发属于唯品会自己的舆情监控系统,实现丰富的数据来源、各种定制化的功能需求等。

    当前唯品会舆情系统评论数据订阅来源主要有各大App应用市场用户评论、微信公众号评论和唯品会内部的客服留言。在获取这三部分数据后,会做持久化存储,用于后期的文本挖掘分析。

    系统会对获取的这些评论信息进行情感判定、文本分词、评论分类、词频分析等计算分析工作。舆情系统整体架构设计分为舆情采集、舆情分析、舆情应用三大模块。本文将着重介绍舆情分析模块中的几个重要功能模块。
    `

  5. 咳血的独角兽丨互联网的幕后攻防
    https://mp.weixin.qq.com/s/e8BuhSnR4cOrvqVDsITo4A
    `
    风险控制,“知道”的人多,“了解”的人少。

    我想谈谈一些真实发生的案例,来给大家展示一下风险控制这个职业,能为公司产生什么样的价值或者损失。

    这些内容我保证是你花钱都买不到的。但可以从中领悟多少进攻或者防守的思路,就全看自己的悟性了。

    老朋友们应该都知道,我本职工作是做风控的,从线下尽调,信用卡,金融,电商,安全,数据,基本每一个领域的风险管理,我都玩过,并且玩的不错。

    风险控制,或者说风险管理,在互联网公司中,一直是一个比较尴尬又不上不下的岗位。
    说风控不重要吧,你去问任何一个公司的老板,都可以balabala说出各种风控的重要性,大道理讲到你吐血。
    说风控重要吧,在绝大多数公司的实际情况中,风控都是为业务方让路的,运营部门要增长,市场部门要投放,活动部门要大促,这些都有明确的指标考核,而这些部门由于直接影响公司数据,进而影响公司讲故事融资,所以往往特别强势,风控这种做减法的部门,在他们眼中更是业绩的阻碍,最好统统赶走。

    多数老板为了面子好看,对外大力吹风控;为了里子好看,对内往往是默许业务部门Diss风控甚至搞点小动作的,所以到最后,风控往往里外不是人。

    某位老板曾经在酒后对我说过,你们这些风控,如果业务没有出现风险,养你们就像养猪;如果业务出了风险,养你们还不如养猪。
    某种程度上,这话是对的,风控只是业务的辅助。
    但在另一些维度中,业务营销如果风控放水,那么多少钱都只能打水漂。

    以下我讲谈及一些案例,以及其中的诀窍,功防技巧。
    `

  6. 活动 Web 页面人机识别验证的探索与实践
    https://tech.meituan.com/2019/03/07/humans-and-bots-apart-for-activity-web-security.html
    https://www.jiqizhixin.com/articles/2019-03-08

    锦佰安创始人&CEO 冯继强:AI领域的人机识别对抗 千亿美金的验证码
    https://myslide.cn/slides/2236

    勾选一下就能通过验证的reCAPTCHA人机身份验证是什么原理?
    https://www.zhihu.com/question/51624138
    `
    没有具体研究过,查询了一下,大概就是基于以下内容做判断:

    1. Google自己的风险检测引擎
    2. 依赖于你的cookie,你必须有一定的活动天数
    3. 你点击那个单选框的时候计算你的鼠标滑动轨迹,机器人应该没有这个(但是可以通过js模拟)
    4. 检测你浏览器的user agent是否真实
    5. 根据浏览器指纹追踪信息进行判断

    反正这个判断应该是非常复杂了,基于真实人类的行为做分析,而对机器来说,可能无法模拟或者模拟困难这些行为。
    `

  7. https://www.google.com/recaptcha/intro/v3.html
    `
    IP
    deviceID
    设备信息(IMEI/IDFV/IDFA/WIFI/MAC/…)

    Step 0 基础风控拦截
    基础风控拦截是上面提到的频次、名单等的拦截限制,在 Nginx 层就能直接实施拦截。如果发现是恶意请求,直接将请求过滤返回 403,这是初步的拦截,用户在请求 Web 页面的时候就开始起作用了。

    Step 1 风控服务端生成 Token 后传给前端

    Step 0 可能还没进入到活动 Web 页面,进入活动 Web 页面后才真正开始人机识别验证的流程,前端会先开始获取 Token。

    Step 2 前端生成敏感数据
    敏感数据应包含用户交互行为数据、设备环境数据、活动业务逻辑数据以及无效数据。

    Step 3 使用 HTTPS 的签名接口发送数据
    Token 可以作为 Authorization 的值添加到 Header 中,数据接口的签名可以有效防止 CSRF 的攻击。

    Step 4 数据接口的校验
    风控服务端收到请求后,会先验证数据接口签名中的 Token 是否有效。验证完 Token,才会对敏感数据进行解密。数据解密成功,再进一步对人机识别的数据合法性进行校验。

    Step 5 业务逻辑的处理
    前面的步骤为了做人机识别验证,这些验证不涉及到业务逻辑。在所有这些验证都通过后,后端业务服务才会开始处理实际的活动业务逻辑。处理完活动业务逻辑,最终才会返回用户参与活动的结果。

    ==
    人机识别:
    图片验证码
    滑块验证码
    ……

    身份验证:
    人脸识别
    短信验证
    邮箱验证
    ……
    `

  8. 咳血的独角兽2 | 互联网幕后攻防
    https://mp.weixin.qq.com/s/O289k21DSl1UxJP2AxUUmg
    `
    case 1:
    某电商类知名公司,因为某次数据事故,导致其整体财务数据和业务数据完全对不上,大量历史数据丢失,资方质疑其数据造假,融资断流,突然从业内掉队,从此一蹶不振。
    所以看文章的各位,是不是在注重业务之余,也要注重一些数仓的权限管控与备份呢?是不是需要内部排查一下此类问题呢?
    我知道看我文章的很多是各大公司的风控安全,诚恳建议各位排查一下此类问题,权限管理和操作日志是那种看起来没有产出,但关键时刻可能会要人命的东西,要谨慎。
    可惜了那家本来很有前途的公司,原本是有机会在中国互联网界闯出更大的天地。

    case 2:
    很多互联网公司在做营销拉新的时候,很喜欢做二维码推广,扫码即可XXX,扫码即可获得现金等等。
    只要别人扫了你分享的二维码并作出简单的操作,你和扫码人都可以获得奖励。
    这种活动设计的初衷是为了方便传播,尤其是方便在微信传播。
    但很多公司在扫码得奖的风控设计上不够完善,导致里面存在很多漏洞,大量羊毛党因此获利。
    既然B扫A的码,AB都可以获得奖励,那么只要A的码可以创造一个足够多的场景,被足够多的人扫到,那么A就可以获得大量奖励。

    case 3:
    讲完二维码营销分享,再讲手机号拉新营销分享的一些玩法。
    所谓手机号拉新,就是我给你发送一个微信卡片,你点进去,可以输入手机号,然后获得一张券,存入这个手机号的账户中。
    我想大家对于这个已经非常熟悉了,各种外卖APP的红包分享,都是这么玩的,点进去,输入手机号,然后领券,尤其是某咖啡,更是红包不断。
    而当前存在一种羊毛党,养了大量的手机号,然后登陆微信,潜伏在各个外卖红包群中,只要有人分享,就会点进去抢券,然后把最低价的券,拿出来下单,去买一些硬通货(牛奶等),然后套利。
    如果产品本身不能买硬通货,那么也不重要,可以做成代下单,在一些二手平台上搜XX券,XX代下单,可以发现有大量人在做这个生意,就是你付一小笔钱给他,给他地址,他帮你下单,货物送到你指定的位置,简单方便。

    case 4:
    刷券代下单,只是低端玩法,最近流行起一种新的玩法,也是基于手机号拉新营销的。
    很多互联网公司在做推广的时候,是允许你邀请朋友的,只要输入朋友的手机号,你们就可以建立一个绑定关系,如果这位朋友后续与这个互联网公司产生了一定的业务交集,那么你作为他的邀请人,是可以获得很多奖励的。
    就是所谓邀请码和邀请手机号。
    而这里面,存在了一个很有趣的玩法,就是暴力灌号,占领号段绑定关系。
    什么叫灌号,就是假如我是A,我要输入BCD的手机号与他们建立绑定关系,BCD下单了,我就有奖励。
    那么我可以直接穷举号码,例如直接从13000000000一直到19999999999,全都往邀请链接里导入,等于是只要有用户注册使用了他们,不管与我有没有关系,我们都已经建立了绑定关系,我可以躺着收钱,尽管用户本身都不知道我的存在。
    这种攻击,对于大厂是无效的,但是对于很多初创企业尤其是急着要数据的企业,是非常致命的。

    case 5:
    关于灌号,其实还有另一种精准灌号的玩法。
    就是灌号者,确实是知道这个手机号的主人的某些社会属性。
    例如从一些无良4S店搞出来的车主手机号,从一些无良物业搞出来的业主手机号,从一些学校搞出来的家长手机号,从一些金融机构搞出来的理财客户手机号,从某些防范不严的网站中脱裤出来的用户手机号。
    然后拿着这些手机号,做定向灌号,成功率极高,因为这些人本就是互联网公司重金去地推,去广告覆盖,去试图引诱的群体。
    例如拿学生家长的手机号去灌教育类APP,拿车主手机号去灌车辆交易类APP,拿业主手机号,去灌装修类APP,这种方法可以说是风险最低的套利方式之一了,并且收益较好。
    黑市上有专门这样的交易渠道,只需要不多的一笔钱,就可以拿到大量具有精准属性标签的用户,很多短信供应商也参与其中,利用自己发短信的优势,偷偷倒卖数据,为了获取更多数据,他们恨不得免费给垂直行业的大公司倒贴钱。

    case 6:
    再说个不是很大,但与我们多数人都有关的小漏洞。
    抢票软件都知道吧。。
    就是很多时候我们需要买到一些票(例如火车),但是票的数量有限,买的人太多,只能去用一些三方抢票软件。
    而这些软件,总是各种变着花的收钱,一张票要多收50到100元,甚至更多,堪称新时代互联网黄牛。
    既然有互联网黄牛,那必然就有坑黄牛的黄牛。
    这些抢票软件的核心原理是,利用机器调用票务网站的接口,极快的速度刷新和购买,往往速度可以快到1秒钟几千次,正常人根本抢不过他们。
    12306本身是严禁第三方用这种方法破坏公平的,所以不会提供完整的对外接口出来,他们只能用各种技术手段来利用12306本身的对外合作接口(速成OTA),想尽办法来加快调用。
    而这就产生了一个很有趣的漏洞。
    如果黑产的手机上同时装有某某抢票软件和12306,且黑产的抢票软件的付款方式绑定的是借记卡,在发起抢票时,把借记卡余额转走或者借记卡本身就没钱,那么当抢票抢到票时,必然扣款失败。
    此时,可以登录12306,付款,然后取消抢票。
    有些抢票软件甚至都是抢到了才让付款,那更简单,连余额和支付失败都不用做,直接打开12306付款即可。
    好几家著名公司旗下的抢票软件,都存在这个漏洞,但不敢去找消费者的麻烦。
    因为抢票,加价抢票,本身都是模糊的灰色地带,虽有有苦难言。
    很多电商网站上的代抢票服务,本质上就是在用这个方法空手套白狼,既白嫖了抢票软件公司,又套了消费者的钱。
    美哉。
    51节要到了,抢票大战又开始了,这个漏洞,又要被用起来了。

    case 7:
    再讲一个经典的营销漏洞,与广告有关。
    很多公司的推广,都是依赖广告的,APP里,网站上,大马路上,都是打广告的好地方。
    而广告的结算方式有很多,最常见的是CPT,CPC,CPA和CPS。
    CPT是指时间,按展示时间收费,广告展示长时间,收费XXX元,一般电梯广告都是CPT,部分网站的广告也是CPT。
    CPC是指的点击收费,点一次,多少钱。
    例如某些垃圾医院在某些网站上打广告,点一次,可能就是几块钱甚至几十块钱。
    CPA是指注册收费,每个成功完成注册的用户,多少钱。
    例如很多贷款超市,很多APP里浮动的页游,都是CPA。
    而CPS,是指业务发生收费,发生一次业务,多少钱。
    例如以前盛行的贷款超市,用户下款后,下款金额的一定比例给到贷款超市。
    再例如外卖软件或打车软件推广,用户注册后完成一单,给推广方XXX元。
    这些广告计价方式里面,就存在了很多漏洞。
    点击结算(CPC)和注册结算(CPA),是被刷的重灾区。
    `

  9. 起底身份倒卖产业:那些被公开叫卖的人生
    https://mp.weixin.qq.com/s/7H_mVUZfuAzsTBX08pkn4g
    `
    现代社会中,核实人身份的方法有很多,例如实名银行卡,实名手机号,驾驶证等等等等,但是这些所谓的实名信息,本质上还需要一个源数据来提供真实性兜底。
    这个数据源,就是身份证。
    银行卡,手机号等一切所谓实名信息,都是基于身份证的,只是身份证信息的一种承载方式而已。
    如果没有身份证信息,你没法证明你是你。
    但假如有了你的身份证信息,则某种程度上,可以证明我是你。
    一个虚假的身份,对于我们大多数普通人而言,虽然听起来很酷,但是其实没有什么用处,因为我们的生活不需要这些。
    而对于另一些做特殊产业的人而言,虚假身份则是最重要的生产资料,没有之一,绝大多数黑产的根基,就是身份伪装。
    有了身份伪装,漏洞攻击,骗贷,薅羊毛,洗钱,伪造注册信息甚至骗补贴等一切违法手段,都有了一层安全的保护。
    而虚假身份的交易,更是当前黑市最火热的交易品。
    你有没有想过,世界上可能会有另一个人,披着你的身份生活?

    黑产内,对于全套身份伪装信息,有个专有名词,叫做四件套。
    所谓四件套,是指身份证原件+身份证对应手机卡+身份证对应银行卡+网银U盾,一般来说银行卡都是已经开通网银的的,某些手机卡甚至还会预存话费。

    四件套算是身份信息中的贵族,一份完整的标准版四件套,黑市价格在400到700元,按照供需关系决定,定制版会更贵一些。
    之所以需要定制,是因为很多大的机构对于某些地域某些群体,是有特殊限制规则的,例如某些公司坚决不跟某些地域的身份证产生任何业务往来。
    所以即使是身份证四件套,也是不平等的。
    像极了生活。

    这些身份资料被购买后,用途是什么?
    用途A——隐匿
    用途B——测试
    用途C——骗贷+羊毛
    用途D——洗钱
    用途E——借壳

    最低级的黑吃黑是骗钱与假数据。
    高级的黑吃黑是钓鱼。
    最高级的黑吃黑,是虚拟货币割韭菜。

    我们上面说了这么多的身份信息的意义,到买房是,价值,那么关键的问题来了,这些数据,总该有些源头吧?这些数据是从哪里来的?
    A,是来源于各大安全防范不严密的公司。
    B,是那些已经完蛋的P2P公司。
    C,公司内鬼。
    D,钱包丢失
    E,社会工程学
    F.身份证所有者自己出售的

    说了这么多与身份信息倒卖有关的信息,最后再谈一下如果你知道了自己的信息可能会丢失,应该怎么做。
    首先你要知道你的信息有没有被拿来使用。
    A.定期去运营商营业厅查查自己名下究竟有几个手机号,有哪些号是自己不用但还没有注销的。
    B.定期去银行查查自己名下有几张卡,自己已有的卡中有没有出现一些自己不知道来源的业务和授权。
    C.经常去企业查询类网站(天眼查启信宝之类),查查自己有没有被某些公司作为法人。

    这些操作都不复杂,也不困难,只要你有心。
    如果查出来发现确实有点问题,怎么办?
    不要慌,你要记住,你才是资料的主人。
    应该怎么做?
    很简单,挂失和注销。
    身份证疑似泄露,就挂失身份证;
    银行卡多了或者被人拿走了,就注销银行卡;
    电话卡多了,就注销电话卡;
    记住,你才是资料的主人。
    做完这一切之后,你就暂时安全了,因为当你的身份被任何异常利用之后,你都有足够的证据来证明与自己无关。
    这种有效证据,基本目前是安全的,所有私信我说资料被人拿走的人,我也都是这么建议的。
    这套自我排查与自我保护的方法,建议大家扩散给更多身边的人。
    `

  10. 互联网黑产:那些职业羊毛党到底如何月赚几十万?
    https://mp.weixin.qq.com/s/TrIqZ7FPoCRXyicZnEg6Ow
    `
    今天,我们就给大家介绍一群生存在互联网灰色地带的职业羊毛党,他们有组织有纪律有完整产业上下游的去利用一些大型互联网公司的运营规则甚至漏洞,套取各种补贴和奖金,少的月收入一两万,多的月赚几十万。

    这些人一般活跃在什么平台?有哪些曾经或现在很常见的薅羊毛手段?给你介绍五种。

    1、套取新用户补贴,年收入百万
    一般情况下,一款App新用户注册都有补贴,多数是使用门槛很低的优惠券,比如买10块钱的东西就能减9块。如果用户每次买东西都想要优惠,那么每次用新手机号注册就行。
    一般人因为只有一个手机号,所以都只会注册一次享受一次优惠。但是,有需求,自然就有供给。一条养卡、注册账号、代收短信验证码、薅羊毛的产业链就这样形成了。

    2、刷单套奖励,月入十万
    有奖励的地方,就有刷单。

    3、P2P借贷“黑吃黑”月入十万是基础
    你看中人家收益,人家看中你的本金。

    4、做号集团:洗一篇稿赚几万
    补贴一般是根据阅读量来算,阅读量越高,收益越高。做号集团对各平台内容特点把握得非常到位,能做到量产高阅读量爆文。
    他们雇佣兼职写手来洗稿,以学生、宝妈和上班族为主,群里领取任务,价格通常为千字10元。也有全职写手,公司开在二三线城市,工资一个月三四千元,加上提成,优秀者月入过万不是问题。

    5、倒卖付费课程:零边际成本
    凡是能倒卖的,统统不能放过。
    知识付费课程火起来时,一些人通过众筹的方式实现低价购买课程,一门课程199,100人众筹每人也就2块钱。
    既然能众筹,何不自己当二道贩子?只需要把课程复制粘贴,放到某网盘里,转手就能在网上卖几块到几十块,几乎不需要成本。通过网盘分享,后期更新也能做到同步,不用再一个个地重新发给顾客。
    想学习的人也很喜欢低价课,199的课程,9块9就能买到。
    二道贩子再通过淘宝,百度贴吧、微信群、个人号等渠道推广,哪有不赚钱的。有些人做倒卖,3个月就赚到20万。
    从二道贩子买过课程的人,同样做起三道贩子、四道贩子……你永远不知道你买到的课程是几手,但这无所谓,质量都一样。
    行业竞争大了,有的二道贩子开始注重服务。他们做的服务甚至比平台原版还好。当平台还在单门课程销售时间,他们已经开始做包年服务,一年99元,可以看几乎所有主流平台的内容,包括得到、喜马拉雅、混沌大学、千聊、荔枝微课、网易云课堂等等。论品类,他们已经超越了任何一家平台;论价格,他们也有优势,能卖得不好吗?
    除了知识付费课程可以转手卖,盗版游戏、电子书等一切付费稀缺资源都成为贩卖对象,单价虽然低,做起来靠量也是一笔不小的收入。

    以上介绍的5种互联网黑产薅羊毛手段已经有些过时了,现在互联网平台对付手段也变高明了,薅羊毛的操作空间也越来越少,于是羊毛党开始把对象放到传统企业,这些企业上网后反作弊的经验普遍不足。一个风口过去了,他们又去追逐下一个风口。
    `

  11. 有赞风控规则引擎实践
    https://tech.youzan.com/rules-engine/
    `
    总的来说,目前有赞面临的主要风险类型包括:

    盗卡。例:盗用用户银行卡,在有赞店铺上消费
    欺诈。例:通过发布低价商品,诱骗消费者购买
    套现。例:在自己创建的店铺里进行虚假交易用以套现信用卡
    垃圾信息。例:发布虚假消息、色情等违规商品、页面
    盗账户。例:黑客用其他平台获取的账户密码通过撞库来非法盗取用户在赞平台的账户

    以上所列各种违法、违规行为危害到正常商户以及买家利益,同时也会平台带来资损。在减少对正常用户打扰的前提下如何高效的对风险进行防控,是有赞风控的愿景和使命。

    作为风控架构的“大脑”,规则引擎的运行依赖于其他系统的支撑,包括:

    1. 实时特征库
    2. 规则管理中心
    3. 风控离线任务
    4. 运营平台及工具

    选择了使用较为广泛的JBoss公司维护的Drools。

    Drools是基于RETE算法的开源规则引擎,它具有性能高、可扩展性好、功能全等特点。有赞风控规则引擎基于Drools进行开发,将事件按业务风险类型进行分类,每类布控具体的规则、模型对风险进行防控。

    天下武功,唯快不破,当发生一笔潜在案件时,如果不能在短时间内发现并处理,对于资金类案件来说,有资损的风险;对于信息类案件而言,有垃圾信息被大量曝光、损坏平台声誉的风险。有赞实时规则引擎分为事中和事后两类,其中事中引擎采用了有赞内部的统一接口框架youzan-boot,事后采用了Storm实时流处理框架。有赞风控规则引擎可在100ms内检测、拦截潜在的风险行为。
    `

  12. 【反欺诈场景剖析】虚假账号的产生和流转
    https://paper.tuisec.win/detail/a3cbf677c237367
    https://www.4hou.com/info/observation/18288.html
    `
    【反欺诈场景剖析】是威胁猎人黑灰产报告的一个系列,我们希望通过对反欺诈实际场景的剖析出发,帮助企业发现业务风控过程重的核心关键点。此篇主要介绍反欺诈场景中虚假账号的产生和流转规模化的背后,以及如何对黑灰产做恶的关键节点的监控来实现对企业自身虚假账号风险的管控。根据威胁猎人鬼谷实验室统计,全网恶意注册发起的攻击每日就可达8327380次。虚假账号平均每日活跃量可达1389107次,平均每张黑卡每日进行6次攻击。

    恶意注册是业务风险的起点,也是企业风控的核心关键点。 当今黑产以恶意注册为代表的各类攻击资源已经高度的模块化和市场化,产业链不同层级的团伙专注于不同的任务而又配合严密,而究其根本,是强自动化使得攻击变得可复制,进而形成套路化的盈利模式,对企业资产造成威胁。如果企业无法及时发现问题,采取有效对抗策略,将在业务上面临巨大损失。

    商业模式转变带来黑灰产核心资源的变化
    以恶意注册为核心资源的黑灰产作恶

    恶意注册规模化的背后是效率平台的发展:
    接码平台——提升了整个黑灰产虚假注册的效率
    发卡平台——提升了黑灰产账号流转的效率

    及时捕获黑灰产行为是控制风险的有效手段
    识别黑灰产资源(包括但不限于手机号、IP、设备等)
    分析黑产工具(黑灰产的攻击工具承载着黑灰产的攻击逻辑和利用的企业业务漏洞,通过对工具的监控和逆向,企业可以了解到自身存在哪些业务逻辑漏洞或者是哪些风控策略已经失效,从而提升整个攻防对抗的效率)
    监控黑灰产交易变化(黑灰产交易品类和价格的变动,能够反映出企业一定周期内风控策略的有效性)
    `

  13. 黑产在IP攻防上的挣扎与进化
    https://mp.weixin.qq.com/s/ljhNo8RckOt70-3H5j_6pQ
    `
    不论是在IP这个对抗点,还是在手机号、设备指纹、风险流量和行为等其他对抗点上,传统的【先被攻击】,然后【事后发现】,最后【补充规则】的被动式的对抗方式已经完全无法适应当前与黑产的攻防节奏,研究黑产、了解黑产、掌握黑产的最新技术和动向,才能把控更多主动权。

    想打赢业务安全的战争,必须由“亡羊补牢”式的攻防形态向“未雨绸缪”式的攻防形态转型。

    早期:全网的代理IP数量相对有限,且早期代理服务一般都架设在数据中心的服务器上,不少甲方慢慢开始积累代理IP池,进一步打压了黑产使用代理IP的效果。

    通俗的讲,秒拨的底层思路就是利用国内家用宽带拨号上网(PPPoE)的原理,每一次断线重连就会获取一个新的IP。

    秒拨的底层思路就是利用国内家用宽带拨号上网(PPPoE)的原理,每一次断线重连就会获取一个新的IP。这在与甲方的IP策略对抗层面,给予秒拨两个天然的优势:
    1、IP池巨大:假设某秒波机上的宽带资源属于XX地区电信运营商,那么该秒拨机可拨到整个XX地区电信IP池中的IP,少则十万量级,多则百万量级;
    2、秒拨IP难以识别:因为秒拨IP和正常用户IP取自同一个IP池,秒拨IP的使用周期(通常在秒级或分钟级)结束后,大概率会流转到正常用户手中,所以区分秒拨IP和正常用户IP难度很大。

    这两个天然的优势也是秒拨是当前黑产主流IP资源的核心原因。
    此外,黑产对秒拨还做了升级,称为“混拨”,即黑产把多个省市地区的秒拨资源打通,实现在单台秒拨机上就可以拨到全国上百个地区的IP资源。一台混拨机,成本低至48元/月。

    当前形势下与黑产在IP层面上的对抗,依靠传统地积累IP威胁情报库的方式,根本无法直接应用和落地到业务侧,典型的使用效果是,对黑IP的检出率很高,对正常用户IP的误判率也很高。

    所以,识别风险IP的核心依据应该是,该IP是否当下被黑产持有,IP的黑产使用周期和时间有效性这两个指标尤为重要,尤其是对于像家庭宽带IP、数据中心主机IP这种“非共享型”的IP。针对基站、专用出口等“共享型”的IP,由于单个IP背后会有大量用户,风控阈值应该相对更宽松,但是如果能准确识别IP是否当下被黑产使用,也能提供很重要的参考价值。
    `

  14. 群控进化史,黑产攻击效率提升带来的防守困境
    https://mp.weixin.qq.com/s/MOziZSkEaKL_eEBTfZInbA
    `
    0.一波又一波“市面上最好用的群控”

    1.玩转谷歌和苹果开源项目的黑产
    1、群控是啥?
    2、箱控是啥?

    2.黑产进化,优化攻击效率和成本
    1、六成攻击场景以量取胜:随着互联网的发展,黑产形成了一些固定的攻击模式和套路,有大量的攻击场景依附于流量,通过伪装成正常业务,再通过不断重复获利。
    2、重度依赖黑产基础资源:在黑产市场,像设备这样需求庞大而稳定的“资源”还有很多:IP、身份证、银行卡、支付账号、改机工具、自动化攻击软件、过滑动验证码、隐秘变现渠道等。也都逐渐形成了像接码平台一样的“服务型黑产协作平台”,这些平台越来越多,组合成了一张庞大的黑灰产基础资源网络。黑产攻击也严重依赖这些基础资源。

    黑产在设备上解决批量攻击的方式有这么几种:
    1、箱控
    优化点:将通用类的攻击工具打包配套提供服务,降低了攻击的操作门槛
    2、租赁模式——“云手机”
    优化点:租赁模式,自由“扩容”,降低了维护设备成本,且方便备份传输设备信息
    3、中控
    优化点:解决了传统群控因数据线传输屏幕数据和指令数据造成的设备数量限制问题。
    4、云控
    优化点:设备无需在同一地点,脚本命令存储在云端,团伙间交易脚本时无需发送源码,方便了脚本传播和管理大量手机
    5、群控
    优化点:早期的批量操作设备解决方案,在脚本开发上限制较多,为避免卡顿,设备数量限制在百台左右。

    3.如何应对?
    面对当今黑产这样产业化、专业化、团伙化和链条化的运作模式,攻防对抗将是企业与黑产双方不断厮杀成长的一场持久战,且敌暗我明,该如何应对?

    通过反欺诈情报(事前预防,事后根据攻击方法找到防护点)+欺诈数据标签(定位攻击流量)的综合对抗。填补认知盲区,打平信息差,了解对方的目标、攻击思路和策略。熟悉对方的作恶成本,了解对方发起攻击所需要的资源、时间、金钱成本、渠道门槛、对接的上下游以及通过攻击得到的营收等。在业务侧,综合审视自己的目标,对比双方资源、调整策略,定位到黑产的攻击账号、流量等,予以打击防护。

    黑产以量取胜,但也因为如此,批量就一定有迹可循。

    黑产有庞大的上游基础资源供应,但同时也非常依赖这些资源,这些是产业链的关键结点,也同时是我们识别、打击和防护的有效结点。
    `

  15. 海量数据下的舆情分析,该如何搭建?
    https://mp.weixin.qq.com/s/X3RVXKi40uEO7ra8mX_C-w
    `
    大数据时代下,除了媒体信息以外,商品在各类电商平台的订单量、用户的购买评论,都会对后续的消费者产生很大的影响。商家的产品设计者需要汇总统计和分析各类平台的数据做为依据,决定后续的产品发展,公司的公关和市场部门也需要根据舆情作出相应的及时处理,而这一切也意味着传统的舆情系统升级成为大数据舆情采集和分析系统。具体细化看下大数据舆情系统,对我们的数据存储和计算系统提出了以下需求:

    海量原始数据的实时入库:为了实现一整套舆情系统,需要有上游原始输出的采集,也就是爬虫系统。爬虫需要采集各类门户,自媒体的网页内容。在抓取前需要去重,抓取后还需要分析提取,例如进行子网页的抓取。

    原始网页数据的处理:不论是主流门户还是自媒体的网页信息,抓取后我们需要做一定的数据提取,把原始的网页内容转化为结构化数据,例如文章的标题,摘要等,如果是商品点评类消息也需要提取有效的点评。

    结构化数据的舆情分析:当各类原始输出变成结构化的数据后,我们需要有一个实时的计算产品把各类输出做合理的分类,进一步对分类后的内容进行情感打标。根据业务的需求这里可能会产生不同的输出,例如品牌当下是否有热点话题,舆情影响力分析,转播路径分析,参与用户统计和画像,舆论情感分析或者是否有重大预警。

    舆情分析系统中间和结果数据的存储,交互分析查询:从网页原始数据清洗到最终的舆情报表这中间会产生很多类型的数据。这些数据有的会提供给数据分析同学进行舆情分析系统的调优,有的数据会提供给业务部门根据舆情结果进行决策。这些查询可能会很灵活,需要我们的存储系统具备全文检索,多字段组合灵活的交互分析能力。

    重大舆情事件的实时预警:对于舆情的结果除了正常的搜索和展示需求以外,当有重大事件出现我们需要能做到实时的预警。
    `

  16. 基于 Apache Flink 和规则引擎的实时风控解决方案 ​
    https://mp.weixin.qq.com/s/RnUnMtlm4M6nPvjvmo8HWw
    `
    对一个互联网产品来说,典型的风控场景包括:注册风控、登陆风控、交易风控、活动风控等,而风控的最佳效果是防患于未然,所以事前事中和事后三种实现方案中,又以事前预警和事中控制最好。

    这要求风控系统一定要有实时性。本文就介绍一种实时风控解决方案。

    1.总体架构
    2.风控系统
    2.1 实时风控
    2.1.1 前置过滤
    2.1.2 实时数据准备
    2.2.3 规则判断
    2.2 准实时数据流
    3.分析系统
    前面的东西静态来看是一个完整的风控系统,但动态来看就有缺失了,这种缺失不体现在功能性上,而是体现在演进上。即如果从动态的角度来看一个风控系统的话,我们至少还需要两部分,一是衡量系统的整体效果,一是为系统提供规则/逻辑升级的依据。
    `
    1.从 Drools 规则引擎到风控反洗钱
    http://archive.keyllo.com/L-编程/drools-从Drools规则引擎到风控反洗钱系统v0.3.2.pdf

    2.基于 Groovy 的规则脚本引擎实战
    https://www.jianshu.com/p/d6f45f91bede

    3.基于规则的风控系统
    https://jinfei21.github.io/2018/09/29/基于规则的风控系统/

    4.网易严选风控实践
    https://sq.163yun.com/blog/article/183314611296591872

    5.网易考拉规则引擎平台架构设计与实践
    https://sq.163yun.com/blog/article/213006222321659904

    6.一个开源 java 风控系统
    https://github.com/sunpeak/riskcontrol

  17. 如何给风控部门定好OKR
    https://mp.weixin.qq.com/s/A-7RUvvZ0wxqxyDv-DN3nw
    `
    最近又到了写总结定OKR的时间,也算蹭一下热点写相关文章,其实大白话说,只要能解决让团队里的人知道该做什么,什么是做好了这俩问题,团队就能朝着一个好的方向发展,KPI也好OKR也好,只是不同的方法,核心是逻辑讲的清楚,能衡量。

    今年我自己的总结和规划写的格外顺利,因为今年部门产出优秀,对于团队的方向我也平时就在工作中就在不断的思考总结调整,写ppt的时候也是一气呵成,总结+明年规划一起产出,汇报也很顺利,最后汇报完又在团队内讲了一遍,讲完我看到大家眼里闪烁着坚定的眼神,这个眼神让我更加坚信,一年后我们的团队一定会是一支牛逼的电商风控团队。

    如何给一个风控部门定好OKR让部门能够走上正轨,我一直都在实践和改良,大概2012年的时候我第一次学习了如何利用『十步分析法』给部门或者项目找到理想状态的方法,当时这个方法帮助我们贴吧风控团队找到了视野高于以往所有的方向,然后团队飞速发展,在贴吧发帖量顶峰时期,也经受住了严峻的考验,整个贴吧几乎见不到广告贴存在,也没有用户给robin写信说又莫名被贴吧封禁了,团队信心爆棚,目前贴吧风控应该还一直延续着当时搭好的产品架子。后来这个方法一直在我后续的工作中一次又一次应用,帮助我梳理思路,给团队找到正确的方向,刚开始的时候每梳理一次都会失眠几天,感觉脑子在飞快燃烧着处理各种信息,业务越复杂越难,但是每次梳理完都有一种神清气爽的感觉,对后续的工作非常笃定且有信心,事实也证明每次梳理的结果都帮助部门摆脱了混乱的状况,每个人在固定的方向上干劲十足,合起来部门也是产出喜人。到现在这个方法已经深入到我的日常思维中,人剑合一,这样其实在日常工作中我也是在不停的去纠正我以前不对的地方的,不至于突击梳理一次以后发现以前的方向已经跑偏太多,对业务和团队的伤害也大。我最近在思考,实际上这个方法是在帮我一次又一次梳理了怎么叫把一个业务做好的标准,这个标准会帮助我去检查我定的OKR是否合理。我自我感觉我这次梳理的OKR是我历史上梳理的最好的一次,后续随着公司业务变化和我获取的信息变化,肯定还会有迭代,但是我预计至少一两年不太会超出这次梳理的范围了。

    另外,我有一个理念,一切业务上的问题都是管理问题,方向跑偏了最后结果不好,可能是OKR没制定好,可能是milestone没制定好,也可能是职责界限没有划清晰,就是不能怪下面的人执行不好,工作这么多年,我坚信大多数人都是有上进心且愿意做点什么的,只要把一个人放在一个合适的方向下,不瞎指挥,方向独立稳定,最终的结果都是达标的。

    问题①:单个风控业务做到什么程度叫做好了?

    问题②:风控部门的业务范围该如何制定?

    十步分析法要点:
    列举出所有给你提问题的用户,站在他的角度给出他问题背后的需求,把需求抽象归纳成几类,给出这几类需求满足好的概念,再把这些转化成你的工作。归类时,要做到类别在同一个纬度,且分界清晰,来一个问题能够很顺利的对号入座。
    `

  18. 干货 | 知识图谱的技术与应用
    https://mp.weixin.qq.com/s/cOgG-7fUpgWht4NBFY3ADA
    https://mp.weixin.qq.com/s/uSPkgV-zIBEEJ0Ml-ILXqQ
    `
    # 什么是知识图谱?
    从学术的角度,我们可以对知识图谱给一个这样的定义:“知识图谱本质上是语义网络(Semantic Network)的知识库”。
    从实际应用的角度出发其实可以简单地把知识图谱理解成多关系图(Multi-relational Graph)。

    A knowledge graph consists of a set of interconnected typed entities and their attributes.
    即,知识图谱是由一些相互连接的实体和他们的属性构成的。换句话说,知识图谱是由一条条知识组成,每条知识表示为一个SPO三元组(Subject-Predicate-Object)。

    # 知识图谱的实际应用有哪些?
    通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。
    `
    知识图谱到底是个什么鬼
    https://mp.weixin.qq.com/s/leANUm7K11E3rjMTMFrIGQ

    89页最全清华知识图谱报告
    https://mp.weixin.qq.com/s/_y3bt-JvkHhLb7ii0mKsiQ

    反欺诈的核心是人,教你如何用知识图谱识别欺诈行为
    https://mp.weixin.qq.com/s/DIHI-pF9WYA6KenJsbHPGw

  19. 复杂风控场景下,如何打造一款高效的规则引擎
    https://mp.weixin.qq.com/s/m4jFHUP3JYF9Z8TUxi9UIg
    `
    业务安全团队采用的主要措施和手段就是在业务请求中识别出谁、在什么时间、通过什么方式、做了什么事。这个识别逻辑的制定过程叫做策略的生产。同时,还要对已经完成生产的策略进行快速的验证和落地,以防止风险变化后策略失效。从发现风险经过策略生产、验证,再到最终的落地部署,全流程的处理速度和效果将决定整个业务的成败。

    策略生产、验证、上线、(监控、更新) #括号中括起来的部分需要不断重复迭代

    一、挑战与方案
    1.业务多-接入成本高
    解决方案:抓业务通用节点默认接入(从而覆盖大部分业务) -> 提供通用接口/SDK(降低接入成本提高接入效率,让新业务可以按需接入);

    2.风险点多-逻辑复杂、逻辑复用
    解决方案:功能封装、逻辑封装、规则分类,在线配置、按需调用。

    3.风险变化快、长期对抗-效果验证速度
    解决方案:参考开发环境分类:测试环境、预发布环境和生产环境。规则引擎在规则的部署和迭代上,可通过【标记】、【双跑】和【回溯】功能,我们通过应用实时线上流量和历史数据来验证策略的有效性。

    二、思路总结
    从初期主要围绕风控防控痛点进行搭建的表达式服务包,升级到配置化平台,在配置效率和执行效率也得到了很大的提升。同时,随着人工智能技术的应用和风控对抗进入白热化,规则引擎也将从配置化快速迭代至自动化、智能化。

    1.确定核心快速论证、快速落地
    在系统建设中,进行了充分的论证后就需要快速落地,避免因长项目周期需求发生裂变而导致不可控。在初期,我们已经建立了aviator表达式服务包并稳定服务。因此,配置化平台搭建时仍基于表达式语言,引入场景、规则、因子、决策等概念搭建,将策略的执行分为执行层和计算层。

    2.根据角色,进行定向提效
    (1)风险用户处理提效(风险用户)——平台积累黑名单、白名单库,方便直接用
    (2)业务接入提效(业务方)——平台进行数据补全
    (3)策略管理提效(产品)——在平台上集成策略管理、规则分析、策略验证的功能,集中化可视化
    (4)工程效率提效(工程师)——功能封装,减少重复劳动
    (5)算法/模型接入提效(算法工程师)——和算法、模型平台进行联动

    3.发现问题、横向扩展、兼容更多场景
    随着引擎在多业务场景的应用,我们发现几个实时引擎不好处理的场景。比如拉新场景,需要结合“注册+登陆+交易”等多种行为来判断是否有“薅羊毛”等黑灰产行为,需要将很多事件放到一起去综合判定。当发现风险时,或在当前时间点漏过的变异风险在发现之后,需要对历史数据进行回捞,这些在实时引擎中都不太好实现。当前已有的异步引擎也无法很好地进行覆盖。为了避免做“重复造轮子”的事情,团队充分地讨论了实时、异步和离线引擎的定位和服务边界。
    结合【实时、异步、离线】多场景,以满足各类功能要求。

    4.业务实践结果
    交易安全
    金融安全

    三、未来发展与思考
    目前规则引擎正处于配置化阶段,正在向自动化、智能化的阶段发展,从而不断提升策略的管理和迭代的速度。但业务间的智能化诉求和进程不同,平台可以提供更多集成托管服务,从而提升各业务的智能化覆盖度。

    * 长时间周期特征无法快速应用
    * 快速、低成本的业务接入
    * 平台的稳定性和效率

    四、踩过的坑
    1.如何实现产品功能高聚合架构上低耦合
    * 技术需要有前瞻性

    2.如何平衡系统复杂度与业务需求
    * 定:重新定义“定制和通用”。在现实中有些定制化需求其实是业务速度已经远远领先于其它业务,所有需求看上去是定制化,实际上是未来可预见性的问题。
    * 判:将业务需求进行分类,判断需求是针对主干流程还是分支节点。
    * 看Gap:需求同当前建设情况比对差距。

    3.特别需要“防呆”设计(避免人工误操作)
    * 业务高峰期封版—>禁止业务高峰期时变更策略。
    * 降低无逻辑验证的误伤情况–>策略上线前,强制标记验证执行是否符合业务预期;修改生产上应用的策略,强制双跑验证修改后的逻辑执行是否符合业务预期。
    * 降低逻辑配置错误几率–>策略部署时强制测试逻辑正确性。
    * 惯性操作–>验证数据结果强制回填等。

    4.产品功能最佳实践的意外惊喜
    要承认一个事实就是,最了解功能使用的可能不是规则引擎的产品经理。
    总结而言,做好业务定期应用回访和应用监控是非常有必要的。
    `

回复 hi 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注