=Start=
缘由:
之前记录了一篇【[1]刷单-风控-内鬼】的文章,说的是和刷单相关的内容,没有相关细节,只有个大概。这里再记录一下和风控相关的内容,也只是个大概,不怎么涉及细节。
本来是在5.1前准备的框架,大致的内容当时也都想的差不多了,不过后来有事情耽搁了一下,然后拖到现在,有些内容和细节也都忘了,算了,先这样吧,有机会再进一步补充。
正文:
参考解答:
0x00. 真·准确·多维数据是核心
端上采集设备和传感器数据的核心逻辑如果没有进行有效保护(APP加固——防逆向、代码混淆、反调试……)的话,采集到云端的可能大量的都是黑产(还有友商)灌入的假数据(除了APP端做防护之外,服务端也需要对传回来的数据做进一步的校验)。
准确的数据是前提!在假数据/不准确数据基础上做的分析不可能得出正确的结论。
在保证数据是真实、准确的基础上,最好还需要具备多个维度的数据,以支持更多更深层次的关联、分析。
0x01. 理清利益链是关键
黑产之所以盯住你了是有原因的,毕竟他们的时间也很值钱,不会无缘无故的盯着你不放,肯定是因为对他们来说你这里有钱可赚了。
自家做的活动,要清楚活动的目标群体是谁?活动有没有什么限制条件?有没有足够的信息做足够的校验?
不仅没有收货人一致性校验,没有支付账号限制,没有LBS规则,没有用户血缘关联,没有实时热点监控,没有虚拟号段封锁,连IP墙和设备号限制都没有,可以一台手机,一个支付账户外加一个接码平台,就能无尽的刷。
如果你把利益链条梳理清楚了,在前期风控能力不足或较慢的情况下,你还可以在最后的口子那里再设一道卡(比如:T+1提现,提现账户限制为本人等等),风险也能相对减小很多。
0x02. 工具平台是辅助
黑产专业程度在过去几年中的飞速提升,没有基础技术能力支撑的风控体系在黑产面前都是纸老虎。
当你面对一个分工明确、高度专业化的黑产团队时,如果手上没有趁手的工具/平台,你在他们面前就只有被宰的份。
当然,工具/平台也不是万能的,它们只是工具,帮你减少重复性工作、提高效率的,根本的还在于前期的准备(准确数据收集和利益链条梳理和卡位)是否充分、全面;中期的响应是否及时、快速;后期的复盘、学习是否深刻、到位。一句话概括其实就是——功夫在诗外。基本功练好了,平时的准备做充分了,该做的演练也到位了,也在很难出什么大问题了。
0x03. 深入了解业务,不断运营迭代
安全团队除了要为企业安全负责(本职工作)之外,如果还想获得更好的发展,需要做好老板和业务方的服务工作(赢得业务团队的配合、称赞和认可)。而为了能更好的为业务提供服务,一起共同抗击黑产/恶意攻击者,保护公司资产不受损失,需要更深入的了解业务,基于采集的数据和内部、外部用户的反馈,不断运营迭代,提高能力和效率,以达到更好的防护效果和更高的客户满意度。
参考链接:
看不见的竞争 – 什么是风控
https://mp.weixin.qq.com/s/s_2nPgPSzMmUGkZVOlwWVQ
从反反鸡汤谈过犹不及
https://mp.weixin.qq.com/s/C8qGviwSQZwsuOPObhhhQg
从受众目标,再谈过犹不及
https://mp.weixin.qq.com/s/W1EVYIzloWocvaOnp2NUEg
谈谈用户体验与风控的平衡性
https://mp.weixin.qq.com/s/zgxWxDFicMf7q-3607JG0w
如何给风控部门定好OKR
https://mp.weixin.qq.com/s/A-7RUvvZ0wxqxyDv-DN3nw
从传统安全转行风控领域的心路历程,兼谈黑产和风控行业趋势
https://mp.weixin.qq.com/s/GWOjp1E2B4J0efUjFBnp8Q
硬货-如何用风控拯救下架的小红书
https://mp.weixin.qq.com/s/LchpngIIBqDwejWbFV3E8A
“线下场景”骗贷横行,如何破解风控命门?
https://mp.weixin.qq.com/s/jGLH7v7gOm9iSER9bdHomQ
用有限的信息 做无限可能的风控!
https://mp.weixin.qq.com/s/RaEcVx89GGIjUZORYRKU3w
全面了解风控决策引擎
https://mp.weixin.qq.com/s/DGYKT6R-IMZSmUy6VmzTkw
复杂风控场景下,如何打造一款高效的规则引擎
https://mp.weixin.qq.com/s/iTBjynHENK1e8vi-uicXbg
干货 | 携程新风控数据平台建设
https://mp.weixin.qq.com/s/OAd7jPtnUp8-DqGi8d8Yww
干货 | 携程在线风控系统架构
https://mp.weixin.qq.com/s/muufqznNNVidPgamlcurCQ
干货 | 携程基于大数据分析的实时风控体系
https://mp.weixin.qq.com/s/xlCO__HucTUd_gYNRTueGg
爱奇艺业务安全风控体系的建设实践
https://mp.weixin.qq.com/s/2gcNY0LmgxpYT1K6uDaWtg
回顾·爱奇艺流量反作弊的“术”与“道”
https://mp.weixin.qq.com/s/HqSFKlGcl_Co4tmmQwdKsw
互联网反欺诈体系漫谈
https://mp.weixin.qq.com/s/WAzCLk_6nkQ0Aap6Sx2lPw
反欺诈的核心是人,教你如何用知识图谱识别欺诈行为
https://mp.weixin.qq.com/s/DIHI-pF9WYA6KenJsbHPGw
=END=
《 “[2]刷单-风控-内鬼” 》 有 12 条评论
全面了解风控数据体系
https://mp.weixin.qq.com/s/PCRzPGGBXG7cJAInylkCRg
`
传统金融的风控主要利用了信用属性强大的金融数据,一般采用20个维度左右的数据,利用评分来识别客户的还款能力和还款意愿。信用相关程度强的数据维度大概在十个左右,包含年龄、职业、收入、学历、工作单位、借贷情况、房产,汽车、单位、还贷记录等;而互联网金融公司在利用大数据进行风控的同时,会根据需求利用多维度数据来识别借款人风险,维度包括不限于:社交类数据、消费类数据、行为类数据、多源银行账户数据等。
所以,本文结合中国互联网发展,以及目前的征信监管要求,对可用数据及可用风控类数据做一个全面的梳理。
2.1.4 构建风险画像
2.1.4.1 了解用户属性
人口属性:性别、年龄、职业、学历、收入、房车等;人生阶段:在校、工作、备婚、备孕等。
家庭属性:农业或非农业 五保户 低保户 复员退伍军人 独生子女家庭 特困户 企改下岗人员。
位置属性:常驻地地址、家乡地址、工作地址、地点偏好、差旅目的地等。
社会属性:党员/团员。
价值属性:有无车标识等。
消费属性:消费水平、消费品级、购买方式、购物行为、消费偏好等。
行为属性:生活行为、金融行为、旅游行为、社交行为等。
兴趣属性:金融偏好,上网目的等。
工作属性:白领/蓝领。
行业属性:房地产行业、教育行业、教育培训、旅游行业、汽车行业等。
设备属性:设备类型、设备价格、应用偏好,设备安装、卸载、打开、活跃,设备价格、关联手机号个数等。
2.1.4.2 了解个人资质
个人资质:查询用户消费、收入、资产、职业等信息,对用户消费等级、消费偏好、收入稳定性、职业稳定性等信息进行评估。
稳定性评估:收入稳定性、家庭稳定性、位置稳定性等。
2.1.4.3 评估还款能力
履约能力:判断收入范围,收入能力水平,消费能力水平,判断高净值用户
直接体现或者间接体现还款能力的:
家庭人数:家里人多,你还不起,催收后有人可以帮你还;
婚姻状态:大部分家庭,结婚的比未婚的家庭收入或经济稳定更好;
收入水平:单位名称、单位电话、工作职务、单位性质、收入来源、收入水平,直接体现收入水平及收入稳定性情况;
偿债压力指数:用户本人当前偿债压力指数的情况。数值越大,压力越大。
企业经营:经营企业详情、其他资质等信息。
2.1.4.4 评估还款意愿
贷款属性:多平台借贷情况等。
团伙欺诈排查:团伙欺诈排查通用版是基于自有海量数据,通过算法挖掘用户的团伙欺诈行为。
历史借贷记录:了解用户借贷意向,借款用途是否虚假,了解用户借贷行为,借贷行为偏好
对用户还款能力进行评估,对用户还款意愿进行评估。
历史欺诈记录:多头借贷倾向,信用风险提示,信用逾期预测。
综合信用情况:查询用户消费、收入、资产、职业等信息,对用户消费等级、消费偏好、收入稳定性、职业等信息进行评估。
2.1.4.5 用户全面画像
身份信息画像:身份证、银行卡、手机卡、学历、职业、社保、公积金;
资产负债画像:资产信息、负债信息
工作学历画像:简历信息、学信网信息
家庭关系画像:家庭成员信息
借贷行为画像:注册信息、申请信息、共债信息、逾期信息;
消费行为画像:POS消费、保险消费、京东消费;
兴趣行为画像:APP偏好、浏览偏好、消费类型偏好;
出行信息:常出没区域、航旅出行、铁路出行;
公检法画像:失信被执行、涉诉、在逃、黄赌毒;
其他风险画像:航空铁路黑名单、支付欺诈、恶意骗贷。
社交行为画像:
设备指纹画像:
朋友圈风险画像:
2.1.5 选择风控数据
2.1.5.1 数据源选择
用户进件提供
内部系统生产
外部机构合作
2.1.5.2 数据应用原则
先内部后外部,先简单后复杂,先强后弱,先规则后模型。根据产品性质和要求接入,评估内部数据能否构建足够的用户画像,观察是否需要扩展数据,接入时符合合规要,要求高效、稳定、可靠,单数据源高覆盖度的话,可以不用接入多家比对。
`
全面了解风控决策引擎
https://mp.weixin.qq.com/s/DGYKT6R-IMZSmUy6VmzTkw
全面了解风控指标体系
https://mp.weixin.qq.com/s/-posovos49MGleNgSXHFWw
“线下场景”骗贷横行,如何破解风控命门?
https://mp.weixin.qq.com/s/jGLH7v7gOm9iSER9bdHomQ
`
有利益的地方,就有江湖——利益就如藕丝,让各方暧昧不清,牵扯得绵延不绝。
一个中介横行的行业,风控的第一步,是需要在价值链链条中,化解机构和中介的利益勾结。
“实际上,行业真的有法可破,关键是是否想破,”罗一鸣称,消费金融发展这两年,该进入沉淀时代。
金融领域确实有不少迅猛崛起的神话,但也不缺一夜颠覆的大败局。
对风险,需要永保敬畏之心。
如果有10%的利润,它就保证到处被使用;有20%的利润,它就活跃起来;有50%的利润,它就铤而走险;为了100%的利润,它就敢践踏一切人间法律;有300%的利润,它就敢犯任何罪行,甚至绞首的危险。
`
一个APP打穿你的风控体系
https://mp.weixin.qq.com/s/oSlyFspSRK0ioY3RcE0kPw
`
最近黑产群里收集到一款专业的刷单工具APP,名叫“E学院”。视频教程上,利用这个工具,只需要用新手机号,便可以轻松获得各大电商平台的新人红包。APP封装了Webview,整个操作都是人工在官方的h5页面操作,而工具把各个流程封装起来,非常专业。
搞清楚APP的运行原理后,才发现黑产套路真的是深。一个APP就打穿了整个风控体系,细思极恐。
* 从设备指纹的角度,本身h5设备指纹能力就非常有限,使用这款工具能够轻松地修改UA、清除缓存,这样就完全绕过了设备类风控。
* 从用户行为的角度,纯真人操作,让生物探针和验证码形同虚设。(不过在实际测试时发现,京东的新型验证码在Webview里非常难滑)。因为新人红包奖励额度很高,相比而言真人操作的成本就很低了。
* 唯一能够拦截的只剩下手机号了,然而并不是每家都有全的虚假号码库。
* 开发者将每一步骤都傻瓜化操作“注册->红包1->红包2”,极大地降低了薅羊毛门槛。
* 甚至还支持SID登陆态的登陆,用户可以直接使用别人注册好的新号。
`
大数据时代的用户画像基础介绍和构建流程
https://mp.weixin.qq.com/s/xflLL–69iKkePi1Ur39WA
`
在互联网步入大数据时代后,用户行为给企业的产品和服务带来了一系列的改变和重塑,其中最大的变化在于,用户的一切行为在企业面前是可“追溯”“分析”的。企业内保存了大量的原始数据和各种业务数据,这是企业经营活动的真实记录,如何更加有效地利用这些数据进行分析和评估,成为企业基于更大数据量背景的问题所在。随着大数据技术的深入研究与应用,企业的关注点日益聚焦在如何利用大数据来为精细化运营和精准营销服务,而要做精细化运营,首先要建立本企业的用户画像。
用户画像,即用户信息标签化,通过收集用户的社会属性、消费习惯、偏好特征等各个维度的数据,进而对用户或者产品特征属性进行刻画,并对这些特征进行分析、统计,挖掘潜在价值信息,从而抽象出用户的信息全貌。用户画像可看作企业应用大数据的根基,是定向广告投放与个性化推荐的前置条件,为数据驱动运营奠定了基础。由此看来,如何从海量数据中挖掘出有价值的信息越发重要。
用户画像建模其实就是对用户“打标签”,从对用户打标签的方式来看,一般分为3种类型:①统计类标签;②规则类标签;③机器学习挖掘类标签。
① 统计类标签
这类标签是最为基础也最为常见的标签类型,例如,对于某个用户来说,其性别、年龄、城市、星座、近7日活跃时长、近7日活跃天数、近7日活跃次数等字段可以从用户注册数据、用户访问、消费数据中统计得出。该类标签构成了用户画像的基础。
② 规则类标签
该类标签基于用户行为及确定的规则产生。例如,对平台上“消费活跃”用户这一口径的定义为“近30天交易次数≥2”。在实际开发画像的过程中,由于运营人员对业务更为熟悉,而数据人员对数据的结构、分布、特征更为熟悉,因此规则类标签的规则由运营人员和数据人员共同协商确定;
③ 机器学习挖掘类标签
该类标签通过机器学习挖掘产生,用于对用户的某些属性或某些行为进行预测判断。例如,根据一个用户的行为习惯判断该用户是男性还是女性、根据一个用户的消费习惯判断其对某商品的偏好程度。该类标签需要通过算法挖掘产生。
在项目工程实践中,一般统计类和规则类的标签即可以满足应用需求,在开发中占有较大比例。机器学习挖掘类标签多用于预测场景,如判断用户性别、用户购买商品偏好、用户流失意向等。一般地,机器学习标签开发周期较长,开发成本较高,因此其开发所占比例较小。
`
用户画像从0到100的构建思路
https://mp.weixin.qq.com/s/qiGubhB1X4R-ufb-fO6Z-Q
`
# 第一步:介绍从0到1的构建思路。
一个比较成熟的画像系统会有成百上千的标签,这些标签的生产不是一次完成的,而是随着业务的发展需要,逐步补充完善,最终呈现在大家眼前的就是一棵庞大的标签树。
跟自然界的树木一样,标签树要想长得茁壮参天,也必须有一个稳定的根基和合理的结构。在用户画像的构建前期,最重要的是搭好画像骨架,确保后续的发展过程中,依然保持清晰的结构和高延展性。相反,如果一开始为了抢时间,将大量标签无序地堆在线上,后期管理和使用的难度会迅速凸显出来,重构的代价巨大。
上面说到,一个好的标签树结构要满足两个条件:高概括性和强延展性。高概括性意味着结构体系能够很好地包含一个用户的基本属性和产品交互的相关行为,同时对于业务重点单独强调,没有遗漏;强延展性意味着结构全面的同时也有一定的抽象概括能力,保证新增的标签可以很好地找到对应的分类,整个体系不会过于收敛局限。
按照这个原则,画像通常从8个维度组织标签,分别为:
基本属性、
平台属性、
行为属性、
产品偏好、
兴趣偏好、
敏感度、
消费属性、
用户生命周期 及 用户价值。
# 第二步:介绍从1到100的构建思路。
前面我们介绍了如何搭建用户画像的基础框架,这一节讨论一下,有了基础框架,到底应该如何着手一步步完善画像标签树,如何从一个基于业务的需求落地为标签的设计,如何将标签应用到具体的业务中。
要解决“如何做”和“如何用”这两大问题,要从问题的根本开始思考,也就是我们为什么要做用户画像,用户画像的作用是什么。了解了这些问题,便能水到渠成,根据用途合理地设计方案。
用户画像的主要目的有以下3个:
* 用于用户信息的统计,建立对产品、对用户的基本认知;
* 用于用户定向营销,利用人群圈选投放物料;
* 用于算法,沉淀用户特征,供模型使用。
`
总要有人踩刹车
https://mp.weixin.qq.com/s/W7SjxDmBmOlvZ9L73iLtWg
`
企业发展就像是一场越野拉力赛,踩油门固然可以获得速度,但是在面对各种风险场合,总要有人踩刹车,否则,高速行驶的车就会装上障碍,或者栽入泥塘。企业发展,也是同理。
1、警惕增长背后的危机
越是业绩蒸蒸日上的时候,越要警惕可能的风险,我看产品数据有个习惯,数据指标增长过快的时候,我第一反应不是兴奋,而是紧张。增长是不是健康,有没有可能是刷量或羊毛党?
2、被忽略的隐形价值
很多新入职场的从业者不太了解风控工作的意义,有些会认为这个职位很尴尬,确实,风控岗位的特点是,你做的非常好的时候,是没有存在感的,但如果出了问题,就是天大的责任。
所以很多人觉得,我为什么要做这样的工作,很没有成就感。
其实这里有个隐形价值,通过这个岗位所获得的认知价值。风控岗位,需要对业务的各种细节和问题具有非常敏锐的认知,而且需要面对各种匪夷所思的挑战和对抗。一个资深的风控专家,他对行业的很多风险认知,是远远超出同等经验的其他岗位,而且会非常清楚灰黑产的套路和各种手段。
磨练出这种认知价值,对自身的职场或创业,都会有极大的帮助。
3、对抗产生机会
其实,理解风控,提升认知,会给自己带来无数新的机会,而且在职场选择或创业历程中,可以避开90%以上别人注意不到的坑。
但这碗饭不容易吃,非常考验敏锐度,业务理解力。以及在一定程度上,风控也是一个特别需要人脉的事情。所谓信息面很重要,有时候你需要尽快知道谁在搞你,用什么方式搞你。有时候你需要知道,有什么新的灰黑产方法和工具在流传,彩虹库里有多少你们的用户资料被泄露。
当然,风控还涉及一个成本问题,实际上,很多新入行的从业者都没有意识到,风控是多么重成本的事情。一个创业者如果没有意识到风控成本的问题,那么其实很多产品和运营方案都是极度危险的,找我谈创业计划的年轻人,几乎有90%都存在这个问题。
`
看不见的竞争 – 什么是风控
https://mp.weixin.qq.com/s/s_2nPgPSzMmUGkZVOlwWVQ
浅谈风控的架构
https://mp.weixin.qq.com/s/GAeau8TJEWZtrv5CHlSHNQ
`
其实不同行业,不同领域的风控还是有很大区别的,这里只针对典型刷量,刷榜,不当获利等类型的网络行为,进行风控体系的一些基本架构。
当然,时代与时俱进,有些新的思路可能已经超出我的认知,也欢迎批判指正。
1、数据预警
2、风控的处置引擎
3、规则配置
4、机器学习
5、情报体系
6、业务影响评估
风控也不是越严格越好,因为过度严格的风控会把业务搞死。今天我们说商旅行业羊毛党仍然有很多玩法和路数,那些商业巨头难道不清楚?为什么航空公司,酒店集团,对积分里程的各种羊毛玩法没有斩尽杀绝,水至清则无鱼啊,让会员总觉得有便宜可以赚,也是一种维持用户增长的途径。
所以各种风控策略上线后,依然要基于数据不断评估和反思,是不是某些策略所处理的问题已经不那么严重,误杀率是不是有点过高,对正常用户的行为是不是造成了干扰,可能特殊阶段会有比较严格的策略,那么这个阶段过去后,相关的策略是否可以减弱甚至取消?
风控其实有两个指标,第一是对不良行为的清洗,阻断率,是不是真正有效的让那些干扰和噪音不再影响业务和决策者的判断。第二是对正常业务的干扰率,风控不可能是完全精确的,任何一条策略都可能干扰到正常用户行为和正常业务数据。那么这个影响是否可以控制在足够小的范围内。这是要经常反思和分析的,千万不要被业务负责人过来追着骂的时候,才想起来这里可能有问题。
大体如此,实际细节还是非常多的,而且还不敢展开,一展开就暴露我的无知了。
`
数据分析这点事
https://mp.weixin.qq.com/s/S1-jsz_M2xKiI5JR_NM6KQ
斗鱼风控算法体系建设
https://mp.weixin.qq.com/s/88I1v0gZ6wWRye_GV929kg
智能风控模型的自动化迭代
https://mp.weixin.qq.com/s/l4KWEGqQiSzKSIOF5O6pTg
密文字段检索方案
https://jaq-doc.alibaba.com/docs/doc.htm?treeId=1&articleId=106213&docType=1
`
普通的加密模式下,整段内容会被整体加密,密文就不再具备被模糊查询的功能。考虑到某些字段存在模糊查询的求,我们的SDK可以提供一种高级的加密模式,加密后的密文仍然可以支持模糊查询功能。这里我们对这种模式做简要介绍,以便ISV在确定方案的时候做出选择。
在普通加密方式下,我们在数据库检索该加密数据的时候必须用全文匹配。如姓名:“张大铁”,用普通方式加密后成为“DQ21aTz/oe9qT2Xje1tTcddQ”,在数据库查询时,如果希望获取关于”张大铁”的记录,则对应筛选条件就是筛选出加密姓名为”“DQ21aTz/oe9qT2Xje1tTcddQ”的记录。然而,如果我们想检索姓名中含有“大铁”的人的记录,原本可以用数据库模糊查询(如SQL的like 语句)方式获取,现在加密后就无法满足这样的要求了。
现在,我们的加密产品中最大程度的尝试满足这种需求。我们有一个允许模糊查询的加密模式,仍然允许ISV对记录进行模糊查询。
密文检索的功能实现是根据4位英文字符(半角),2个中文字符(全角)为一个检索条件。将一个字段拆分为多个,
比如:taobao123使用4个字符为一组的加密方式。第一组 taob ,第二组aoba ,第三组obao ,第四组 bao1 … 依次类推如果需要检索 所有包含 检索条件4个字符的数据 比如:aoba ,加密字符后通过key like “%partial%” 查库。 因为密文检索开启后 密文长度会膨胀几倍以上,如果没有强需求建议不开启。
但是使用这种方式也有一定代价:
• 支持模糊查询加密方式,产出的密文比较长;
• 支持的模糊查询子句长度必须大于等于4个英文/数字,或者2个汉字。不支持过短的查询(出于安全考虑);
• 返回的结果列表中有可能有多余的结果,需要增加筛选的逻辑:对记录先解密,再筛选;
本产品允许对每一个字段都独立设置这个字段的加密模式。请您根据自己的应用场景确认每个字段的加密方案。请您根据您的业务仔细审查、选择。一旦加密开始之后,再更改成本就较高了。
`
加密数据检索方案
https://open.pinduoduo.com/application/document/browse?idStr=3407B605226E77F2
`
完整加密串和检索串要分离,可从完整字符串中提取检索串。
完整加密串和检索串分别存储数据表两个字段。因为加密后的数据长度会扩大 10-20 倍,应该减少索引字段的长度,提高检索效率低。加密原串用于开展业务,检索串用于数据查询使用。
`
一、加解密服务-概述和对接流程:
http://jos.jd.com/commondoc?listId=342
二、应用开发对接和敏感接口
http://jos.jd.com/commondoc?listId=343
三、店铺加密白名单管理
http://jos.jd.com/commondoc?listId=344
四、加解密对接的典型方案
http://jos.jd.com/commondoc?listId=345
五、数据加解密常见问题
http://jos.jd.com/commondoc?listId=346
六、加解密抽查验收和安全规范
http://jos.jd.com/commondoc?listId=347