近期的一些零碎知识点整理

=Start=

缘由：

简单整理记录一下近期想到的一些知识点，结构比较零散，但是内容觉得还比较重要，所以专门开一篇文章记录一下，方便后面有需要的时候参考和继续补充。

正文：

参考解答：

正则表达式的“非捕获”和“正负向环视/预查”

用Hive SQL进行正则匹配和提取

regexp_extract(reflect("java.net.URLDecoder", "decode",query_string,"UTF-8"), 'keywords=([^&]+)&?', 0) as keywords, --达到预期
regexp_extract(query_string, 'keywords=([^&]+)&?', 0) as keywords_raw, --达到预期
regexp_extract(query_string, 'keywords=(.+)&?', 0) as keywords_raw2, --不达预期
regexp_extract(query_string, 'keywords=(.{1,})&?', 0) as keywords_raw3, --不达预期

-- 结果抽样
keywords=IT&    keywords=IT&    keywords=IT&pageNum=1&pageSize=30   keywords=IT&pageNum=1&pageSize=30   keywords=IT&pageNum=1&pageSize=30
        keywords=&pageNum=1&pageSize=30 keywords=&pageNum=1&pageSize=30 keywords=&pageNum=1&pageSize=30
keywords=安全&    keywords=%E5%AE%89%E5%85%A8&    keywords=%E5%AE%89%E5%85%A8&pageNum=1&pageSize=30   keywords=%E5%AE%89%E5%85%A8&pageNum=1&pageSize=30   keywords=%E5%AE%89%E5%85%A8&pageNum=1&pageSize=30

简单整理：
1. 对于请求参数内容的提取（有较为固定的分隔符，比如&），可以使用非特定字符([^&])的方式来替代点(.)
2. 还有就是在上面操作的基础上，不要再(.+?)或是(.*?)这种非贪婪的方式了，会导致拿到的结果不全
3. 最好就是( keywords=([^&]+)&? )这种方式，不容易误匹配，也不容易漏掉有效信息

HIVE SQL中的非空查找函数

非空查找函数 : COALESCE
语法: COALESCE(T v1, T v2, …)
返回值: T
说明:  返回参数中的第一个非空值；如果所有值都为NULL，那么返回NULL

hive> select COALESCE(null,'100','50');
100

正则表达式-非捕获匹配

字符	描述
(?:pattern)	匹配pattern但不获取匹配结果，也就是说这是一个非获取匹配，不进行存储供以后使用。这在使用或字符“(\|)”来组合一个模式的各个部分是很有用。例如“industr(?:y\|ies)”就是一个比“industry\|industries”更简略的表达式。
(pattern)	匹配pattern并获取这一匹配。所获取的匹配可以从产生的Matches集合得到，在VBScript中使用SubMatches集合，在JScript中则使用$0…$9属性。要匹配圆括号字符，请使用“(”或“)”。

不要让稻草压死骆驼。每使用一个普通括号()而不是非捕获型括号(?:…)，就会保留一部分内存等着你再次访问。这样的正则表达式、无限次地运行次数，无异于一根根稻草的堆加，终于能将骆驼压死。养成合理使用(?:…)非捕获匹配的习惯。

默认的多选分支『(…|…)』使用的括号是会捕获文本的，也就是说，括号内的表达式真正匹配成功的文本会记录下来，匹配完成之后可以提取出来。但许多时候，我们需要的只是整个表达式的匹配，而不关心“匹配时到底选择的哪种可能情况”，在这种情况下，我们稍加修改，使用“不捕获文本的括号”，可以提高效率。不捕获文本的写法也很简单，只是在开扩号之后加上字符『?:』，也就是『(?:…|…)』。这样做虽然繁琐点，但效率有保障，阅读起来也不困难，我推荐养成这种习惯，只要用到了括号，就想想是否真的要捕获括号内表达式匹配的文本，如果不需要，就是用不捕获文本的括号。

正则表达式-环视/预查

字符	描述
(?=pattern)	正向预查，在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如，“Windows(?=95
(?!pattern)	负向预查，在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配，也就是说，该匹配不需要获取供以后使用。例如“Windows(?!95

正则表达式的环视是什么——环视顾名思义就是「环顾四周，向左看看向看看，找一个合适的位置」。环视「匹配的是一个位置而不是字符，这点尤为重要」。

首先解释一下什么是「顺序环视」，什么是「逆序环视」。因为正则表达式的匹配过程是从左到右的，所以如果我们要「判断一个位置的右边满不满足某个条件，这就叫顺序环视」。如果我们「判断一个位置的左边满不满足某种条件的话，这就叫做逆序环视。」

你可能会觉得上面这个正则表达式有点难记，首先我们需要知道「环视都是以(?作为开头的，然后接下来的一到两个符号表明是那种环视，再然后就是需要满足的条件，最后是一个)表示结束。(?=条件)可以这样理解，?表示疑问，=表示是否满足匹配。也就是当前位置是否满足给出的条件。」

肯定的顺序环视 -> (?=李四)

假如你现在是一名叫张三的学生，现在是体育课需要大家排个队，你记性不好忘记了自己之前的位置，但是你还记得你的后面是李四。所以这个时候你肯定「先找到李四，然后站在他的前面就可以了」。所以你这个选择背后的逻辑是，「我站的这个位置后面需要是李四才可以」。如果我们使用正则表达式来表示这个位置的话，那就是(?=李四)，这就表示了你想要找的位置。

否定的顺序环视 -> (?!李四)

假如你现在是一名叫张三的学生，现在是体育课需要大家排个队，但是你不想让李四站在你的后面，因为他总是喜欢用中性笔在你的后背上乱涂乱画。所以这个时候你会怎么选择位置呢？你肯定先看一个位置，只要这个位置的后面不是李四就可以了。「因为就算李四在你前面也无所谓，毕竟他不能画你的后背了。」

所以你做这个选择背后的逻辑是，「只有你站的这个位置后面不是李四才可以」。

上面这个位置可以用正则表达式(?!李四)来表示，作为程序开发者，我们对!很熟悉，在这里也是同样的意思。「表示不能够满足后面的条件。」

肯定的逆序环视 -> (? (? (?<=\d)(?=(\d{3})+$)

数字千分位的处理。当我们使用正则表达式去解决问题的时候，第一件事情就是需要明确解决的是一个什么问题。对于这个问题来说，我们要解决的问题是匹配一些位置。什么位置？就是一个数字，「从后向前数，每隔三个数字的位置，并且每个位置的左边都需要有数字。」

当我们明确了我们需要解决的问题之后，我们就可以写我们的正则表达式。首先写一个能够匹配每隔三个数字的位置。这个比较容易我们可以使用「肯定的顺序环视」，(?=\d{3})应该是我们比较容易想到的。这个正则表示的意思就是「匹配一个位置，这个位置的后面需要是三个数字」。

(?=a) 前面有a
(?!a) 前面没有a

因为正则表达式的匹配过程是从左到右的，所以如果我们要「判断一个位置的右边满不满足某个条件，这就叫顺序环视」。如果我们「判断一个位置的左边满不满足某种条件的话，这就叫做逆序环视。」

正则表达式中的不匹配

/^((?!PART).)*$/ #匹配不包含字符串 PART 的行
/^(?!PART)/ #匹配不以字符串 PART 开头的行

查找不以baidu开头的字符串 #正则 ^(?!baidu).+$

查找以com结尾的字符串 #正则 ^.*?(?<=com)$
查找以com结尾的字符串 #正则 ^.*?com$

查找不以com结尾的字符串 #正则 ^.*?(?<!com)$

对正则表达式的解释：^.*?(?<!com)$
首先匹配行开头，**然后是 .*? 这个是忽略优先，也就是优先忽略不匹配任何字符**，(?<!com) 这个是一个逆序环视的否定形式，意思是匹配一个位置此位置的前面不能是字符串com，最后是一个行结束。对于www.123.com来说，首先匹配行首，接着匹配w后面的位置，发现前面不是com，所以成功但紧接着要匹配行尾，失败，回溯让.*? 匹配一个w符号，接着(?<com)匹配第二个w后面的位置，发现前面也不是com匹配成功，紧接着要匹配$对应的行尾失败，一直到.*?匹配了www.baidu.com的时候，此时(?<!com)匹配m后面的位置，此时此位置的前面是com匹配直接失败,接着.*?匹配行末尾，(?<!com)匹配$后面的位置，显然这次也失败了，所以整个全局匹配都失败。  www.123.com被排除到匹配之外。这里的.*后面加不加问号结果都一样。


查找不含有if的行 #正则 ^([^f]|[^i]f)+$

排除不含有某字符串的最终方案 #正则 ^(?!.*helloworld).*$
排除不含有某字符串的最终方案 #正则 ^((?!helloworld).)*$ (但效率没有上面那个高)

参考链接：

判断一行中不包含特定关键字的正则表达式(Regular expression to match a line that doesn’t contain a word?)
https://stackoverflow.com/questions/406230/regular-expression-to-match-a-line-that-doesnt-contain-a-word

利用正则表达式排除特定字符串
http://www.cnblogs.com/wangqiguo/archive/2012/05/08/2486548.html

正则表达式里字符串”不包含”匹配技巧
http://www.aqee.net/post/regular-expression-to-match-string-not-containing-a-word.html

距离弄懂正则的环视，你只差这一篇文章 #nice
https://mp.weixin.qq.com/s/VqiZ6fVL20sJ8NUoQJjm2g

常用的正则表达式
https://ixyzero.com/blog/regex2.html

由“正则表达式中的与或非”想到的
https://ixyzero.com/blog/archives/2059.html

=END=