https证书链

2017年03月30日作者 夜行人

应同事要求，把git的地址修改成了https，应用后，浏览器访问是正常的，但git命令行访问时，偶尔会提示证书有问题:

Peer certificate cannot be authenticated with known CA certificates

遇到一两个反馈，就让他们禁用证书检查，或者改用ssh，但反馈多了，觉得这体验的确不够好，虽然安全和方便二者不可兼得，但我们这明明是Symantec颁发的权（mian）威（fei）证书，理论上不应该有问题才对。今天有空，就试着解决下。

犹记得（多么熟悉的三个字，其实是代表了年纪大）上次内网某https应用，有位同事用Chrome访问，死活都提示证书有问题，但其他人又正常，百思不得骑姐。后来是web同事发现并解决了问题，说是证书链不完整，去把中间证书下载回来，加到证书里就解决了。

本次估计也是，但怎么验证？如果是外网，直接用ssllabs_https_check，会打印完整证书链，将网站打印出来的证书和服务器上配置的进行对比，如果不一致，则证明少了中间证书。但我们是内网啊，这网站无法访问到，这时只能放狗+祭出openssl神器了。

查看证书

openssl s_client -showcerts -connect git.example.com:443 -servername git.example.com

看Certificate chain节内容，如果下面的开头和结束只出现1次，则代表证书不完整

-----BEGIN CERTIFICATE-----
证书内容
-----END CERTIFICATE-----

至此，我们证实了只有1个证书了，那怎么加入中间证书？

颁发机构一般有提供的
如果当时的压缩包已经不知去向，如果你有2个https应用都是同一个CA颁发的，那么可以用上面openssl的方法去另外一个https应用拿

修改httpd配置，此处列出完整配置

<VirtualHost *:443>                                                                                                                 
    ServerName git.example.com
    CustomLog logs/git.example.com_access.log common
    SSLEngine on
    SSLCertificateFile "/etc/httpd/cert/git.example.com.crt"
    SSLCertificateKeyFile "/etc/httpd/cert/git.example.com.key"
    # 此配置为本次新添加
    SSLCertificateChainFile "/etc/httpd/cert/git.example.com_root_bundle.crt"
    SSLProtocol all -SSLv2 -SSLv3
    ProxyPreserveHost On
    ProxyRequests Off
<Location />
    ProxyPass http://127.0.0.1:8088/
    ProxyPassReverse http://127.0.0.1:8088/
</Location>
</VirtualHost>

最后优雅地重新加载配置

sudo /etc/init.d/httpd graceful

再次用openssl检测，此时服务器端已经返回了完整的证书链，git也正常了。BTW，https水太深了。

为什么浏览器正常呢？因为浏览器会递归请求证书，而递归请求其实很慢，所以也就有了- OCSP Stapling，简单说就是，服务器去帮你把中间证书请求了，一起返回给客户端。

安全

HTTPS

通过XFW访问MySQL无返回的问题

2017年03月27日作者 夜行人

1. 症状概述

最近我们新加了一台机，在xx的机器上访问MySQL，可以正常连上，执行show databases等马上有结果的指令，可以正常返回，但如果表记录又上千万，select count(1) from xxx的时候，则会没有返回。

犹记得几个月前，我们在C机有个脚本通过http方式提交数据到远程机器S，S将结果存到MySQL，同样也是经过XFW，由于处理时间比较长（大概1分钟吧），C这边一直卡住，因为没有收到S的返回，但在S通过tcpdump抓包发现，S是有返回的，而且尝试多次返回，说明什么？连接断了呗，但C和S都感知不到这个断开的操作，感觉是XFW检测到此数据连接没有数据发送，把它断了。

最后是在S上加了索引，使得存入MySQL操作秒返回，才解决了这个问题。天下武功，唯快不破，和XFW斗亦如是。

2. 排查过程

2.1 MySQL版本

首先说明下本次新加的机器，我们升级MySQL到5.7，以往的机器都是5.5，那是不是5.7的问题呢？

2.1.1 SUSE系统

以下都是在C（SUSE系统）上连接：

1.连MySQL 5.7（A）时，实际早就挂了（服务器端top看MySQL的CPU占用），但客户端这边还是阻塞状态，过了很久才显示：

ERROR 2013 (HY000): Lost connection to MySQL server during query

2.连MySQL 5.5时（B），偶尔会卡住，在服务器端抓包，没有数据过来，意味着实际上还没有连到过去，但如果能连过去，一般可以获取到返回

但我们后来通过tcpdump抓包发现，第一点的结论其实是错的，因为在MySQL的CPU占用降下去之后，从3306端口是有数据发出去的，也就是并没有挂，查询有结果，并有发出去，但客户端没有收到，C端等到超时了才退出并报错

2.1.2 CentOS系统

刚好有1台CentOS系统的机器，测试下，结果和上面SUSE系统一样

2.2 TCP的问题

2.2.1 SUSE系统

基于上面一开始提到的http提交数据的问题，我们又感觉是tcp的问题，怎么验证？我们在A上开了ssh的密码登录，然后在C上ssh到A，然后A上执行mysql连接，再进行查询，结果发现，也是没有返回，最后提示

Disconnected; connection lost (Connection closed.).

那很明显了，就是tcp连接断开了

2.2.2 CentOS系统

上网查询发现CentOS上，ssh有一个维持心跳的参数，于是试了下

# 5s发送一次心跳包
ssh -o ServerAliveInterval=5 -pxxx username@A

通过上面的参数连接后，发现此时可以正常获取结果了

记得关闭A上的ssh密码登录

3. 解决

3.1 libkeepalive.so

通过以上测试，发现问题出现在tcp，那就有解决的方向了，但MySQL是没有这种维持心跳的参数的，但我们找到了一个libkeepalive.so的软件，通过它封装下，可以设置应用层的心跳，那就不用设置内核参数了

LD_PRELOAD=libkeepalive.so KEEPIDLE=5 KEEPCNT=3 KEEPINTVL=5 mysql  -h xxx

KEEPIDLE，空闲多久就开始发送心跳，此处为5
KEEPINTVL，多久发送一次心跳，此处为5
KEEPCNT，一共尝试多少次，此处为3次，如果3次都发送不成功，则认为失败，不再尝试

但比较遗憾，没有生效，无论是SUSE还是CentOS

3.2 内核参数

我们在C端把内核参数设置下，感觉是比较重（需要修改内核参数）的解决办法。

# 多久探测一次，此处为5s
sysctl -w net.ipv4.tcp_keepalive_intvl=5
# 空闲多久后开始探测，此处为5s
sysctl -w net.ipv4.tcp_keepalive_time=5

通过上述设置，再直接用mysql连接就正常了。

以下是系统默认值，net.ipv4.tcp_keepalive_probes的意思是，每「net.ipv4.tcp_keepalive_time 」间隔，就探测一次，探测「net.ipv4.tcp_keepalive_probes」次，此处为9次，就停止探测

net.ipv4.tcp_keepalive_time = 30
net.ipv4.tcp_keepalive_probes = 9
net.ipv4.tcp_keepalive_intvl = 5

为避免影响其他程序，建议只在测试时通过命令行设置，在测试完后，通过sysctl -p还原为系统默认配置

其他

MySQL

ZZ：拷贝ibd文件的方式迁移数据

2017年03月27日作者 夜行人

在mysql5.5之前，mysql实例中innodb引擎表的迁移是个头疼的问题，要么使用mysqldump导出，要么使用物理备份的方法，但是在mysql5.6之后的版本中，可以使用一个新特性，方便地迁移Innodb表，这样一来大的innodb表的迁移就显得很easy，这个特性就是innodb表空间传输：

详细请参考：Innodb 表空间传输迁移数据

MySQL

ZZ：高效的 Linux 限流神器 Trickle

2017年03月22日作者 夜行人

请见：高效的 Linux 限流神器 Trickle

Linux, Network

网络

PHP的master与worker进程关系的一点纠结

2017年03月22日作者 夜行人

纠结的起点

同事发了一篇文档，里面提及

FPM 的 master 进程接收到请求
master 进程根据配置指派特定的 worker 进程进行请求处理，如果没有可用进程，返回错误，这也是我们配合 Nginx 遇到502错误比较多的原因。

全文请参考： Nginx 与 FPM 的工作机制

我曾经认为Nginx也是由master负责派发请求给worker，但同事那边马上发了篇文档出来打脸，文章提到master只负责管理worker，如重启，重新加载配置文件，并不会派发请求。祥见：nginx平台初探

纠结过程

为什么我会纠结呢？

上面提到的Nginx
fpm一开始其实是一个第三方管理软件，类似spawn-cgi，说白了就是负责启动php-cgi进程的，那PHP官方把它整合进来作为官方的php-cgi管理工具后，会委以「派发请求」这样的重任吗？

早上和同事一起纠结了一下，纠结过程如下：

strace对比master和worker的行为，同事把Nginx和fpm都设置成了1个worker进程观察，得出结论是不会经过fpm的master进程

strace -e network -p fpm_master_pid
strace -e network -p fpm_worker_pid

放狗，发现另外一种说法，见：关于fastcgi和php-fpm的疑惑，引用如下

master进程并不接收和分发请求,而是worker进程直接accpet请求后poll处理.

master进程不断调用epoll_wait和getsockopt是用来异步处理信号事件和定时器事件.

这里提一下,Nginx也类似,master进程并不处理请求,而是worker进程直接处理, 不过区别在于Nginx的worker进程是epoll异步处理请求,而PHP-FPM仍然是poll.

把master干掉，看请求是否可以正常处理，经实际测试，master干掉后，worker依然在，请求也可以正常处理。

kill -HUP fpm_master_pid

其他

worker进程数量不够的时候，显然是manager启动了更多进程，这个时候是manager怎么知道的

答：PHP源码分析 – PHP-FPM运行模式详解，看起来就是满足下面的条件就会执行 fpm_children_make

1. idle < pm_min_spare_servers
2. running_children < pm_max_children
3. MIN(MIN(idle_spawn_rate, pm_min_spare_servers - idle), pm_max_children - running_children) > 0

nginx中配置的fastcgi_pass默认是fastcgi的监听端口，这个配置的意义是什么？

答：浅谈多进程程序的进程控制和管理方式，主要看「多进程下的套接字」，这段文字解释了为什么多进程不需要派发，因为它socket是多进程共享的

纠结论

fpm的master并不承担派发请求的角色。

特别鸣谢纠结侠：郑导（C好厉害）

其他资料

NGINX 1.9.1 新特性：套接字端口共享
python使用master worker管理模型开发服务端，里面提到各种进程信号

Others

PHP

一	二	三	四	五	六	日
« 5月
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

https证书链

通过XFW访问MySQL无返回的问题

1. 症状概述

2. 排查过程

2.1 MySQL版本

2.1.1 SUSE系统

2.1.2 CentOS系统

2.2 TCP的问题

2.2.1 SUSE系统

2.2.2 CentOS系统

3. 解决

3.1 libkeepalive.so

3.2 内核参数

其他

ZZ：拷贝ibd文件的方式迁移数据

ZZ：高效的 Linux 限流神器 Trickle

PHP的master与worker进程关系的一点纠结

纠结的起点

纠结过程

其他

纠结论

其他资料

Search

文章归档

分类目录

链接表

功能

https证书链

通过XFW访问MySQL无返回的问题

1. 症状概述

2. 排查过程

2.1 MySQL版本

2.1.1 SUSE系统

2.1.2 CentOS系统

2.2 TCP的问题

2.2.1 SUSE系统

2.2.2 CentOS系统

3. 解决

3.1 libkeepalive.so

3.2 内核参数

其他

ZZ：拷贝ibd文件的方式迁移数据

ZZ：高效的 Linux 限流神器 Trickle

PHP的master与worker进程关系的一点纠结

纠结的起点

纠结过程

其他

纠结论

其他资料

Search

标签

文章归档

分类目录

链接表

功能