GPU并行计算学习

2016年04月19日作者 夜行人

因为好奇，想学点新东西，所以有了一点断断续续的测试，还有本文

GPU有多强

以Nvidia GT 740为例，500块左右，有384个核，而目前台式机，强劲的i7也只有4核8线程啊，所以显卡非常适合做并行计算。

对于服务器级别的，如Nvidia的K或者M系列，核数则可以去到2000-4000，当然价格也比较感人，上万块。

再来看一点亲测的数据，一个6位包含小写字母和数字的Linux密码，用CPU和GPU去破解，他们之间的耗时

# GPU
time ./john --format=sha512crypt-opencl ~/passwordsdb
# CPU
time ./john ~/passwordsdb

处理器	时间（分钟）
GPU	34
CPU	170

应用领域

目前已经有云供应商提供GPU计算服务，我们大概可以把GPU运算应用于

各种Crack
深度学习，如Caffee
挖矿

并行计算标准

CUDA，Nivia only，官网提供了Win、Linux、MAC全平台的工具包
OpenCL，苹果推出，兼容Nivdia、AMD、Intel，据查资料，部分ARM架构的GPU也支持

Kali

大名鼎鼎的安全发行版，版本是「kali-linux-2016.1-amd64.iso」

安装Nivdia工具

apt-get -y install nvidia-cuda-toolkit libssl-dev 
# 列出显卡
nvidia-smi -L
# 以下为上面的指令输出
GPU 0: GeForce GT 740 (UUID: GPU-8c5c127a-1628-f75e-bde2-61b202fe83b3)

如果安装不成功，也可以参考下面的文档继续折腾下，在线安装比较卡，推荐另外一个源

Install NVIDIA Drivers on Kali

vim /etc/apt/sources.list
#中科大kali源  推荐，快
deb http://mirrors.ustc.edu.cn/kali kali-rolling main non-free contrib
deb-src http://mirrors.ustc.edu.cn/kali kali-rolling main non-free contrib
deb http://mirrors.ustc.edu.cn/kali-security kali-current/updates main contrib non-free
deb-src http://mirrors.ustc.edu.cn/kali-security kali-current/updates main contrib non-free

安装JohnTheRapper

john比较智能，不需要指定密码组成字符集就可以运行，它会先用single-mode，然后是wordlist with rules，最后是incremental mode

Kali自带John，但不支持GPU，所以需要手工安装一个

# 需要用github上的最新版，否则编译报错
cd /dist/src
git clone https://github.com/magnumripper/JohnTheRipper.git
cd JohnTheRapper
# 默认不开启CUDA，需要显式开启，不过意义不大，因为在OpenCL下比CUDA更快
./configure --enable-cuda
make -s -j 5
cd ../run

列出OpenCL设备

# 列出OpenCL设备
./john --list=opencl-devices
Platform #0 name: NVIDIA CUDA, version: OpenCL 1.2 CUDA 7.5.23
    Device #0 (0) name:     GeForce GT 740
    Device vendor:          NVIDIA Corporation
    Device type:            GPU (LE)
    Device version:         OpenCL 1.2 CUDA
    Driver version:         352.79 [recommended]
    Native vector widths:   char 1, short 1, int 1, long 1
    Preferred vector width: char 1, short 1, int 1, long 1
    Global Memory:          1023.10 MB
    Global Memory Cache:    32.0 KB
    Local Memory:           48.0 KB (Local)
    Max memory alloc. size: 255.2 MB
    Max clock (MHz):        1058
    Profiling timer res.:   1000 ns
    Max Work Group Size:    1024
    Parallel compute cores: 2
    CUDA cores:             384  (2 x 192)
    Speed index:            406272
    Warp size:              32
    Max. GPRs/work-group:   65536
    Kernel exec. timeout:   yes
    PCI device topology:    01:00.0

列出CUDA设备

./john --list=cuda-devices
CUDA runtime 7.0, driver 7.5 - 1 CUDA device found:

CUDA Device #0
    Name:                          GeForce GT 740
    Type:                          discrete
    Compute capability:            3.0 (sm_30)
    Number of stream processors:   384 (2 x 192)
    Clock rate:                    1058 Mhz
    Memory clock rate (peak)       2500 Mhz
    Memory bus width               128 bits
    Peak memory bandwidth:         80 GB/s
    Total global memory:           1023.10 MB
    Total shared memory per block: 48.0 KB
    Total constant memory:         64.0 KB
    L2 cache size                  256.2 KB
    Kernel execution timeout:      Yes
    Concurrent copy and execution: One direction
    Concurrent kernels support:    Yes
    Warp size:                     32
    Max. GPRs/thread block         65536
    Max. threads per block         1024
    Max. resident threads per MP   2048
    PCI device topology:           01:00.0

测试破解密码

Linux

不同版本的Linux，所用加密方式不一样，可以用下面的指令查看Linux系统的加密方式

grep ^ENCRYPT_METHOD /etc/login.defs
# 输出
ENCRYPT_METHOD SHA512

# 将用户名和hash后的密码整合下
unshadow /etc/passwd /etc/shadow > ~/passwordsdb
# OpenCL
./john --format=sha512crypt-opencl ~/passwordsdb
# CUDA
./john --format=sha512crypt-cuda ~/passwordsdb
# 再次查看破解后的密码
./john --show ~/passwordsdb

普通MD5

# GPU
time ./john --format=raw-MD5-opencl ~/md5_password.txt
time ./john --format=raw-MD5 ~/md5_password.txt

MAC

去官网找到对应的dmg下载安装即可，有一个CUDA-Z的工具，可以检测到CUDA设备

测试破解

# 密码构成字符集
echo -n 'abcdefghijklmnopqrstuvwxyz0123456789' > charsets/charsetall
# md5后的密码
echo -n 'e99a18c428cb38d5f260853678922e03' > test_hashes/Hashes-MD5.txt
# 开始破解
./Cryptohaze-Multiforcer  -h MD5 -c charsets/charsetall -f test_hashes/Hashes-MD5.txt --min=4 --max=9

其他

Kali上的信息查看工具

glxinfo

如果glxinfo提示direct rendering为yes说明显卡3D加速已经激活

glxinfo |grep -i 'direct rendering'
# 以下为输出内容
direct rendering: Yes

nvidia-settings

可以看到很详细的信息，包括GPU核心数，当前负载

apt-get install nvidia-settings
# 直接运行
nvidia-settings

请看图

参考文档

Linux, Security

ChatOps:Hubot和BearyChat简介

2016年04月9日作者 夜行人

目标

快速做到任何有网的地方可以处理

背景说明

我们部分服务是内网的，也就是出了公司就无法处理，或者需要打开电脑，需要vpn，相对来说，有一点不方便
一个功能开发是需要时间的，例如一个审批流程，涉及逻辑，界面，测试
假设我们现在有个git仓库，代码提交后，我们希望做一些事情，但前提是在做之前，需要人工审核下提交的内容，如何可以做到不用开电脑，不用vpn，用一台手机就可以快速地进行处理？BearyChat就可以，如果需要更强大，更方便，可以整合Hubot

BearyChat的2个机器人

BearyChat自带了2个机器人，Incoming和Outgoing，现在让我们来看看如何用他们来把我们的审核流程串起来

注册BearyChat，进去后，添加一个讨论组，例如叫abc
去到机器人管理，添加Incoming机器人，给它一个名字，例如叫chathubot，选择发给它的内容要转发到哪里，我们选择发送到abc，这时会得到一个hook地址，还有说明文档，我们拿到hook地址
在git里部署hook，和svn一样，git钩子分2种：客户端和服务器端，本例中，比较理想是用服务器端的post-receive，但查了资料，gitbucket并不支持服务器端钩子，那本例中只能用post-commit这个本地钩子，钩子代码见下面
此时，git提交的diff内容和版本号已经发送到abc讨论组了，我们来设置Outgoing，设置名字后，设置“触发词”和“POST地址”，就是定义在聊天里发送了什么内容，触发BearyChat这个Outing机器人，向“POST地址”提交内容。我们设置触发词为「!upgit」，post地址为我们httpsqs的地址
我们安装BearyChat客户端或者在网页端，选择abc讨论组，发送「!upgit 1ae4082」，「1ae4082」为本次git提交的版本号，这时机器人就会把一段信息发送到httpsqs，发送的消息内容见下文
从httpsqs获取内容并做操作，好像没什么好说的了

post-commit

#!/usr/local/bin/python2.7
#-*- encoding:UTF-8 -*- 
# johncan 2016-04-03 17:32:17

import sys  
reload(sys)
sys.setdefaultencoding('utf8')

import commands
import requests
import json

incommint_url='https://hook.bearychat.com/xxxx'
git_ci_content = commands.getoutput('/usr/bin/git log -1 -p pre-commit')

payload = {"text":git_ci_content}

headers = {'content-type': 'application/json'}
r = requests.post(incommint_url, data=json.dumps(payload), headers=headers)
# print r.content

Outgoing机器人post的消息内容参考

{
    "channel_name": "abc",
    "subdomain": "xxxx",
    "text": "!upgit 1ae4082",
    "token": "xxxx",
    "trigger_word": "!upgit",
    "ts": 1459824707044,
    "user_name": "xxxx"
}

和Hubot整合

这个对于我们目前的需求来说，不是必须的

安装Hubot

一些说明

环境说明：CentOS 6.2 64bit
Hubot很多东西都是通过环境变量来设置

# 设置debug模式
export HUBOT_LOG_LEVEL="debug"
# 设置监听端口
export EXPRESS_PORT=8081

开始安装

yum install nodejs npm redis -y
# 此处请修改redis安全配置，然后启动redis
# 网上也有资料说不用redis也可以
/etc/init.d/redis start
npm install -g coffee-script hubot yo generator-hubot
# 比较奇怪，用root初始化hubot会出错，下面用普通用户初始化hubot
useradd bchubot
su - bchubot
sudo mkdir /data/bchubot
cd /data
sudo chown bchubot.bchubot bchubot
cd bchubot
yo hubot
npm install hubot-bearychat --save

BearyChat添加Hubot

去到机器人管理，添加Hubot，这里会生产一个Token，复制Token

启动hubot

export HUBOT_BEARYCHAT_TOKENS='token_from_bearycaht'
export EXPRESS_PORT=8081
/data/bchubot/bin/hubot -a bearychat

BearyChat填写Hubot地址

http://hubot_ip:hubot_port/

此时可以测试发送消息给hubot，测试指令精选

# hubot会回PONG
ping
# 会发送一张gif的http地址
pug me

Hubot的动作是需要用coffee-sctipts写的，没有深入研究

其他

hubot的启动

网上很多资料都说可以直接运行hubot就可以跟它聊天，我测试是不行的，campfire是它的默认插件，所以，最简单的应该是这个指令

hubot -a campfire

post提交数据类型

如果data中含有换行符和&等字符，需要用这种方式发，当时在这里耗了一天的时间

import json
url = 'https://api.github.com/some/endpoint'
payload = {'some': 'data'}
headers = {'content-type': 'application/json'}

r = requests.post(url, data=json.dumps(payload), headers=headers)

更多可以参考Requests的文档

一个用Hubot做发布的案例

湾区日报的第一个“员工”：Slack/Hubot

Others

ChatOps, Ops

2012上的hyper-v，设置超过1个cpu，就上不了网

2016年03月10日作者 夜行人

系统环境

物理机：Windows 2012 64bit hyper-v
虚拟机：CentOS 6.2 64bit

问题症状

在hyper-v上设置1个CPU，虚拟机可以正常上网，一旦设置超过1个CPU，系统就无法上网

问题解决

原来是irqbalance引起：

# 设置irqbalance开机不启动，然后重启虚拟机
chkconfig irqbalance off

进一步处理

在CentOS上安装微软的虚拟化工具：Linux Integration Services 3.5，安装后，也是没有解决这个问题，还是要把irqbalance关掉，在处理完这个之后，我测试一个绑定CPU的程序，结果提示无法绑定

最后结论

微硬对Linux的兼容性真不敢恭维

参考：

Linux, 虚拟化

Hyper-V

当du遇上硬链接

2016年03月8日作者 夜行人

同一个目录，大小前后不一致

昨天重新看了zimbra的备份，发现源已经降到200G了，但同步后的目标目录还有300G，百思不得其解。用du看目录大小，也遭遇了很奇怪的现象，来看下面的命令

# 下面的命令得出的大小是700M
du -sh 106
# 下面的命令会先后（注意这个先后）匹配出100、106、108，得出106是300M
du -sh 10*

解决过程

按照惯例，如此奇葩的问题，当然要抛出来给大家看看，同事的处理过程

# 当我们调整下目录的顺序
# 得出的大小和上面单独检查106的大小是一样的
du -sh 106 100 108

strace跟踪，发现有SYMLINK字样，0代表是具有相同链接的文件只统计一次，这里也解释了为什么把目录的顺序调整下，大小就不一样，因为前面统计了，后面的就不统计

AT_SYMLINK_NOFOLLOW
newfstatat(6, "4540-21500.msg", {st_mode=S_IFREG|0640, st_size=2590, ...}, AT_SYMLINK_NOFOLLOW) = 0

查找链接

首先是软链接

# 可惜没有找到
find . -type l

那么就是硬链接啦，没有什么好办法，只好统计下具有相同inode节点文件个数

ls -liR | awk '{print $1}' | sort | uniq -c | sort -k1r

解决rsync后目录变大的问题

其实zimbra官方提供的备份脚本，rsync带有HK参数，其中H就是处理硬链接，而我们只用了av，解决办法就是加上HK

rsync -avHK

Linux

Zimbra

bashrc的加载问题

2016年02月23日作者 夜行人

今天遇到了一个奇怪的问题，CentOS 6.7 64bit，在普通用户（user）的$HOME目录下有一个.bashrc，里面定义了该用户应该有的PATH

情况一、通过下面的操作可以找到命令

su - user
which cmd

情况二、通过下面的操作找不到命令

su - user -c 'which cmd'

最后对比了bash版本，发现正常的机器，bash是4.2.10版本，而有问题的机器，是上次bash漏洞，修复了，顺便就升级到4.3，从其他机器拷贝4.2.10版本的bash到该机器，并修改user的登录shell

mkdir /usr/local/bash_4.2
scp ip:/bin/bash /usr/local/bash_4.2/bash
vi /etc/passwd
修改user的登录shell为/usr/local/bash_4.2/bash

测试正常

Linux, Shell

2025年十一月
一	二	三	四	五	六	日
« 5月
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

GPU并行计算学习

GPU有多强

应用领域

并行计算标准

Kali

安装Nivdia工具

安装JohnTheRapper

测试破解密码

Linux

普通MD5

MAC

其他

Kali上的信息查看工具

glxinfo

nvidia-settings

参考文档

ChatOps:Hubot和BearyChat简介

目标

背景说明

BearyChat的2个机器人

和Hubot整合

安装Hubot

BearyChat添加Hubot

启动hubot

BearyChat填写Hubot地址

其他

hubot的启动

post提交数据类型

一个用Hubot做发布的案例

2012上的hyper-v，设置超过1个cpu，就上不了网

系统环境

问题症状

问题解决

进一步处理

最后结论

当du遇上硬链接

同一个目录，大小前后不一致

解决过程

查找链接

解决rsync后目录变大的问题

bashrc的加载问题

Search

标签

文章归档

分类目录

链接表

功能