Category Archives: 服务器

在PHP中使用HTTP Proxy(HTTP代理)来访问网络资源

1. 最简单的方法
连接HTTP代理,给它发一个GET的HTTP头。
指令如下:
telnet proxy.example.com 8080
GET http://www.example.com/some/url.html HTTP/1.0
Host: whatever

最后要跟一个空行表示结束。完了就赶紧读取代理返回的数据就好了。返回的数据是不带HTTP头的文件真实内容。

2. 用CONNECT指令
上面的例子用于获取一个资源时非常简单,但它也有定制性差的缺点:只能做一些非常简单的应用,想发送一个HEAD请求,或自定义下HTTP请求头的话,这种方法行不通。
CONNECT是这么样的一个指令:允许你先连接上代理服务器,返回连接状态后,再接收HTTP请求头,并帮你转发给目标服务器。
看指令:
> telnet 10.6.234.33 8080
Trying 10.6.234.33…
Connected to 10.6.234.33.
Escape character is ‘^]’.
CONNECT 10.6.234.33:8080 HTTP/1.0
Host: 10.6.234.33:8080

HTTP/1.1 200 Connection established

HEAD http://www.example.com/css/global.css HTTP/1.1
Host: www.example.com
Accept: */*
Proxy-Connection: Keep-Alive

HTTP/1.1 200 OK
Server: NWS-imgcache
Date: Wed, 17 Nov 2010 04:28:21 GMT
Expires: Wed, 17 Nov 2010 05:28:21 GMT
Cache-Control: max-age=3600
Last-Modified: Mon, 08 Nov 2010 11:01:49 GMT
Content-Type: text/css
Content-Length: 29703
X-Cache-Lookup: MISS from proxy:8080

Connection closed by foreign host.

空行分隔,分别是用户输入、服务器返回、用户输入、服务器返回。

看PHP实现的一个例子。proxy.zip

Linux获取硬件标识

1. gethostid()

首先,unistd.h中有提供一个获取主机标识的函数: gethostid(); 可以返回一个以32位整数表示的标识符,它是由机器的IP经过移位后得到的。

long hostid = gethostid();

正因为这个hostid是由IP地址转换得来的,我们可以用它来快速获得当前机器的主IP:

如hostid为:AABBCCDD,则IP为 BB.AA.DD.CC,当然各个部分还得转换成二进制数。

2. Get harddisk Product ID

这步的关键是ioctl的使用。首先,以只读的方式打开硬盘设备,给ioctl的第一个参数传递fd, 第二个参数传递HDIO_GET_IDENTITY,第三个地址是out类型参数,给它一个struct hd_driveid的结构体指针即可。

ioctl(fd, HDIO_GET_IDENTITY, &hid);

3. Get MAC address

MAC地址的获取也是通过ioctl。

4. Get CPU ID

这个就是汇编了。

见附件。

mac.c ip.c hostid.c cpuid.c disk.c

又见Bash炸弹

今天一位同事在编码时不小心,忘记给循环加break。导致开发机(虚拟机)负载过高而无响应。ping值忽高忽低,ssh连不上,mysql连接超时。
这不禁让人想起大名鼎鼎的Bash炸弹:

:(){ :|:& };:

在Bash中,冒号(:)是可以做为函数名的,所以这个炸弹也就很容易理解了:
1. 定义一个函数
2. 函数体中,递归调用此函数,并把输出重定向到管道。
3. Bash中,函数调用是会启动新进程的,而管道后端又启动一个进程。
4. 管道启动的新进程又会继续递归启用管道、启动新进程。
5. & 符号把任务置于后台运行,避免终端交互。
6. 连锁反应会继续,直接到达内核资源限制。若无限制,则直接会把服务器拖死。

Perl 版本炸弹

perl -e “fork while fork” &

Python版本炸弹

import os
while(1):
os.fork()

Windows XP 批处理

:bomb
start %0
goto bomb

C语言版本

int main() { while(1) fork(); }

如何防范?

通过限制用户对资源的占用来防止。因为此类炸弹是用耗尽系统资源来达到攻击目的的。Linux的限制方法有:
ulimit 命令 或者 /etc/security/limits.conf

LINUX命令xargs的简单应用及举例

xargs
大多数 Linux 命令都会产生输出:文件列表、字符串列表等。但如果要使用其他某个命令并将前一个命令的输出作为参数该怎么办?例如,file 命令显示文件类型(可执行文件、ascii 文本等);您可以处理输出,使其仅显示文件名,现在您希望将这些名称传递给 ls -l 命令以查看时间戳记。xargs 命令就是用来完成此项工作的。它允许您对输出执行其他某些命令。记住下面这个来自于第 1 部分中的语法:

file -Lz * | grep ASCII | cut -d”:” -f1 | xargs ls -ltr

让我们来剖析这个命令字符串。第一个,file -Lz *,用于查找是符号链接或者经过压缩的文件。它将输出传递给下一个命令 grep ASCII,该命令在其中搜索 “ASCII” 字符串并产生如下所示的输出:
alert_DBA102.log: ASCII English text
alert_DBA102.log.Z: ASCII text (compress’d data 16 bits)
dba102_asmb_12307.trc.Z: ASCII English text (compress’d data 16 bits)
dba102_asmb_20653.trc.Z: ASCII English text (compress’d data 16 bits)

由于我们只对文件名感兴趣,因此我们应用下一个命令 cut -d”:” -f1,仅显示第一个字段:
alert_DBA102.log
alert_DBA102.log.Z
dba102_asmb_12307.trc.Z
dba102_asmb_20653.trc.Z

现在,我们希望使用 ls -l 命令,将上述列表作为参数进行传递,一次传递一个。xargs 命令允许您这样做。最后一部分,xargs ls -ltr,用于接收输出并对其执行 ls -ltr 命令,如下所示:

ls -ltr alert_DBA102.log
ls -ltr alert_DBA102.log.Z
ls -ltr dba102_asmb_12307.trc.Z
ls -ltr dba102_asmb_20653.trc.Z

因此,xargs 本身虽然没有多大用处,但在与其他命令相结合时,它的功能非常强大。

下面是另一个示例,我们希望计算这些文件中的行数:

$ file * | grep ASCII | cut -d”:” -f1 | xargs wc -l
47853 alert_DBA102.log
19 dba102_cjq0_14493.trc
29053 dba102_mmnl_14497.trc
154 dba102_reco_14491.trc
43 dba102_rvwr_14518.trc
77122 total

(注:上述任务还可用以下命令完成:)

$ wc -l ‘file * | grep ASCII | cut -d”:” -f1 | grep ASCII | cut -d”:” -f1‘

该 xargs 版本用于阐释概念。Linux 可以用几种方法来完成同一个任务;请使用最适合您的情况的方法。

使用该方法,您可以快速重命名目录中的文件。

$ ls | xargs -t -i mv {} {}.bak

-i 选项告诉 xargs 用每项的名称替换 {}。-t 选项指示 xargs 先打印命令,然后再执行。

另一个非常有用的操作是当您使用 vi 打开要编辑的文件时:

$ file * | grep ASCII | cut -d”:” -f1 | xargs vi

该命令使用 vi 逐个打开文件。当您希望搜索多个文件并打开它们进行编辑时,使用该命令非常方便。

它还有几个选项。最有用的可能是 -p 选项,它使操作具有可交互性:

$ file * | grep ASCII | cut -d”:” -f1 | xargs -p vi
vi alert_DBA102.log dba102_cjq0_14493.trc dba102_mmnl_14497.trc dba102_reco_14491.trc dba102_rvwr_14518.trc ?…

此处的 xarg 要求您在运行每个命令之前进行确认。如果您按下 “y”,则执行命令。当您对文件进行某些可能有破坏且不可恢复的操作(如删除或覆盖)时,您会发现该选项非常有用。

-t 选项使用一个详细模式;它显示要运行的命令,是调试过程中一个非常有帮助的选项。

如果传递给 xargs 的输出为空怎么办?考虑以下命令:

$ file * | grep SSSSSS | cut -d”:” -f1 | xargs -t wc -l
wc -l
0
$

在此处,搜索 “SSSSSS” 后没有匹配的内容;因此 xargs 的输入均为空,如第二行所示(由于我们使用 -t 这个详细选项而产生的结果)。虽然这可能会有所帮助,但在某些情况下,如果没有要处理的内容,您可能希望停止 xargs;如果是这样,可以使用 -r 选项:
$ file * | grep SSSSSS | cut -d”:” -f1 | xargs -t -r wc -l
$

如果没有要运行的内容,该命令退出。

假设您希望使用 rm 命令(该命令将作为 xargs 命令的参数)删除文件。然而,rm 只能接受有限数量的参数。如果您的参数列表超出该限制怎么办?xargs 的 -n 选项限制单个命令行的参数个数。

下面显示了如何限制每个命令行仅使用两个参数:即使向 xargs ls -ltr 传递五个文件,但每次向 ls -ltr 仅传递两个文件。

$ file * | grep ASCII | cut -d”:” -f1 | xargs -t -n2 ls -ltr
ls -ltr alert_DBA102.log dba102_cjq0_14493.trc
-rw-r—– 1 oracle dba 738 Aug 10 19:18 dba102_cjq0_14493.trc
-rw-r–r– 1 oracle dba 2410225 Aug 13 05:31 alert_DBA102.log
ls -ltr dba102_mmnl_14497.trc dba102_reco_14491.trc
-rw-r—– 1 oracle dba 5386163 Aug 10 17:55 dba102_mmnl_14497.trc
-rw-r—– 1 oracle dba 6808 Aug 13 05:21 dba102_reco_14491.trc
ls -ltr dba102_rvwr_14518.trc
-rw-r—– 1 oracle dba 2087 Aug 10 04:30 dba102_rvwr_14518.trc

使用该方法,您可以快速重命名目录中的文件。

$ ls | xargs -t -i mv {} {}.bak

-i 选项告诉 xargs 用每项的名称替换 {}。

我需要将一个用.svn管理的项目改成由CVS来管理,因此,在导入整个项目到CVS中之前,我需要删除所有目录下以及子孙目录下的.svn目录及.svn目录下的的子目录和文件。我一直寻找一种最简单的方法,最后写了一个程序去干这事情。结果同事告诉我只需要一条指令就可以了:find -name ‘.svn’ |xargs rm -rf
这个教训非常惨重,我一生讨厌傻瓜,可那一刻发现自己是最大的傻瓜!

是的,虽然我们——至少是我,天天使用LINUX但是真的是在高效的使用这个系统吗?不,很多时候并没有花时间去研究它,使用一些固有愚蠢的方式和思维模式在使用这个系统。

1. 建立多级目录:

mkidr 指令用来建立目录,事实上,我们一直都是这么干的。但是在这么使用的时候我们并没有去看它的那些参数提供了哪些额外的功能.

mkidr -p /share/dragon ; 在根目录下建立share目录,并在/share目录下建立dragon目录。mkdir -p guicmd/{bin,lib,src,share/version,doc/{html,pdf,info,man}}
;用来建立一个复杂的项目目录树。

2.find 配合xargs使用:

find -name ‘.svn’ |xargs rm -rf ;这个不用说了,就是我前面提到的。
xargs更加象一个筛选器,将符合管道传递过来的文件名的内容一并处理掉,这是一个极度高效的方法。

rsync 错误与解决方案收集

问题一:
@ERROR: chroot failed
rsync error: error starting client-server protocol (code 5) at main.c(1522) [receiver=3.0.3]

原因:
服务器端的目录不存在或无权限,创建目录并修正权限可解决问题。

问题二:
@ERROR: auth failed on module tee
rsync error: error starting client-server protocol (code 5) at main.c(1522) [receiver=3.0.3]

原因:
服务器端该模块(tee)需要验证用户名密码,但客户端没有提供正确的用户名密码,认证失败。
提供正确的用户名密码解决此问题。

问题三:
@ERROR: Unknown module ‘tee_nonexists’
rsync error: error starting client-server protocol (code 5) at main.c(1522) [receiver=3.0.3]

原因:
服务器不存在指定模块。提供正确的模块名或在服务器端修改成你要的模块以解决问题。

nginx 下QUERY_STRING 的一个bug

配置选项:
location / {
root “D:/xampp/htdocs/teeume.com”;
try_files $uri /t.php;
}

实现重写后,我们用 /search/?q=test 请求,会发现$_GET[‘q’] 无值,$_SERVER[‘QUERY_STRING’]无值。

这就影响了正常的取值方式。
我们做如下修正:
$uri = $_SERVER[‘REQUEST_URI’];
$uri = strtok($uri, ‘?’);
$qs = $_SERVER[‘QUERY_STRING’] = strtok(‘?’);
parse_str($qs, $qs_arr);
$_REQUEST = array_merge($_REQUEST, $qs_arr);

Coreseek Fulltext Search

资料准备

http://www.coreseek.cn/products/ft_down/

下载csft和mmseg,并且分别解压到~/coreseek

安装

开始编译mmseg

./configure –prefix=/usr/local/mmseg

make && make install

复制词库

cp -R ~/coreseek/mmseg-3.1/data /usr/local/mmseg/

生成词库

cd /usr/local/mmseg/data

../bin/mmseg -u unigram.txt

mv unigram.txt.uni uni.lib

开始编译sphinx (coreseek)

./configure –with-mmseg=/usr/local/mmseg –with-mmseg-includes=/usr/local/mmseg/include/mmseg –with-mmseg-libs=/usr/local/mmseg/lib –prefix=/usr/local/csft

make && make install

特别要注意的是mmseg/include下还有一层文件夹,必须写成–with-mmseg-includes=/usr/local/mmseg/include/mmseg,否则出错。

配置

创建/usr/local/csft/etc/csft.conf,内容参见附件,但必须注意的几点:

1. 防止中文乱码

sql_query_pre = SET NAMES utf8

2. 加载中文词库

index test1

{

source = src1

path = /usr/local/csft/var/data/test1

docinfo = extern

charset_type = zh_cn.utf-8

charset_dictpath = /usr/local/mmseg/data

}

数据库的建立要注意utf8编码,可以直接下载附件在phpmyadmin导入。

使用Sogou的词库

搜狗提供了一个优秀的词库,地址在:http://www.sogou.com/labs/dl/w.html,许可证位于:http://www.sogou.com/labs/dl/license.html

但Sogou的词库和mmseg的格式还是有差别的,需要自己转换格式。

为了方便,我在研究的同时写了一个小程序,用于转换工作,感兴趣的可以在附件处下载。(有小BUG,自己解决,呵呵)

附件也有我转换好的版本,可以直接使用。

PHP中使用sphinx (coreseek)

可以直接安装扩展http://pecl.php.net/package/sphinx

或者使用coreseek包中自带的csft-3.1/api/sphinxapi.php

附件中有使用例子(PHP扩展方式)。

附录(附件列表)

附件下载:mmseg.zip

apache mod_negotiation与MultiViews的奥妙

今天遇到一个奇怪的问题,取URL请求字符串时,明明访问的是/index/welcome/,取回来的却是/welcome/。
框架在处理这个问题时的处理流程是:

$php_self = $_SERVER[‘PHP_SELF’];
$uri = $_SERVER[‘REQUEST_URI’];

if (isset($_SERVER[‘PATH_INFO’])) {
$uri = $_SERVER[‘PATH_INFO’];
} else {
$uri = substr($uri, strlen(dirname($php_self)) );
}
$uri[0]!=’?’ || $uri = “/$uri”;
$uri = strtok($uri, ‘?’);

先判断PATH_INFO,然后再处理其他情况。
但我这里直接是http://xxx.com/index/welcome/ 怎么会存在PATH_INFO变量呢?
后来打印$_SERVER变量时发现,apache认为我访问的这个链接是/index.php/welcome/ !
原来apache可以在访问/path/foo时,如果找不到/path/foo,就会去找/path/foo.*,并且选一个合适的返回来,为你服务。
我这里存在着/index.php,所以访问/index/welcome/时,它就自动去找/index.php了!
而这些功能是一个模块提供的,它的名字叫mod_negotiation。相关说明:http://httpd.apache.org/docs/2.2/content-negotiation.html
同时,这个模块还提供了一个目录级别的控制开关,也就是

Sed Skills

测试的环境:
[service@gan .ssh]$ uname -a
Linux gan 2.4.21-20.EL #1 SMP Wed Aug 18 20:34:58 EDT 2004 x86_64 x86_64 x86_64 GNU/Linux

[service@gan .ssh]$ sed -V
GNU sed version 4.0.7
Copyright (C) 2003 Free Software Foundation, Inc.
This is free software; see the source for copying conditions. There is NO
warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE,
to the extent permitted by law.

文章出处:http://gan.cublog.cn

1>. 删除普通字符操作
[service@gan .ssh]$ cat dfile.txt
LINE1
LINE2
LINE3
LINE4
LINE5
LINE6
LINE7

删除指定行2
[service@gan .ssh]$ sed ‘2d’ dfile.txt
LINE1
LINE3
LINE4
LINE5
LINE6
LINE7
http://gan.cublog.cn
删除1到5行数据
[service@gan .ssh]$ sed ‘1,5d’ dfile.txt
LINE6
LINE7

删除除1到4行的所有行
[service@gan .ssh]$ sed ‘1,4 !d’ dfile.txt
LINE1
LINE2
LINE3
LINE4

删除1行,3行数据
[service@gan .ssh]$ sed -e ‘1d’ -e ‘3d’ dfile.txt
LINE2
LINE4
LINE5
LINE6
LINE7

删除最后一行数据
[service@gan .ssh]$ sed ‘$d’ dfile.txt
LINE1
LINE2
LINE3
LINE4
LINE5
LINE6
http://gan.cublog.cn
删除3到最后一行
[service@gan .ssh]$ sed ‘3,$d’ dfile.txt
LINE1
LINE2

删除包含4字符的行
[service@gan .ssh]$ sed ‘/4/’d dfile.txt
LINE1
LINE2
LINE3
LINE5
LINE6
LINE7
[service@gan .ssh]$ sed -e ‘/4/d’ dfile.txt
LINE1
LINE2
LINE3
LINE5
LINE6
LINE7

———————
[service@gan .ssh]$ cat dfile.txt
LINE1
LINE2
LINE3http://gan.cublog.cn
LINE4
LINE5
LINE6
LINE7
ABC123
123XXABC
W00–

删除包含4,5字符的行
[service@gan .ssh]$ sed ‘/4/,/5/’d dfile.txt #这种做法不建议使用,因为有时候会不行
LINE1
LINE2
LINE3
LINE6
LINE7
ABC123
123XXABC
W00–
[service@gan .ssh]$ sed ‘/4/d;/5/d’ dfile.txt
LINE1
LINE2
LINE3
LINE6
LINE7
ABC123
123XXABC
W00–
http://gan.cublog.cn
删除开头字符为A和包含5字符的行
[service@gan .ssh]$ sed -e “/^A/d;/5/d” dfile.txt
LINE1
LINE2
LINE3
LINE4
LINE6
LINE7
123XXABC
W00–

这样操作产生的结果不知道是什么,很奇怪的结果
[service@gan .ssh]$ sed -e “/^A/,/5/d” dfile.txt
LINE1
LINE2
LINE3
LINE4
LINE5
LINE6
LINE7

删除空行(用上正侧表达式了)
[service@gan .ssh]$ sed -e ‘/^$/d’ dfile.txt

2>. 特殊字符的删除
[service@gan .ssh]$ cat sp.txt
A”/`!B\C’*<>&%#@~()?{}|+_-=:;K 1
A/`!B\C’*<>&%#@~()?{}|+_-=:;K 2
A`!B\C’*<>&%#@~()?{}|+_-=:;K 3
A!B\C’*<>&%#@~()?{}|+_-=:;K 4
AB\C’*<>&%#@~()?{}|+_-=:;K 5
ABC’*<>&%#@~()?{}|+_-=:;K 6
ABC*<>&%#@~()?{}|+_-=:;K 7
ABC<>&%#@~()?{}|+_-=:;K 8
ABC>&%#@~()?{}|+_-=:;K 9
ABC&%#@~()?{}|+_-=:;K 10
ABC%#@~()?{}|+_-=:;K 11
ABC#@~()?{}|+_-=:;K 12
ABC@~()?{}|+_-=:;K 13
ABC~()?{}|+_-=:;K 14
ABC()?{}|+_-=:;K 15
ABC)?{}|+_-=:;K 16
ABC?{}|+_-=:;K 17
ABC{}|+_-=:;K 18
ABC}|+_-=:;K 19
ABC|+_-=:;K 20
ABC+_-=:;K 21
ABC_-=:;K 22
ABC-=:;K 23
ABC=:;K 24
ABC:;K 25
ABC;K 26
ABCK 27

[service@gan .ssh]$ sed ‘/”/d’ sp.txt
A/`!B\C’*<>&%#@~()?{}|+_-=:;K 2
…… 其他的行省略不写了

[service@gan .ssh]$ sed ‘/\//d’ sp.txt
A`!B\C’*<>&%#@~()?{}|+_-=:;K 3
…… 采用转义字符\
http://gan.cublog.cn
[service@gan .ssh]$ sed ‘/`/d’ sp.txt
A!B\C’*<>&%#@~()?{}|+_-=:;K 4
……
[service@gan .ssh]$ sed ‘/!/d’ sp.txt
AB\C’*<>&%#@~()?{}|+_-=:;K 5
……
[service@gan .ssh]$ sed ‘/\\/d’ sp.txt
ABC’*<>&%#@~()?{}|+_-=:;K 6
…… 采用转义字符\
[service@gan .ssh]$ sed “/’/d” sp.txt
ABC*<>&%#@~()?{}|+_-=:;K 7
…… 使用””符号
[service@gan .ssh]$ sed ‘/*/d’ sp.txt
ABC<>&%#@~()?{}|+_-=:;K 8
…… 后面的其他字符(<>&%#@~()?{}|+_-=:;)同普通字符删除操作一样

对于sed在字符删除部分写的可能还不是很全面,慢慢添加吧。。。