环境
基于centsOS 7
ss5-3.8.9-8
下载源文件
1 | wget https://nchc.dl.sourceforge.net/project/ss5/ss5/3.8.9-8/ss5-3.8.9-8.tar.gz |
安装
1 | tar xf ss5-3.8.9-8.tar.gz |
启动脚本加执行权限
1 | chmod +x /etc/init.d/ss5 |
进行配置并启动
1 | vi /etc/sysconfig/ss5 |
基于centsOS 7
ss5-3.8.9-8
1 | wget https://nchc.dl.sourceforge.net/project/ss5/ss5/3.8.9-8/ss5-3.8.9-8.tar.gz |
1 | tar xf ss5-3.8.9-8.tar.gz |
1 | chmod +x /etc/init.d/ss5 |
1 | vi /etc/sysconfig/ss5 |
最近项目需要爬取一些网站的数据,于是我开始了爬虫生涯。以前只是简单的玩过一些爬虫,了解过nutch
(分布式爬虫),Python下的scrapy等爬虫项目。因为公司的技术栈都是基于Java的,所以我简单的看了下
GitHub,选择了code4craft的webmagic
作为项目的基础组件。
Docker 有个好处就是方便折腾,下面将使用bijukunjummen 提供的docker-rabbitmq-cluster 脚本进行安装。
因为国内服务器无法访问google,所以服务器需要科学上网
可以看我之前的文章,服务器科学上网
因为服务器使用的需要从google下载东西,但是在现在的环境下是无法下载的,所以就整理了一下下面的方法进行服务器科学上网。
CentOS 7 上安装git 的几种方法。