利用PHP的cURL库实现网页抓取

使用PHP的cURL库可以简单和有效地去抓网页。你只需要运行一个脚本,然后分析一下你所抓取的网页,然后就可以以程序的方式得到你想要的数据了。无论是你想从从一个链接上取部分数据,或是取一个XML文件并把其导入数据库,那怕就是简单的获取网页内容,cURL 是一个功能强大的PHP库。本文主要讲述如果使用这个PHP库。

下面是一个利用cURL库抓取网页的简单例子:

<?php
$curl = curl_init(); //初始化一个cURL对象
curl_setopt($curl, CURLOPT_URL, 'http://cocre.com'); //设置你需要抓取的URL
curl_setopt($curl, CURLOPT_HEADER, 1); //设置header
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); //设置cURL参数
$data = curl_exec($curl); //运行cURL,请求网页
curl_close($curl); //关闭URL请求
var_dump($data); //显示获得的数据
?>

阅读更多

Linux环境安装配置Nginx笔记

Nginx

Nginx (读法发音为:”engine x”) 是一个高性能的 HTTP 和 反向代理 服务器,也是一个 IMAP/POP3/SMTP 代理服务器 。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的,它已经在该站点运行超过四年多了。Igor 将源代码以类BSD许可证的形式发布。

这是站长在最近一次安装Nginx时记录的笔记,如有疏漏欢迎提醒,我的信箱是:jasonwei06@hotmail.com

//—————————————-安装环境—————————————-
//Linux版本:CentOS 5.5
//PCRE版本:PCRE 8.11
//Nginx版本:Nginx 0.8.54

阅读更多

Apache虚拟主机设置方法

Apache

1. WWW服务器虚拟主机原理

  WWW服务器虚拟主机是指使用一台物理机器,充当多个主机名的WWW服务器。比如由一台机器同时提供http://www.company1.com 和 http://www.company2.com 等的WWW服务,而浏览这些WWW站点的用户感觉不到这种方式下跟由不同的机器提供不同的服务有什么差别。

  使用WWW虚拟主机的好处在于,一些小规模的网站,通过跟其他网站共享同一台物理机器,可以减少系统的运行成本,并且可以减少管理的难度。另外,对于个人用户,也可以使用这种虚拟主机方式来建立有自己独立域名的WWW服务器,目前国内有很多公司都提供这种免费的服务。

阅读更多

消息称微软将于3月24日发布IE9正式版

Internet Explorer

  北京时间3月2日晚间消息,据知情人士透露,微软可能会在印度班加罗尔举行的Tech.Ed科技大会上发布IE9浏览器最终版本。

  Tech.Ed科技大会将于3月23日至25日举行。在微软MSDN印度公司出现失误,在Tweet上泄露了IE9浏览器上市的消息后,有关这款产品的传闻便开始甚嚣尘上。微软MSDN印度在其官方Twitter账户上发布消息称:“IE9将在3月24日举行的TechEd大会上正式发布。”但随后不久,这则消息从微软MSDN印度的Twitter上被删除。

  消息人士透露,微软Internet Explorer 和Windows Live业务集团总经理布莱恩·霍尔(Brian Hall)将于3月24日在Tech.Ed科技大会上发表主旨演讲,届时,他可能会宣布IE9正式推出的消息。2011年2月初,微软CEO史蒂夫·鲍尔默(Steve Ballmer)曾表示,IE9有望在3月面世。微软在2月10日推出了IE9最终预览版。

  相对于以前版本,IE9最大的变化就是支持多个CSS 3标准,JavaScript性能得到提升,新的WIC解码器还能读取图像中嵌入的色彩配置,包括ICC v2、ICC v4等。其他功能还包括跟踪保护(Tracking Protection),可让用户上网时阻止各种形式的跟踪。此外,用户还能在浏览网页时利用“ActiveX过滤器”关闭ActiveX,以防止被ActiveX控制。IE9还支持新的Chakra脚本引擎以此提高硬件运行速度。

  该版本增加了HTML5视频音频功能,支持Web Open Font Format (WOFF)标准的内嵌字体,同时提供32位和64位两个版本。微软IE浏览器是当前世界使用最广泛的浏览器,但近年来,谷歌Chrome、Mozilla火狐和Safari等浏览器成为这款产品的强劲对手。微软希望通过发布IE9浏览器,重新夺回失去的市场份额。

阅读更多

Google为降低误伤率继续调整搜索算法

Help

  自Google升级针对“内容农场”的新搜索算法以来,有越来越多的知名网站发现自己躺着中枪了。除了我们之前报道过的Digital Inspiration以外,今天Wired.com还报道说最大的Apple主题博客Cult of Mac在此次算法调整后从Google通过搜索过来的流量大跌80%,这导致他们全站的流量下降了33-50%。

  Google的Amit Singhal告诉Wired说他们的新算法确实影响很广,而且强调没有100%准确的算法。他还说Google不会人为的去为某个误伤的网站进行修复,而是要依靠改进的算法解决问题。

  目前新的算法似乎已经在本周一上线了,Cult of Mac的编辑Leander Kahney也确认说他们的网站神奇般的起死回生了。

  另外,人工搜索引擎Mahalo创始人詹森·卡拉卡尼斯(Jason Calacanis)周二表示,受Google调整搜索算法的影响,公司将裁员10%。

  卡拉卡尼斯在致员工的电子邮件中称:“Google调整搜索算法导致我们的流量和营收大幅下降,由于我们已经投入了数百万美元打造高度专业的内容,该结果让我们非常失望。由于流量下滑,Mahalo将裁员10%,并暂停兼职内容创作业务。”

  Google上个月底宣布对搜索算法进行了调整,借此向Demand Media等“内容农场”(Content Farm)宣战。Google在官方博客中称,这次算法更新将对约11.8%的搜索结果造成重创,目的是降低低质量网站的排名,为高质量的网站提供更好的排名。

  相比之下,Demand Media上周则表示,Google调整搜索算法并未给Demand Media带来太大影响。

阅读更多

MySQL优化之索引创建规则

MySQL

  1. 表的主键、外键必须有索引;
  2. 数据量超过300的表应该有索引;
  3. 经常与其他表进行连接的表,在连接字段上应该建立索引;
  4. 经常出现在Where子句中的字段,特别是大表的字段,应该建立索引;
  5. 索引应该建在选择性高的字段上;
  6. 索引应该建在小字段上,对于大的文本字段甚至超长字段,不要建索引;

    阅读更多

站长贴士:“阳光站”正式更名为“阳光部落”

Information
各位朋友,由于近日本站启用了全新的域名www.sunbloger.com,站长为配合域名的特点,因此将小站重新命名为“阳光部落”,原“阳光站”的名字今后将不再继续使用。内容依旧是以技术类为主,如PHP、Java编程,Linux、MySQL、Apache配置维护技巧等。

希望本站友情链接中的各位站长朋友在看到此信息后,能在方便的时候协助更新一下本站的链接信息,详细如下:
站名:阳光部落
网址:http://www.sunbloger.com/
描述:这是一个研究技术,分享经验和记录站长生活的个人主页.

同时,也希望并欢迎更多的站长与本站建立友情链接!

更换新IP后访问恢复正常了

本站前几日一直无法访问,当时我马上意识到可能是所在服务器的IP被墙掉了,应该是虚拟主机上其他网站的内容有问题,我的站也受到了牵连。第一时间上Godaddy购买了SSL,因为Godaddy的SSL是带一个独立IP的,然后就是漫长的等待,终于在昨天SSL设置和解析全部生效,访问恢复了正常…