PHP猎取网页内容注重事项
1、收集会失足,任何毛病都能够。比方机械宕了,网线断了,域名失足了,收集超时了,页面没有了,网站跳转了,效劳被禁了,主机负载不够了…
2、效劳器加上了限定,只让罕见浏览器接见
3、效劳器加上了防盗链的限定
4、某些网站不论你HTTP要求里有无Accept-Encoding头部,也不论你头部具体内容是什么,横竖总给你发gzip后的内容
5、URL链接光怪陆离,带汉字的也罢了,有的以至另有回车换行
6、某些网站HTTP头部里有一个Content-Type,网页里有好几个Content-Type,更太过的是,各个Content-Type还不一样,最太过的是,这些Content-Type能够都不是正文里运用的Content-Type,从而致使乱码
7、收集链接很慢,乘剖析几千个页面的时候,发起你能够好好吃顿饭去了
PHP猎取网页内容的要领
要领一、运用file_get_contents要领完成
$url = "http://news.sina.com.cn/c/nd/2016-10-23/doc-ifxwztru6951143.shtml"; $html = file_get_contents($url); //假如涌现中文乱码运用下面代码 //$getcontent = iconv("gb2312", "utf-8",$html); echo "<textarea style='width:800px;height:600px;'>".$html."</textarea>";
要领二、运用curl完成
$url = "http://news.sina.com.cn/c/nd/2016-10-23/doc-ifxwztru6951143.shtml"; $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 10); curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); $html = curl_exec($ch); curl_close($ch); echo "<textarea style='width:800px;height:600px;'>".$html."</textarea>"; curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
加上这句代码,示意假如要求被重定向时,能够接见到终究的要求页面,不然要求的效果会显现以下内容:
<head><title>Object moved</title></head> <body><h1>Object Moved</h1>This object may be found <a href="some link." rel="external nofoll
引荐教程:PHP视频教程
以上就是php猎取网页内容注重什么的细致内容,更多请关注ki4网别的相干文章!