接口抓取
一、API接口
- 应用程序接口(API),又称为应用编程接口,是软件系统不同组成部分衔接的约定
- API 的一个主要功能是提供通用功能集。程序员通过使用 API 函数开发应用程序,从而可以避免编写无用程序,以减轻编程任务
- API 返回值常用json格式
二、什么是json
JSON 是一种数据格式,并不是编程语言
-
JSON 都是被包裹在一个大括号中 {},通过 key-value 的方式来表达数据。JSON 的 Key 必须包裹在一个双引号中,在实践中,编写 JSON 的时候,忘了给 Key 值加双引号或者是把双引号写成单引号是常见错误。
-
JSON 的值只能是以下几种数据格式,其他任何格式都会触发报错。
- 1, 数字,包含浮点数和整数
- 2, 字符串,需要包裹在双引号中
- 3, Bool 值,true 或者 false
- 4, 数组,需要包裹在方括号中 []
- 5, 对象,需要包裹在大括号中 {}
- 6, Null
三、抓取接口数据
- 我们尽可能找到接口,从接口获取数据更方便
1、第三方接口
- 腾讯开发平台:open.tencent.com
- 阿里巴巴开放平台:open.1688.com
- 百度开放平台:lbsyun.baidu.com
- 聚合数据:www.juhe.cn
2、百度示例:地点检索服务
- key:u9WcDUIQLqFX3D8vNfN3hvAFiXGYueAv
- 文档:http://lbsyun.baidu.com/index.php?title=webapi/guide/webservice-placeapi
- 接口:http://api.map.baidu.com/place/v2/search?query=ATM机®ion=合肥&output=json&ak=u9WcDUIQLqFX3D8vNfN3hvAFiXGYueAv&scope=2&page_size=20&page_num=1
header("Content-Type:text/html;charset=utf8"); $url = 'http://api.map.baidu.com/place/v2/search?query=ATM机®ion=合肥&output=json&ak=u9WcDUIQLqFX3D8vNfN3hvAFiXGYueAv&scope=2&page_size=20&page_num=1'; $ch = curl_init(); // 创建一个新cURL资源 curl_setopt($ch, CURLOPT_URL,$url); // 设置URL curl_setopt($ch, CURLOPT_TIMEOUT, 30); // 设置超时限制防止死循环 curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);// 爬取重定向页面 curl_setopt($ch, CURLOPT_AUTOREFERER, 1); // 自动设置Referer,防止盗链 curl_setopt($ch, CURLOPT_HEADER, 0); // 显示返回的Header区域内容 curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);// 要求结果保存到字符串中还是输出到屏幕上 curl_setopt($ch, CURLOPT_USERAGENT, 'Data');// 在HTTP请求中包含一个"User-Agent: "头的字符串。 $html = curl_exec($ch); // 运行cURL,请求URL,把结果复制给变量 if(curl_errno($ch)){ echo 'Errno'.curl_error($curl); //捕抓异常 } curl_close($ch); // 关闭cURL连接 print_r($html);
3、聚合数据示例:天气预报
- key:abc4b64ae7656b460723402175a5650b
- 文档:https://www.juhe.cn/docs/api/id/73
- 接口:http://apis.juhe.cn/simpleWeather/query
header("Content-Type:text/html;charset=utf8"); $url = 'http://apis.juhe.cn/simpleWeather/query'; $ch = curl_init(); // 创建一个新cURL资源 curl_setopt($ch, CURLOPT_URL,$url); // 设置URL curl_setopt($ch, CURLOPT_TIMEOUT, 30); // 设置超时限制防止死循环 curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);// 爬取重定向页面 curl_setopt($ch, CURLOPT_AUTOREFERER, 1); // 自动设置Referer,防止盗链 curl_setopt($ch, CURLOPT_HEADER, 0); // 显示返回的Header区域内容 curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);// 要求结果保存到字符串中还是输出到屏幕上 curl_setopt($ch, CURLOPT_USERAGENT, 'Data');// 在HTTP请求中包含一个"User-Agent: "头的字符串。 $data = [ 'key' => 'abc4b64ae7656b460723402175a5650b', 'city' => '合肥', ]; curl_setopt($ch, CURLOPT_POST, 1); // 发送一个常规的Post请求 curl_setopt($ch, CURLOPT_POSTFIELDS, $data);// Post提交的数据包 $html = curl_exec($ch); // 运行cURL,请求URL,把结果复制给变量 if(curl_errno($ch)){ echo 'Errno'.curl_error($curl); //捕抓异常 } curl_close($ch); // 关闭cURL连接 print_r($html);
未经允许不得转载:铁东博客 » PHP之接口抓取(三)