{ // 所有的选填字段都可以不填,程序会自己去猜,不一定能猜得出来,猜不出来的得自己去补规则 //(必填) 主页地址,建议填list段中的url,程序会从url中提取homeUrl, url中至少要包含{cateId}和{catePg}才能被识别 // https://www.zxzj.vip/vodshow/{cateId}-{area}--{class}-----{catePg}---{year}.html // https://www.zxzj.vip/list/{cateId}-{catePg}.html "homeUrl": "https://www.zxzj.vip/", //(选填) http请求需要的header,一般就填个UA "header":{ "User-Agent":"Mozilla/5.0 (Linux; Android 8.1.0; ALP-AL00 Build/HUAWEIALP-AL00; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/63.0.3239.83 Mobile Safari/537.36 T7/10.13 baiduboxapp/10.13.0.11 (Baidu; P1 8.1.0)" }, //(选填) 分类名 "cateManual": { "电影": "1", "美剧": "2", "韩剧": "3", "日剧": "4", "泰剧": "5", "动漫": "6" }, //(选填) 列表页 "list":{ //(选填) 当前页面解析区域截取,程序会从截取后的数据中查找各字段,这里只是演示,按实际需求填写 "region":["", ""], //"url": "https://www.zxzj.vip/list/{cateId}-{catePg}.html", //(选填) 列表页的页面地址,具体规则和xpath一致,不存在在里会使用homeUrl,但是homeUrl必须是带{cateId}\{catePg}的这个格式 "url": "https://www.zxzj.vip/vodshow/{cateId}-{area}--{class}-----{catePg}---{year}.html", // (选填) 有的网站分类的第一页和后面的页url规则不同,可以这样指定具体的catePg 对应的url //"1": "https://www.zxzj.vip/vodshow/{cateId}-{area}--{class}-----1---{year}.html", // 视频ID,列表页不能正常显示一般都是这个规则不对 // 爬虫使用JSONArray来获取相关字段内容,JSONArray中共用到5个参数,具体说明: // 1 要获取字段的前缀,必填 // 2 要获取字段的后缀,必填,这两个参数确定后一般要取的字段就出来了 // 3 获取到字段后该字段正确值的左偏移量,真正的值会加上这个偏移量,默认为0 // 4 获取到字段后该字段正确值的右偏移量,真正的值会加上这个偏移量,默认为0 // 5 定位到该字段后,往上回溯的层级(往上数祖先节点,如果当前字段没有匹配到标签的起始位置也要算一个节点),具体是要找到包含当前页各字段的那部分代码(本页要求的如 vod_id, vod_name vod_pic) "vod_id": ["href=\"/detail/", ".html",0,0,3], //(选填) 视频名 "vod_name": ["title=\"", "\""], //(选填) 图片 "vod_pic":["data-original=\"", "\""], //(选填) 副标题 "vod_remarks":["",""] }, //(选填) 详情页 "detail":{ //(选填) 当前页面解析区域截取,程序会从截取后的数据中查找各字段,这里只是演示,按实际需求填写 "region":["", ""], //(选填) 详情页的url, 不存在时会使用list.vod_id进行推算 "url": "https://www.zxzj.vip/detail/{vid}.html", //(选填) 视频名 "vod_name":["