跳到主要内容

msray-plus 1.4.2 发布

· 阅读需 1 分钟
admin
msray project team
重写谷歌采集引擎模块,对反爬机制做了突破,仅需少量HTTP代理,即可稳定持续采集!
新增法国搜索引擎(QWANT);
新增设备网络类型检测功能,可识别是否需要翻墙,实现部分国外搜索引擎的智能化初始代理条件判定;
优化联系方式抓取任务的结果格式自动清洗功能。
优化大数据导出到服务器的提示信息;

msray-plus 1.4.1 发布

· 阅读需 2 分钟
admin
msray project team
优化百度地址转码逻辑;
优化软件后台的前端界面;
新增联系信息采集任务功能模块!
联系信息采集模块,支持批量采集导入的URL种子文件中的每个网站的联系信息。包括电话、手机号、QQ、微信、邮箱、facebook账号、twitter账号等。并且可自定义开启与关闭需要采集的内容;

电话/手机号兼容多种格式,包括但不限于手机号,400电话号码,以及如000-000-0000,020-0000-000等格式; 邮箱兼容多种格式,并且支持穿插空格形式的邮箱内容! facebook账号同时兼容ID格式与账号名格式!

支持自动保存采集进度,可停止后下次接着采集; 同时支持自定义导出字段内容与自定义导出格式; 同时支持导出结果文件下载到本地,以及导出保存到服务器目录;

msray-plus 1.4.0 发布

· 阅读需 3 分钟
admin
msray project team
去除agent数据库信息。直接由txt载入到内存中;
更改logger日志信息组件;
IP数据库更新;
配置文件更新;
爬虫(外链)引擎任务队列引擎,改用自研队列组件代替了redis相关操作;
爬虫(外链)引擎任务种子数据存储引擎,改用自研方案代替了redis相关存储;
任务数量统计算法重写与升级,基于内存存储任务结果数量,然后定时更新同步到数据库,提升效率并减少了大量磁盘IO操作;
数据重复判断引擎,改用自研布隆过滤器加强版实现,取代redis相关操作,性能与资源占用大量提升;
入库算法更新,循环单次入库,改为批量入库,减少大量磁盘IO操作;
新增任务对应的被方案过滤结果数量、被重复过滤数量显示;
已采集关键词判断逻辑优化;
命令行提示信息优化,授权信息格式化后显示在顶部,方便识别与查找;
优化任务执行队列,修复部分情况下导致任务排队中需要重启的问题;
重写关键词拓展引擎,改为按需拓展。无需指定线程数!当可用种子关键词不足时,自动触发。防止关键词拓展速度大于消费速度导致的资源浪费与性能降低;
优化程序算法,减少大量redis操作,避免redis占用与并发瓶颈引发的问题。

msray-plus 1.3.7 发布

· 阅读需 1 分钟
admin
msray project team
存储引擎升级,redis相关数据大瘦身;
初步支持集群功能。所有机器数据不重复,全局唯一。需要所有机器公用一个redis服务;
命令行语言默认为英文,防止部分操作系统中文乱码问题;
优化命令行提示信息格式;
自动拓展数量智能限制,防止redis数据量过大导致效率降低;

msray-plus 1.3.6 发布

· 阅读需 1 分钟
admin
msray project team
新增百度移动版引擎;
搜索引擎名称改动,百度定制超级版改为百度电脑版;
导出功能升级,导出全部支持显示每条结果的所属引擎、以及所属搜索关键词;
谷歌原版引擎升级;
搜索任务,支持导出自动拓展的搜索引擎相关关键词;
关键词载入与重复采集判断逻辑优化;

msray-plus 1.3.5 发布

· 阅读需 1 分钟
admin
msray project team
新增yandex引擎(俄罗斯搜索引擎),无需代理; 已破解反爬安全验证机制;

msray-plus 1.3.4 发布

· 阅读需 1 分钟
admin
msray project team
修复目录未初始化创建导致任务结果无法导出的问题,新版会自动创建;
修复导出管理模块的删除功能;
google引擎优化;
其他细节优化

msray-plus 1.3.3 发布

· 阅读需 2 分钟
admin
msray project team
新增国外引擎duckduckgo,需要国外网络线路才能访问!
支持抓取与导出搜索引擎的每个返回结果的描述说明信息(概要信息);
优化存储系统,减少redis使用与redis并发操作;
内置双线路认证与初始化信息获取接口,最大化避免使用者服务器与官网接口网络不通导致运行失败的情况;
创建搜索引擎任务,取消自动创建关联外联引擎任务的默认勾选状态;
导出功能升级,支持导出带协议的域名数据(根网址,如http://www.msray.net),智能支持http和https;
每个搜索引擎任务的全部实时采集数据内容,会自动存储在data/result/engine/任务ID编号.txt文件中;
每个系统引擎任务的全部实时采集数据内容,会自动存储在data/result/extend/任务ID编号.txt文件中;
每个任务支持自定义是否全局防重复!(不开启的话,仅仅是任务中导出结果没有重复数据,如果开启,则多任务都没有重复数据!)
后台搜索引擎管理功能升级;
支持自定义数据文件自动分割时间间隔(按分钟),比如每小时自动生成一个数据文件,则在data/config.ini中配置file_split_time=60 (本功能为后台的导出管理菜单模块所服务)

msray-plus 1.3.2 发布

· 阅读需 1 分钟
admin
msray project team
修复1.3.1版本中存在的BUG。
修改过滤方案,保存后不再跳转回列表页面;

msray-plus 1.3.1 发布

· 阅读需 1 分钟
admin
msray project team
百度定制版引擎优化,无需HTTP代理,可突破安全验证,并支持多页搜索,每页50条数据,极速高效爬取内容(建议线程数60-200)!

谷歌镜像版引擎独立与接口更新优化,无需HTTP代理,可突破安全验证,并支持多页搜索;

相关词采集扩展功能更新;

搜索引擎管理功能优化;

msray-plus 1.3.0 发布

· 阅读需 1 分钟
admin
msray project team
目前为止首发的第一个稳定版本!

新增百度定制版引擎,无需HTTP代理,可突破安全验证,极速高效爬取内容!
新增神马引擎(建议每个线程配置5-10个代理,比如10线程则配置50-100个代理);
系统稳定性升级与优化;
功能优化;
搜索引擎任务的关键词扩展引擎,支持自定义线程数;

msray-plus 1.2.4 发布

· 阅读需 1 分钟
admin
msray project team
过滤方案升级(不兼容老版本过滤方案数据结构)
系统稳定性升级与优化;
搜索任务与系统引擎任务,新增备注字段,可自定义标注;
功能优化:在存储字段未勾选的情况下,不影响过滤方案的使用(比如老版本存储字段如果未勾选IP归属地,则过滤方案中的归属国家判断会无效,新版本已避免此问题)。
任务结果数据导出功能升级与修复(并支持单独导出IP);
后台支持查看任务上传的初始种子文件;
重启软件后,任务状态自动重置为停止状态;

msray-plus 1.2.3 发布

· 阅读需 1 分钟
admin
msray project team
过滤方案的各种策略的值,支持批量编辑!
引擎镜像数据支持批量删除;
更新全球顶级域名后缀列表库,也可以自行删除部分后缀(文件路径:data/tld.data)。
站群检测算法优化

msray-plus 1.2.2 发布

· 阅读需 1 分钟
admin
msray project team
修复部分老操作系统由于根域名证书太老导致的HTTPS异常问题;
系统引擎内置新增同IP网站查询扩展模块(关联抓取);
优化导出功能,防止低配服务器在千万级数据导出情况下引起的内存不足异常退出;

msray-plus 1.2.1 发布

· 阅读需 1 分钟
admin
msray project team
系统稳定性升级与优化;
后台新增版本检测与显示功能;
导出的txt文件,新增支持windows记事本打开(解决换行显示问题);
关键词种子文件,不在需要手工转为utf8编码,系统支持自动转换;

msray-plus 1.2.0 发布

· 阅读需 2 分钟
admin
msray project team
支持快捷配置开启外网访问WEB功能(需要修改data/config.ini文件,详细请查看备注);
支持自定义软件后台HTTP服务端口,防止端口占用冲突(需要修改data/config.ini文件,默认为56789)
去除种子关键词的长度过滤功能,防止部分关键词较长被忽略;
使用新版自建协程池调度方案,减少大量内存与CPU占用以及提升效率;
优化多个细节,防止长时间运行导致的轻微内存泄露问题;
代理API服务优化,初始启动即可拉取一次数据,之后按自定义频率定期自动更新数据;
搜索引擎逻辑优化;
goland sdk版本升级,使用最新1.18.2稳定版本;
HTTP请求库算法升级;
修复上一版本http代理池轮训算法BUG(由于三方ORM库忽略updatedAt字段更新导致的问题)
新增新版本检测功能。程序启动后即可自动检测是否存在新版本,方便升级。
新增同IP网站查询功能,数据超全(免费且无限制),可在本地软件后台进行查询;
备注:

data/config.ini中,可自定义msray服务端口号。防止端口冲突;
data/config.ini中,可自定义IP,默认为127.0.0.1 可改为外网IP,即可开启外网访问后台的功能;
data/config.ini中,可自定义初始化redis服务器链接信息。

msray-plus 1.1.4 发布

· 阅读需 1 分钟
admin
msray project team
1:[重要]系统引擎(外链引擎大幅度提升效率与稳定性,减少资源占用);
2:系统稳定性升级与优化;
3:修复上一版本HTTP请求库升级,导致的代理API服务接口功能异常问题;
4:修复编辑已存在的过滤方案的域名后缀过滤时候,无法新增的问题;
5:修复搜索引擎LOGO显示问题;

msray-plus 1.1.2 发布

· 阅读需 2 分钟
admin
msray project team
1:修复开启后台远程访问情况下无法导出的问题;
2:优化网络请求模块,减少资源占用与优化内存占用;
3:重写外链引擎模块,提升效率与稳定性;
4:重写搜索引擎关联外链引擎的算法,并自动判断数量,数量太少则提示先等待搜索引擎关联更多的种子URL后再开始;
5:导出数据,存储类型新增"域名(带http://前缀)"模式;
6:新增导出模式。可支持快速导出到服务器目录(适用于大数据),也可选择导出并下载到本地!
7:新增一键清除全系统已采集域名数据(删除后以前的重复数据不会被过滤);
8:新增一键清除全系统已采集网址数据(删除后以前的重复数据不会被过滤);
9:新增一键全系统清除黑名单数据;
10:redis服务端内置RDB备份文件配置和AOF备份机制配置(按需自己调整切换,详情请看说明文档)

msray-plus 1.1.1 发布

· 阅读需 1 分钟
admin
msray project team
1:修复代理模块的删除功能;
2:修复账户管理模块的相关BUG;
3:编辑搜索采集任务时,搜索引擎列表的选中状态显示实际的勾选状态(老版本会进行初始化勾选)
4:修复部分情况下,编辑外链引擎任务显示404的问题;