您的位置: 首页 > 软件下载 > 网络工具 > 网络辅助

XPath2Doc(通用网站数据采集及Doc生成工具) V1.0.0.0

[下载地址]
  • 软件大小:18MB
  • 更新日期:2020-11-25
  • 软件语言:简体中文
  • 软件授权:国产软件
  • 软件热度:
  • 官方网站:暂无
  • 适用平台:WinAll/

XPath2Doc(通用网站数据采集及Doc生成工具)是一个全自动采集网页页面形成Word docx文件的专用工具,带天眼查、天眼查采集配备,应用XPath3Doc必须自身在WebBrowser对话框里边手工制作登陆,并寻找必须的数据网页页面,随后点击程序流程按键开展采集,因此 是个全自动的网页页面数据添充Docx专用工具。

XPath2Doc(通用网站数据采集及Doc生成工具)

【原理】

  网页页面的每一个原素,都能够表明变成XPath句子,因此 我们可以载入打开浏览器的网页页面源码,根据XPath句子获得网页元素中的文字。

  XPath句子的获得方法:

  一般我们可以应用Google的Chrome浏览器开启网页页面,按F12调成微信开发工具页面,在ELements菜单栏下,伴随着电脑鼠标的挪动能够见到网页页面被黑影遮盖,点开三角符号,能够更进一步精准定位精确的部位,直至寻找最后必须的数据部位。在寻找的文字上点鼠标点击,在弹出来的莱单中,挑选Copy-Copy XPath,随后黏贴到文本文档就可以获得必须的XPath句子。

  这儿必须表明一点:假如复制出去的XPath句子中有/tbody会危害采集,程序流程內部对于此事难题开展了解决,但很有可能会在一些特殊情况下依然会危害数据采集,能够手工制作除掉。

【软件环境】

  Windows7 Sp1电脑操作系统请安裝下边的部件(关键:VC库如果不安裝,本程序流程无法启动):

  VC2017往上

  .net framework 4.5.2

  在Windows10系统软件下所述部件一般内置,不用独立安裝。Windows10 1903运作根据。

  不兼容Windows XP电脑操作系统。

【操作指南】

  1、本程序流程工作中必须三个配备文件:General.ini,自定.ini,自定模板.docx。后2个文件名自身界定。

  General.ini文件中界定了INI文件和Docx模板文件的储放文件目录,可以不填,默认设置是程序流程所属文件目录。

  自定.ini、自定模板.docx是软件使用人自身建立的网页页面采集XPath句子及最终形成文件常用的Docx模板,实际设定方式可以看ini文件中的表明。留意,Docx模板文件中的“@lt;#0001#gt;@”这类的标识符是在INI文件中界定的用以更换网页页面采集內容的标识字符串数组。ini文件中界定了更换关键词的前后缀名和模板文件名。

  2、应用本程序流程前,请先创建你要自身的INI配备文件和Docx模板文件。(实际能够参照附加的天眼查、天眼查2个配备文件和民事起诉书模板)

  必须表明的是,模板文件适用对文本文档的不一样一部分应用不一样的网址开展采集,留意Url的设定。

【操作方法】

  起动程序流程--挑选模板--点击采集数据按键边上的灰黑色三角符号,点开下拉列表,点击必须采集的一部分。等待电脑浏览器载入网页页面结束,手工制作键入必须查看的內容,点击查看,寻找数据的实际网页页面,随后点击采集数据按键,观查右边的目录中是否早已获得必须的数据。再次点开下拉列表,挑选下一个必须采集的一部分,假如网址发生了转变要等待电脑浏览器载入结束,寻找必须的数据网页页面。点击采集数据按键观查右边目录中是否获得了第二一部分的数据。这般不断,直至数据所有采集结束。

  假如前后左右两一部分的网址同样,在点击下一部分的下拉列表以前,要先在电脑浏览器中再次查看新的数据,等新数据网页页面出去以后在点击下拉列表挑选下一部分开展采集。(网址同样的状况下,点击下一部分会立即从网页页面取数据,假如电脑浏览器沒有换网页页面,数据就不对。)假如某一一部分必须再次采集,请先点击下拉列表中的该一部分名字,随后点击采集按键反复采集该一部分(这时能够随便更改电脑浏览器的数据网页页面,获得的便是不一样企业数据)。

  目录中采集获得的数据結果如果有误差,能够点击自主改动。XPath句子假如有哪些不正确,还可以自身改动看检测結果(XPath句子在改动后会马上再次爬取电脑浏览器的数据,因此 电脑浏览器最好合理数据网页页面),在程序流程中改动的XPath句子,不容易储存到INI文件中,请自主手工制作储存。

  假如目录中数据准确无误,浏览对话框中的Docx模板內容也恰当,则能够点击建立文本文档按键,填好要形成的文件名,本软件会应用爬取到的网页页面数据更换模板中的数据库索引字符串数组,自动生成Docx文本文档。

  必须表明的是,右下方的Docx浏览对话框不可以详细的适用Word文本文档,对不规范的文本文档很有可能会出現文字缺少或是移位状况。碰到这类状况,能够忽视,或是将模板文件改为标准的文档格式(单倍行距)。

使用教程
更多 >
相关说明
妹叔软件站欢迎用户将网页内容和下载地址转发到博客、微博、论坛等。
所有软件已经过工作人员安装检测,如不能正常运行,请检查运行环境和硬件配置,或在评论中反馈,工作人员会及时处理。
判断软件好坏,请用户参考用户评论或者软件好评度