BusQuery-公交宝典 » Blog Archive » 从网页抓取数据的方法

从网页抓取数据的方法

  这个方法就是把8684的数据全部抓下来,可以先用teleport pro把网页一次性下载,也可以直接用软件联网抓。可以在网上搜到这个软件,记得同时搜一下注册码注册一下(未注册不能下载超过500个链接).下载的时候起始网址填写类似http://beijing.8684.cn/sitemap,把“深度”设为1。
  把数据库在控制面板中定义为ODBC数据源.名字BusQuery。
  可以在数据库中定义一些属性,也可以先用程序浏览各路线信息,然后再定义。
  在DOS下到软件所在目录,输入:java htmlInputDB http://beijing.8684.cn/sitemap即可。这是针对联网从网上获取的。如果针对硬盘中的,可以这样,假设sitemap.htm的路径是:f:\downloads\beijing\sitemap.htm,应该这样写命令行:java htmlInputDB file://localhost/f:\downloads\beijing\sitemap.htm。注意大小写。
  软件功能:
车名:软件尽量智能地获取车号,但一些需要字母前缀的还是要你手工加进去。有时候不够智能,有一些汉字出现在车名里。
    在车名中回车:显示所取的车名的数据,已把上下行揉合到一起,且不显示属性。这可以查看为新路线定义的车名有没有使用过。当然,这样一回车之后,上行路线中的数据被覆盖了,这时候,需要用“重 填”命令,它把路线的信息重新填写一次。
    保存:把数据输入到数据库中,未定义属性集合前最好不要输入。下一条路线信息自动出现。
    上一个:重新填写上一条路线的信息。
    下一个:略过这条路线显示下一条。
    复制上行:有些线路不是环线,但只有一条路线信息,因为它的上下行的站点是完全相同的,这时候,如果不往下行线中填入信息,程序会把它当环行线处理,这时候,需要把上行线中所有信息复制一份到下行线中,这个按钮就是起这个作用。
详细说明和截图见”BusQuery的数据制作方法”.
      htmlInput-java.zip

4 Responses to “从网页抓取数据的方法”

  1. wpf305 Says:

    已经做出了两个方便的输入数据的方法,可不能再说制作数据太困难了。这两个新工具,又耗去了我一周时光。

  2. wpf305 Says:

    这个方法请不要在别的网站上讨论,以免被那个公交查询网站知道,它要是改了数据格式,这个软件就失效了.

  3. 8684公交网 Says:

    没关系,我已经知道了。

  4. 公交网 Says:

    哈哈

Leave a Reply