S2JH: 新增定向网站数据crawl爬取解析服务组件模块 - xautlx - ITeye博客

`

xautlx

浏览: 12756 次
来自: ...

最近访客更多访客>>

w2745554997

paruny

yangganboy

sola_chenchongming

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (6)

社区版块

存档分类

最新评论

S2JH: 新增定向网站数据crawl爬取解析服务组件模块

nutch crawl 爬虫 htmlunit s2jh

阅读更多

基于过滤链设计模式、Htmlunit扩展、异步多线程等特性的简化定向数据爬取解析组件，提供基于天猫商品的数据采集演示单元测试（s2jh\crawl-service\src\test\java\lab\s2jh\crawl\service\test\CrawlServiceTest.java）

说明：此套爬虫设计主要用于一些定向网站数据抓取解析，如电商商品、交友信息等，抓取和解析特定页面的属性数据。如果是全网爬取之类的页面采集需求建议使用更专业的爬虫工具，如Apache Nutch.

工程代码：

https://github.com/xautlx/s2jh/tree/master/crawl-service

http://git.oschina.net/xautlx/s2jh/tree/master/crawl-service

所属框架项目：

S2JH：基于SSH的企业Web应用开发框架

https://github.com/xautlx/s2jh

http://git.oschina.net/xautlx/s2jh

集结最新主流时尚开源技术的面向企业级Web应用的基础开发框架，提供一个J2EE相关主流开源技术架构整合及一些企业应用基础通用功能和组件的设计实现的最佳实践和原型参考。

Features

面向主流企业级WEB应用系统的界面和常用基础功能设计实现
主体基于主流的SSH（Struts2+Spring3+Hibernate4）架构
引入JPA、Spring-Data-JPA提升持久层架构规范性和开发效率
大量基于JQuery/Bootstrap/FreeMarker/StrutsTLD封装的UI定制化标签
提供一个基础分模块的代码生成框架，简化实现基本的CRUD功能开发
纯粹的免费开源技术选型，不涉及直接的收费License技术组件
基于Maven的组件依赖管理模式，便捷高效的与持续集成开发集成

0
顶

0
踩

分享到：

基于Hibernate Envers实现数据审计Audit操 ... | S2JH：基于SSH的企业Web应用开发框架

2013-12-02 13:10
浏览 1222
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于python实现爬取携程景点数据与评论数据源码+项目说明.zip: 将`config.ini`中的`isCrawlComment`置为0，运行`poi_crawl.py`文件，在爬取景点数据结束后运行再运行`comment_crawl.py`文件，获取景点数据中的所有景点的评论每次运行前都会在同一文件夹下复制一份上一次...

spark-common-crawl:Spark常见爬取数据解析示例: 杂项Spark 常见爬行一些使用 Spark 分析一些常见爬取数据的杂项示例。这些脚本的最初用途是用于一些简单的评估。使用它们的风险由您自己承担，并作为如何处理数据的示例。我将 common-crawl 数据集从 s3 复制到...

python爬取链家网租房数据: python爬取链家网租房信息，保存到本地文件，根据自己的情况可以查找适合自己的房源

CrawlWeb:Python实现爬虫+辅助案例: crawl_web_info #一：答题王辅助：主要功能：知乎答题王等答题游戏的基本辅助原理实现，非全自动，正确率不保证100% #二：scrapy_bqb: 主要功能：scrapy框架入门级应用，使用该框架爬取表情党网的表情包数据并下# ...

基于ApacheNutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件nutch-htmlunit.zip: index-s2jh: 追加设置需要额外传递给solr索引的属性数据; 设定不需要索引的页面规则; 欢迎关注作者其他项目： S2JH - 基于SSH的企业Web应用开发框架 12306 Hunter - （功能已...

weiboCrawl:微博热搜实时爬取: 微博热搜实时平台结果展示具体详情可以查看我版本说明： mysql可以使用5.0或以上版本 python是3.6版本或以上配置Mysql数据库： ...最重要是，记得自己的mysql要创建好相应的表 CREATE TABLE `hot_list` ( ...

nutch crawl代码解析: nutch虽然是开源的，但初学nutch的同志门肯定对源码比较头疼，很难看懂，本资料是对crawl源码的解析，希望对大家有用。

xueqiu_crawl:获取雪球用户和他们的多维数据集: xueqiu_crawl ========用法安装安装mongodb 使用你自己的cookies，在pyspider项目和xueqiu_cube_crawl.py中更改在这个目录下运行pyspider 打开本地主机：5000 做 xueqiu_user 爬取项目当你有足够的用户数据运行时...

CNVDSpider:使用js爬取CNVD漏洞库共享数据Crawl CNVD shared vulnerabilities with js: Crawl CNVD shared vulnerabilities with js 完整教程查看写论文需要用到的数据，然而，该页面有反爬机制，无法抓取全部数据，因此，使用js绕过反爬，实现效果如下：可以直接到GitHub查看，欢迎留言点赞打赏提...

基于Python Scrapy实现的网易云音乐music163数据爬取爬虫系统含全部源代码: 基于Python Scrapy实现的网易云音乐music163数据爬取爬虫系统含全部源代码基于Scrapy框架的网易云音乐爬虫，大致爬虫流程如下： - 以歌手页为索引页，抓取到全部歌手； - 从全部歌手页抓取到全部专辑； - 通过...

python 爬虫示例，爬取百度网址并解析的示例: - `def crawl_baidu()`：定义了一个名为 `crawl_baidu` 的函数，专门用于爬取百度首页。 - `url = "https://www.baidu.com"`：指定了要爬取的百度首页的网址。 - `response = requests.get(url)`：使用 `requests....

crawl_imgs:使用128个进程爬取imgs: ###crawl_imgs ＃＃＃＃用法： rm -rf imgsmkdir imgspython crawl_imgs.py

crawl-house:爬取各网站的房产数据，进行可视化，方便为买房提供信息: crawl-house爬取各网站的房产数据，进行可视化，方便为买房提供信息

百度百科爬取攻击: 使用scrapy爬取百度百科包括词、词摘要、基本信息、摘要链接、内容等保存到根目录下的baike.json文件中 1.需要安装myslq数据库然后运行 baike/mysql/test.py文件创建数据库表格 2.进入命令行运行 scrapy crawl ...

comcrawl:用于下载常见抓取数据的python实用程序: Common Crawl项目是“任何人都可以访问和分析的Web爬网数据的开放存储库” 。它包含数十亿个网页，通常用于NLP项目以收集大量文本数据。 Common Crawl提供了一个，您可以使用该在其爬网数据中搜索某些URL。每个...

Crawl-BBS:用作 BBS 门的 Crawl 版本-开源: 用作 BBS 门的 Crawl 版本

基于LSTM语言模型和seq2seq序列模型的歌词生成，包括数据爬取、数据处理、模型训练和歌词生成Python源代码+文档说明: data_crawl: 数据爬取文件 data_processing：输出处理文件 lstm_model：基于lstm的概率语言模型进行歌词生成，train_lstm_word_based.py是训练代码 - 不懂运行，下载完可以私聊问，可远程教学该资源内项目源码是...

wanFangSpider-dataPretreatment:对于万方论文库进行数据爬取和数据清洗生成语料库的程序: 对于万方论文库进行数据爬取和数据清洗生成语料库的程序 1.下载后在安装python scrapy框架情况下（推荐用conda命令安装） 2.在此文件夹下shift+鼠标右键打开命令行 3.输入 scrapy crawl wanfang 启动爬虫操作步骤：...

crawl_workspace: crawl_workspacecrawl

nutch 爬到的CSDN数据 nutch crawl: nutch 爬到的CSDN数据 nutch crawlnutch 爬到的CSDN数据 nutch crawlnutch 爬到的CSDN数据 nutch crawl

Global site tag (gtag.js) - Google Analytics