门户网站解决方案
一、概述
用户出行借助互联网,能够解决住客集吃、喝、玩、乐、医、食、住、行、时尚、购物等的综合资讯服务信息导航平台。同时获取访问门户网站的终端Mac地址,ip地址,及访问时间,访问地点,访问链接。 二、网站功能介绍
1、服务导航
可以管理大类,并且分到二级明细:如
视 频:优酷网、奇艺高清、土豆网、搜狐视频、乐视网、迅雷看看、腾讯视频;
游 戏:4399游戏、7k游戏、17173百度游戏、2144游戏、37wan游戏;
新 闻:新浪新闻、搜狐新闻、CNTV、路透中文网、环球网、百度新闻、凤凰新闻;
军 事:中华军事、凤凰军事铁血、军事战略军事、网米尔军情环球、新军事;
体 育:新浪•NBA、搜狐体育、CCTV5、虎扑体育网、易体育直播吧、体育彩票;
小 说:起点、潇湘书院、创世中文网、小说阅读网、纵横中文网; 购 物:淘宝网、京东商城、亚马逊、凡客诚品、1号店、全易迅网; 音 乐:百度音乐、一听音乐、酷狗音乐、音悦台、酷我音乐、经典老歌、中国好声音•歌曲;
社 区:百度贴吧、天涯社区、猫扑、QQ空间、人人网、开心网、豆瓣;
交 友:世纪佳缘、珍爱网、百合网、有缘网、六间房秀场、非诚勿扰;
汽 车:汽车之家、太平洋汽车、易车网、新浪汽车、爱卡汽车、搜狐汽车网;
团 购:美团网、糯米网、拉手网、聚美优品、1号团、百度团购、京东团购;
旅 游:携程网、去哪儿网、途牛旅游网、12306火车票、同程旅游网、艺龙网、百度旅游;
财 经:东方财富、新浪财经、股吧、搜狐财经、和讯网、同花顺、凤凰财经;
彩 票:中彩网、中国体彩网、全国开奖走势图表、乐彩彩票、双色球、新浪彩票;
本地栏目:
南京美食类:江浙菜、粤菜、川菜、湘菜、东北菜、清真菜、火锅、新疆菜、小吃快餐、日本料理、韩国料理、东南亚菜、西餐、自助餐、面包甜点等;
南京购物类:综合商场、食品茶酒、超市/便利店、服饰鞋包、珠宝饰品、化妆品、运动户外、母婴儿童、数码家电、家具家居、特色集市、书店、办公/文化用品、眼镜店、药店、鲜花店、更多购物场所;
南京休闲娱乐类:咖啡厅、酒吧、茶馆、KTV、电影院、文化艺术、景点/郊游、公园、足疗按摩、洗浴/温泉、游乐游艺、桌面游戏、台球室、更多休闲娱乐;
南京运动健身类:健身中心、游泳馆、瑜伽、羽毛球馆、乒乓球馆、网球场、篮球场、足球场、高尔夫场、保龄球馆、台球室、舞蹈、武术场馆、体育场馆、更多运动场馆;
南京酒店类:五星级酒店、四星级酒店、三星级酒店、经济型酒店、公寓式酒店、度假村、更多酒店住宿;
南京生活服务类:室内装潢、居家维修、旅行社、宠物、齿科、医院、培训、亲子服务、儿童摄影、快照/冲印、汽车服务、学校、干洗店、家政、公交车、停车场、加油站、银行、团购网站、小区、商务楼、更多生活服务;
2、信息发布
采用通用的信息发布系统,由管理员登陆后,对网站内容进行编辑修改,包括新闻发布,信息上传,链接修改,数据更新等内容。
3、广告分流,链接注册(二期实现) 三、数据获取功能介绍
数据获取:首先抓取终端向服务器发起请求的TCP/IP数据包,之后重组数据包,解析数据包内容,获取MAC,IP,访问链接,时间戳,将解析后的数据插入数据库,以MAC为索引。
数据展示:B/S结构,前台打开网页查询获取的终端信息,首先展示获取的终端MAC信息,数据以首次访问时间来排序,还包含访问次数,首次访问时间,最后访问时间,其中MAC地址做链接处理,点击MAC链接展示相应终端详细的访问信息,包括每次访问的时间,访问链接,IP,地点,相应数据展示以访问时间来排序。
一期实现功能:获得用户登录门户网站的MAC,IP,访问链接,访问次数,首次\\末次访问时间,以及通过门户网站链接出站指向的数据。实现用户登录端操作系统的数据采集(确认客户是电脑终端的xp或者win7系统,手机终端ios或者android系统)
预留二期数据接口,预留后续需要填充的字段,比如手机号码,搜索内容,搜索商品名称等,方便二期数据集成。
多数据索引,以MAC,IP,手机号码等作为索引,进行多维度的查询。并实现手机号码与MAC地址匹配,方便确定客户是否更换手机型号(二期实现) 综合数据解析,全面抓取用户通过服务器登录互联网后的数据,包括并不仅限于:登录所有网站、论坛的地址,页面内容、时长、关键字、cooki数据等,并将获取的数据做多种维度的分析处理,抓取用户搜索(浏览)的商品类别,网站类别,网站进出口,上网地点,上网时间,上网时长,上网流量,行为规律等。(二期实现) 大数据高并发支持,考虑到系统最高并发量在30万左右,该系统采用分布式架构,从门户网站就需要考虑多服务器负载均衡方案,数据抓取采用专业高速抓取网卡,获取的数据分库分表,建表以客户端为单位或者地理区域为单位,分析系统对分布式数据库进行统一数据处理分析。(二期实现)
四、技术架构:
本方案门户网站系统基于B/S模式,采用JAVA开发语言,基于J2EE技术架构。应用服务器推荐采用Tomcat7;数据库采用orcale。支撑平台可采用ubuntu操作系统。运行系统的稳定性、数据的吞吐量、响应时间等都应有所保证,具备灵活的负载平衡机制,通过高级的集群功能,应用可以跨越多台服务器。采用J2EE架构标准来进行开发设计,因此,可在多个应用服务器上进行移植,如JBOSS、Weblogic等。
后台数据获取模块,采用国际通用的TCP/IP协议栈解析库,将访问主页的相关信息解析入库,数据展示同样采用B/S模式,由管理员登
陆网页访问后台数据库,在展示页面提供查询条件选择框,以图表的方式展示已获取的访问信息。后台数据表预留扩展字段,方便后期数据集中。
因篇幅问题不能全部显示,请点此查看更多更全内容