1
Key words:data mining ,text analysis,Taobao evaluation,participle,Word frequency 目录 1.绪论 ------------------------------------------------------------------------------------- 1 1.1研究背景 ----------------------------------------------- 1 1.2研究意义 ----------------------------------------------- 3 1.3研究方法 ----------------------------------------------- 3 1.3.1文本采集工具 -------------------------------------- 3 1.3.2文本预处理以及分析 -------------------------------- 4 1.3.2 文献综述 ----------------------------------------- 4 2.数据挖掘概述 ------------------------------------------------------------------------- 4 2.1数据挖掘概念 ------------------------------------------- 4 2.2数据挖掘与传统数据分析的区别 --------------------------- 5 2.3数据挖掘方法 ------------------------------------------- 5 2.4聚类分析 ----------------------------------------------- 6 2.4.1聚类分析的概念 ------------------------------------ 6 2.4.2聚类分析的算法 ------------------------------------ 6 3.淘宝评论分类模型构建与实现 ---------------------------------------------------- 6 3.1淘宝评论的概述 ----------------------------------------- 7 3.2连衣裙消费者分类特征的发现与分类模型的建立 ------------- 7 3.2.1连衣裙消费者分类特征的发现 ------------------------ 7 3.2.2连衣裙评论分类模型的建立 ------------------------- 10 4.实例分析 ------------------------------------------------------------------------------ 11 4.1淘宝评论数据挖掘 -------------------------------------- 11 4.1.1样本的确定 -------------------------------------- 11 4.1.2评论挖掘 ---------------------------------------- 12 4.2淘宝评论数据预处理 ------------------------------------ 12 4.3淘宝评论数据的筛选统计 -------------------------------- 13 4.4淘宝评论的分析 ---------------------------------------- 18 4.4.1 K-means快速聚类 -------------------------------- 18
2
4.4.2 分析结论---------------------------------------- 21 5.总结与展望 --------------------------------------------------------------------------- 22 参考文献 -------------------------------------------------------------------------------- 23 后记 -------------------------------------------------------------------------------------- 24 致谢 -------------------------------------------------------------------------------------- 24 3
1.绪论 1.1研究背景 随着互联网技术的发展与成熟,目前,互联网的应用显然已经成为改变人们生活习惯、生活状况的主要产业。随着阿里巴巴在美国的上市,电子商务已经成为促进经济发展一支强大的力量。 2015年2月3日,中国互联网络信息中心(CNNIC)在京发布第35次《中国互联网络发展状况统计报告》(以下简称《报告》)。《报告》显示,截至2014年12月,我国网民规模达6.49亿,互联网普及率为47.9%,具体如图1.1。互联网普及的同时,网络购物人群也在增长,截至2014年12月中国网络购物规模已经达到36142万人,网民使用率高达55.7% ,图1.2显示2006-2013年中国网购交易额一年年增长趋势。图1.3 2013年中国网络购物市场用户购买商品品类分布图中可以看到服装鞋帽类是网购中占最大比例的,高达75.6%。 图1.1中国网民规模和互联网普及率 Figure1.1 Chinese Internet users and Internet penetration 1
图1.2 2006-2013 年中国网购交易金额及增长率 Figure1.2 2006-2013 China's online shopping transaction amount and growth rate 图1.3 2013 年中国网络购物市场用户购买商品品类分布 Figure 2013 Distribution of china’s online shopping product categories 近年来,电子商务快速发展,使得越来越多的传统企业看到了电子商务的发展潜力,并将战略市场转向网络商城,使得网络店铺数量如雨后春笋一般。然而消费者在 2
网络购物中的行为与在实体店中的购物行为是有巨大差别的,其中比较显著的差别便是产品评论,基于淘宝评论的数据挖掘研究淘宝消费者的评论显示出的影响购物者消费的因素,对淘宝评论的数据挖掘能帮助商家了解用户购物行为,从而调整店铺的经营策略,实现更多盈利。 1.2研究意义 本文以淘宝连衣裙为例,挖掘不同层次的消费者对于在淘宝上对于其购买的连衣裙的评价,通过数据挖掘算法中的 k-中心算法和关联规则算法对这些评价进行分类,从评价的分类中将消费者划分为几个类别,分析不同类别的消费者网购连衣裙的影响因素,使得淘宝卖家更加了解用户的购物行为,从而为淘宝卖家提出提高营业额的策略。 1.3研究方法 1.3.1文本采集工具 本文中淘宝评论的数据是通过八爪鱼采集器进行采集的。采集流程如图1.4。通过该流程采集提取淘宝网页中的评论文本,采集后的数据以.xls文件格式保存。 图1.4 八爪鱼淘宝数据采集流程图 Figure1.4 Data Acquisition flowchart
3
1.3.2文本预处理以及分析 本次研究文本预处理主要通过WORD以及EXCEL这两个软件,首先将保存的数据在EXCEL中利用宏功能将没有规则的文本进行分词处理,再将划分好的词导出到WORD中进行词语的筛选以及格式的去除,分词中无用的词语剔除,然后保存为纯文本。接着再利用EXCEL对分词好的文本进行词频计算统计,以及比率计算,也就是对文本进行量化处理。 文本预处理结束后利用SPSS软件对评价进行分析,首先利用Pearson算法进行相关性分析,验证样本的相关性,并判断是否需要降维处理。相关性分析结束后,进行聚类分析,利用K平均值聚类算法对数据进行一轮分类,再接着用利用系统聚类算法对数据进行二次分类。 1.3.2 文献综述 数据挖掘的概述以及淘宝评论分类模型的构建主要是通过阅读大量文献整理得出的。 2.数据挖掘概述 2.1数据挖掘概念 随着人们对数据的深入了解及广泛使用,现在人们对数据的定义不仅仅是对事物定性或定量的记录,事实上数据还应包括信息和知识等。信息和知识可以反映为某些行为以及现象,我们需要从海量并且真实的数据中提取出可以为人类所用,并且是针对用户兴趣的信息和知识,最终为可以服务于人类的潜在的信息和知识。 互联网发展快速的时代,信息时刻处于爆炸状态,面对丰富的信息资源,人类如何高效地找出对自己有价值的数据成为了亟待解决的问题。由此,数据挖掘技术应用而生。数据挖掘是利用分析工具在大规模数据中发现模型和数据间的关系的过程。通过分析过程可以进行预测,帮助分析者寻找数据间关联,发现作用因素。数据挖掘是解决数据爆炸而信息匮乏问题的一种有效方法和途径。 在互联网上的数据主要有三种形式:文本数据(content data)、结构数据(structure data)以及日志数据(usage data)。根据这三种数据类型,数据挖掘技术大体分为:内容数据(content mining)、结构 挖 掘(structure mining)以及日志 挖 掘(usage mining)。 互联网信息多为结构化的文本数据,随着互联网的高速发展,如今,互联网中还存在着半结构化的超文本信息以及非结构化的视频信息和 video 信息。以上信息均为内容挖掘的主要目标。除此之外,内容挖掘的主要任务是处理 Internet 信息,并作适当的去噪处理,同时还可以提高文本挖掘的准确率和 4
质量。 结构挖掘是指对链接结构(HTML 标签)、XML 标签等描述内容格式标准和页面组织结构的数据进行提取。分析出隐藏于页面内部和页面之间的相关关联规则。主要作用是提供适当的改善页面设计依据,提高用户的访问率。 日志挖掘是指对用户访问页面时留下的结构化的记录数据(浏览器端 log、服务器log 以及代理服务器 log)的挖掘。主要的应用是挖掘用户浏览页面的模式,掌握用户个人喜好以及浏览习惯,对用户进行个性化推荐。日志数据包括两部分,第一部分是通过设计良好的 log 工具将数据转化成 log 信息所获得的数据;第二部分是将物理层的数据经过核心国模日志记录和经核心定位后的自动模式所获得的日志数据。 2.2数据挖掘与传统数据分析的区别 数据挖掘与传统的数据分析不同在于数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和可实用三个特征。先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值;而且它是一个非平凡的过程,也即挖掘过程不是线性的,有反复和循环,所挖掘到的知识也不是通过简单的分析就能得到,这些知识可能是隐含在表面现象的内部,需要经过大量的数据比较分析,应用一些专门处理大数据量的数据挖掘工具才能取得。 2.3数据挖掘方法 经过多年的发展,数据挖掘的方法不断丰富,常用的数据挖掘方法有:分类分析、聚类分析、关联规则分析,下面进行简要介绍。 (1)分类预测:分类的方法在于根据一定的分类标准,将待分析的数据集进行参照与比对,再将数据分门别类得归入指定的分类标准之中,而分类标准往往需要预先构建分类器进行数据训练,而分类的结果往往可以用于描述数据发展的未来趋势。分类预测的方法可以对商业中客户细分有着较好的效果。典型的分类预测算法包括K临近、神经网络与粗糖集等。 (2)聚类。聚类方法的思想在于在数据集中找到令人满意的类簇,与分类不同的是这种方法不需要事先指定类簇标准,按照相应的算法自动的对数据集进行分类,最后得出分析结果。聚类分析常常用于先验知识不足的数据挖掘任务,且能起到不错的效果。聚类的经典算法有划分中的K均值、层次聚类算法等。 (3)关联规则。关联分析思想在于找到数据集中某一项记录或多项记录与其他记录之间的相关关系,如果一项或多项记录与其他记录共同出现,并且出现的频率达到了预先设定的阈值,那么便认为这两者之间是存在关联规则的。关联规则的应用十分广泛,在比如在零售领域对客户购买的产品组合进行关联分析,可以发现单个用户或整体用
5
户的购买习惯,有利于商家调整产品组合以达更好的营销效果。另外在医疗领域,对病人的症状进行关联分析可以预测他患有某一疾病的概率。 (4)其他方法。在面对多样的数据类型时,也有相应的数据挖掘方法。比如对于图片、视频等的多媒体数据挖掘;为应对空间数据库而产生的数据挖掘方法;应对文本型数据而提出的文本数据挖掘方法;应对互联网产生数据的WEB挖掘方法等。总而言之,存在数据集的领域,数据挖掘便有用武之地,而相应的方法也会随之产生。 本文试图通过搜集淘宝连衣裙评论的相关数据,发现淘宝连衣裙消费群体并予以分类,所以采用数据挖掘中聚类分析的方法进行研究是合适与有效的。下面重点介绍聚类分析技术。 2.4聚类分析 2.4.1聚类分析的概念 聚类就是对数据集中的数据应用某种方法进行分组,把具有相似性质的事物区 分开加以分类。也就是将大量的数据划分成群组的过程,即把对象分成多个类,在同 一个类中的数据对象之间具有较高的相似度,而不同类中的数据对象差别较大。它对 发现数据集内在的结构起着非常重要的作用。 2.4.2聚类分析的算法 1、 k-means算法 kmeans算法是划分聚类中较流行的一种算法,它是一种迭代的聚类算法,迭代过程中不断移动簇集中的对象,直至得到理想的簇集为止,每个簇用该簇中对象的平均值来表示。利用kmeans算法得到的簇,簇中对象的相似度很高,不同簇中对象之间的相异度也很高。算法的主要步骤为: (1)从n个数据对象随机选取k个对象作为初始簇中心; (2)计算每个簇的平均值,并用该平均值代表相应的簇; (3)根据每个对象与各个簇中心的距离,分配给最近的簇; (4)转第二步,重新计算每个簇的平均值。 这个过程不断重复直到满足某个准则函数不再明显变化或者聚类的对象不再变 化才停止。一般,K,eans算法的准则函数采用平方误差准则,定义为: Ei1pc|pmi| ik 其中,E是数据集中所有对象与相应类聚中心的均方差之和,p为给定的数据对象, 聚类的均值(p和m均是多维的)k-means算法对于大型数据库是相对可伸缩的和高效的,算法的时间复杂度为O(tkn),其中t为迭代次数。一般情况下结束于局部最优解。 K-means算法也存在不足之处,使用它要保证平均值有意义,如果存在分便量,这个方法不适用。不能对非凸面形状的数据进行处理。 3.淘宝评论分类模型构建与实现
6
3.1淘宝评论的概述 淘宝评论是指在淘宝平台上购买商品在商品评论区,对购买的商品写下的评论。淘宝评论是用户在收到商品后才撰写的,在一定程度上能反映出商品还有店铺的一些特性,同时用户的评论也能体现用户对商品的哪些方面比较关注。通过对淘宝评论的数据数据挖掘能够了解用户行为,从而为店铺提供决策建议。 3.2连衣裙消费者分类特征的发现与分类模型的建立 3.2.1连衣裙消费者分类特征的发现 网络购物成为当今购物的热潮,根据中国互联网络信息中心3013年的统计,统计如图 3.1,消费者在进行网络购物决策的时候受到其他用户的影响是最大的,所占比例为32.9%。用户评价中能反应出商品的多种信息,同时用户的评价也能体现不用用户对商品的消费偏好。 图3.1网购用户购买商品考虑因素 Figure3.1 considerations of online shoppers 在淘宝上找到不同消费层次的连衣裙的评价,在评论中发现连衣裙的质量、店铺的服务、物流、连衣裙的外观、价格这几个词在评论中出现的频率是比较高,然而在不同消费阶层出现的频率有所差别,图3.2-图3.4分别是人民币68元,人民币259,人民币429元的连衣裙的评价,从这三个简例可以看到在价格比较高的连衣裙消费者在评论中没有出现跟价格有关的词语,其中对质量还有是否正品关注度比较高,在价格中端的连衣裙的消费者评论中可以看到这个阶层的消费者中商品的质量、店铺的服务词频出现较高,而在低端消费层次中商品的价格、物流词频出现较高。由此提出研
7
究的问题,研究不同层次消费者的评论中显示出对商品不同角度的关注度。 图3.2 人民币68元连衣裙的评论 Figure3.2 ¥68 dress’s comment
8
图3.3 人民币259元连衣裙的评论 Figure3.3 ¥259 dress’s comment
9
图3.4 人民币429元连衣裙的评论 Figure3.4 ¥429 dress’s comment 3.2.2连衣裙评论分类模型的建立 设连衣裙评论中关注的类型为U(u1,u2,u3,.....un)(nN),其中hn代表某一关注度类型的名称,设某商品评论中某词语为R(r1,r2,r3,....rn),(nN),Rn 代表某一种类型的词语,由于不是所有词语均能反映评论特征的,所以这里找出其中具有明显可以标志用户评论特征的词语集合是D(d1,d2,d3,....dn)(nN),其中DR。对于集合D(d1,d2,d3,....dn)中任一个元素来说,都可以在U中找到一个元素ui与之相对应,即dnui,此时便可以可以确定关注类型词语分类。 为了能够更加精准的描述该用户对于所有评论分类程度,这里使用比值的方法来确定:设已经在集合d中找到所有的元素所对应的兴趣集合{ui,uj,uk....},于是,关注类型集合中的任意元素ui来讲,都可以找到中的D元素与之对应,设对应的D元素集合为Dk,计算集合Dk中元素的个数Count(Dk)与集合D中所有元素的个数Sum(Dk),设un
10
的分类为G(un) 则G(un)Count(Dk) Sum(D)其中G(un)[0,1],其值越大,代表客户的评论越偏向于这个兴趣。 以此类推,可以找出淘宝用户评论的分类集合{ui,uj,uk...}中所有元素的分类。 4.实例分析 4.1淘宝评论数据挖掘 4.1.1样本的确定 淘宝评论有海量评论数据,这里先对淘宝店铺进行划分,参考艾瑞网上对服装消费的层次的分层标准,将淘宝店铺划分表4.1所示的消费层次。总共有三个层次,低端连衣裙消费者,中端连衣裙消费者,高端连衣裙消费者,低端连衣裙消费者购买连衣裙的价格区间在人民币0-149元之间,中端连衣裙消费者购买连衣裙价格在人民币150-399之间,而高端连衣裙消费者购买连衣裙的价格区间在人民币400以上。 本文选择淘宝上总评论数超过800的150家店进行评论挖掘分布表4.2。表中可以看到选取的150家淘宝店铺中,平均每个层次的消费阶级选取50家店铺,每家店铺摘取500-600条评论数作为研究样本。 消费层次 低端连衣裙消费者 中端连衣裙消费者 高端连衣裙消费者 价格区间 0-149 150-399 400以上 表4.1淘宝评论连衣裙消费阶级划分 Form4.1 Taobao comment‘s class division 连衣裙价格区间 0-149(低端) 150-399(中端) 店铺数量 50 50 每家店铺摘取评论数/条 500-600 500-600 500-600 400以上(高端) 50 表4.2淘宝评论数据样本分布表 Form4.2 Taobao comment data distribution table 11
4.1.2评论挖掘 利用八爪鱼数据采集器,进行数据采集。打开八爪鱼采集器制定采集规则,也就是采集的流程,这里采用的采集流程图4.1,打开网页,开始一个点击下一页的循环,在循环当中嵌套一个分组的循环,在分组中抓取所需要的数据。本次采集的文本是从网页当中获取,采集的html结构的文档,文档中的关于淘宝评论部分的结构嵌套如图4.2。循环当中的分组是图4.2当中右数第二个TR,采集的内容是TD的内容。实施采集后,总共采集到76131条淘宝评论。 图4.1 数据采集流程图 Figure 4.1 Data Acquisition flowchart 图4.2淘宝评论html文档架构图 Figure4.2Taobao comment html documents Chart 4.2淘宝评论数据预处理 利用采集器搜集的评论是没有规则,并且格式混乱的,在进行数据筛选与数据分析之前需要对淘宝评论数据进行预处理。这里主要做的处理是,对一句一句的淘宝评论分成一个词一个词,采用EXCEL的分词处理技术,编写分词的VB代码,代码的函数
12
如图4.4,参数说明如表4.3将数据导入EXCEL中,EXCEL自动根据所编代码将词语进行分词。 图4.4分词VB代码函数参数 Figure4.4 VB code word function parameters 参数说明: 参数1:Target 参数2:Multi 参数3:Duality 参数4:Ignore — 需要分词的目标字符串 — 分词选项:1,最短词;2,二元;3,重要单字;4,全部单字。 可以单选,如“1”或“3”;也可多选,例如“12”或“124”。 — 散字二元。使用逻辑值True/False来表示是否启用。默认不启用 — 忽略标点符号。使用逻辑值True/False来表示是否启用。默认不启用。 参数5:Separator — 可以自定义分词之间所使用的间隔符号。默认为“|”符号。 除参数1为必要参数以外,其他参数均可省略 表4.3分词VB代码函数参数说明 Form4.3 Word VB code functions Parameter Description 4.3淘宝评论数据的筛选统计 图4.5是分词之后的词语,评论的词语当中类似商品、的、不这些与分析无关的词语,全部去除,保留能显示店铺特征的评论词语,例如质量、布料、物流、快等词语。 13
图4.5淘宝评论分词 Figure4.5 Taobao comment Word 分词处理之后进行词频统计,词频统计也是运用EXCEL进行统计,编写相应的VB程序,对词频进行统计。统计词语为动词、形容词、名词这三类,将每个店铺评论词频统计在前100的词语再进行词语初步属性分类。词语初步属性分类如表4.4。词频在前100的词语初步分为5类,分别是质量、物流、外观、价格、服务。将词语中的质量、做工、面料、舒服、手感等描述归类为连衣裙的质量属性,将物流、速度、很快、慢归类为物流属性,将漂亮、效果、上身、款式、好看归类为外观属性,将价格、便宜、贵、值得归类为价格属性,将服务、态度、说好、愉快、谢谢分类为价格属性。 类别 词语 质量 物流 外观 价格 服务 质量 物流 漂亮 价格 态度 做工 速度 效果 便宜 说好 面料 很快 上身 贵 愉快 舒服 手感 慢 款式 值得 谢谢 好看 表4.4词语初步分类 Form4.4 Words preliminary classification 由于每个店统计出的词频总数并不一致,为了更科学地表示某类词语在该店铺评
14
论中出现的情况,利用词频比来进行统计,也就是某类词语占总词频的比率。统计结果如表4.5。表中用高n代表高端连衣裙店铺n,中n代表中端连衣裙店铺n,低端代表低端连衣裙店铺n。 店铺 质量 物流 外观 价格 服务 高1 0.1688 0.0152 0.1337 0.0100 0.0194 高2 0.1243 0.0330 0.0928 0.0000 0.0244 高3 0.1778 0.0655 0.1965 0.0035 0.0304 高4 0.1314 0.0214 0.1175 0.0079 0.0218 高5 0.1910 0.0091 0.0795 0.0059 0.0183 高6 0.0681 0.0189 0.1500 0.0101 0.0233 高7 0.1519 0.0205 0.1184 0.0040 0.0130 高8 0.1498 0.0166 0.1362 0.0010 0.0151 高9 0.1602 0.0246 0.0924 0.0046 0.0121 高10 0.1350 0.0198 0.1255 0.0009 0.0234 高11 0.1723 0.0349 0.1297 0.0052 0.0099 高12 0.2122 0.0293 0.1599 0.0043 0.0288 高13 0.1793 0.0223 0.1927 0.0045 0.0341 高14 0.1471 0.0193 0.1410 0.0005 0.0158 高15 0.1529 0.0244 0.1472 0.0073 0.0224 高16 0.1558 0.0334 0.1618 0.0075 0.0170 高17 0.1600 0.0325 0.0744 0.0103 0.0180 高18 0.1081 0.0135 0.0676 0.0076 0.0397 高19 0.1788 0.0173 0.1313 0.0100 0.0190 高20 0.1543 0.0305 0.0984 0.0000 0.0305 高21 0.1798 0.0597 0.1912 0.0035 0.0243 高22 0.1614 0.0297 0.1275 0.0067 0.0223 高23 0.1930 0.0914 0.0798 0.0058 0.0187 高24 0.1681 0.0280 0.1600 0.0182 0.0183 高25 0.1519 0.0207 0.1284 0.0040 0.0122 高26 0.1498 0.0166 0.1226 0.0019 0.0136 高27 0.1602 0.0195 0.0928 0.0048 0.0131 高28 0.1350 0.0198 0.1252 0.0039 0.0288 高29 0.1723 0.0349 0.1297 0.0042 0.0100 高30 0.2122 0.0189 0.1471 0.0043 0.0288 高31 0.1793 0.0179 0.1974 0.0045 0.0234 高32 0.1471 0.0293 0.1497 0.0035 0.0158 高33 0.1529 0.0244 0.1166 0.0078 0.0224 高34 0.1558 0.0345 0.1657 0.0063 0.0175 高35 0.1600 0.0364 0.0742 0.0127 0.0180 高36 0.1081 0.0135 0.0776 0.0075 0.0397 高37 0.1698 0.0348 0.1500 0.0100 0.0099 15
高38 高39 高40 高41 高42 高43 高44 高45 高46 高47 高48 高49 高50 中1 中2 中3 中4 中5 中6 中7 中8 中9 中10 中11 中12 中13 中14 中15 中16 中17 中18 中19 中20 中21 中22 中23 中24 中25 中26 中27 中28 中29
0.1634 0.1935 0.1681 0.1524 0.1616 0.1353 0.1340 0.1778 0.1441 0.1955 0.1053 0.1524 0.1849 0.1060 0.1459 0.1552 0.1204 0.0909 0.0779 0.0797 0.1035 0.0754 0.1156 0.1175 0.0910 0.1321 0.1042 0.0979 0.0951 0.1261 0.1146 0.0996 0.1208 0.1235 0.0979 0.0951 0.0996 0.1108 0.0993 0.1083 0.1441 0.1557 0.0676 0.0397 0.0091 0.0197 0.0209 0.0174 0.0189 0.0193 0.0311 0.0271 0.0229 0.0293 0.0284 0.0348 0.0324 0.0279 0.0224 0.0128 0.0047 0.0266 0.0198 0.0261 0.0253 0.0293 0.0262 0.0279 0.0192 0.0191 0.0254 0.0326 0.0342 0.0289 0.0268 0.0051 0.0247 0.0266 0.0200 0.0268 0.0121 0.0047 0.0258 0.0180 16
0.1454 0.1431 0.0985 0.1255 0.1295 0.1599 0.0778 0.1849 0.1844 0.1623 0.1844 0.1603 0.0935 0.1076 0.1127 0.1107 0.0686 0.0610 0.0635 0.1229 0.1032 0.0795 0.0948 0.0885 0.1003 0.1022 0.1046 0.1101 0.0884 0.0620 0.0535 0.1229 0.1032 0.0875 0.1301 0.1222 0.0885 0.1003 0.0735 0.0785 0.0941 0.0875 0.0075 0.0036 0.0069 0.0060 0.0182 0.0040 0.0013 0.0039 0.0019 0.0051 0.0042 0.0045 0.0061 0.0190 0.0190 0.0130 0.0097 0.0105 0.0082 0.0183 0.0170 0.0102 0.0149 0.0158 0.0157 0.0165 0.0177 0.0171 0.0180 0.0180 0.0163 0.0165 0.0173 0.0149 0.0143 0.0148 0.0084 0.0127 0.0120 0.0119 0.0129 0.0072 0.0288 0.0341 0.0158 0.0224 0.0099 0.0288 0.0341 0.0158 0.0224 0.0170 0.0180 0.0397 0.0397 0.0283 0.0350 0.0288 0.0544 0.0604 0.0541 0.0764 0.0448 0.0265 0.0439 0.0322 0.0395 0.0482 0.0402 0.0279 0.0280 0.0774 0.0438 0.0286 0.0466 0.0322 0.0358 0.0484 0.0417 0.0281 0.0275 0.0350 0.0288 0.0530 中30 中31 中32 中33 中34 中35 中36 中37 中38 中39 中40 中41 中42 中43 中44 中45 中46 中47 中48 中49 中50 低1 低2 低3 低4 低5 低6 低7 低8 低9 低10 低11 低12 低13 低14 低15 低16 低17 低18 低19 低20 低21
0.1351 0.0909 0.0779 0.0797 0.1035 0.1203 0.0928 0.0979 0.0963 0.1051 0.1884 0.1577 0.1220 0.1103 0.0983 0.1093 0.1341 0.1007 0.1051 0.0929 0.0884 0.1276 0.0566 0.0760 0.0250 0.0640 0.0713 0.0632 0.0609 0.0658 0.0474 0.0501 0.0476 0.0782 0.1004 0.0753 0.0792 0.1005 0.0564 0.0605 0.0437 0.0653 0.0215 0.0243 0.0283 0.0238 0.0259 0.0369 0.0280 0.0219 0.0205 0.0172 0.0192 0.0190 0.0155 0.0121 0.0047 0.0258 0.0180 0.0257 0.0369 0.0121 0.0047 0.0367 0.0384 0.0203 0.0226 0.0234 0.0198 0.0503 0.0420 0.0547 0.0657 0.0387 0.0195 0.0161 0.0065 0.0233 0.0280 0.0341 0.0203 0.0263 0.0214 0.0198 17
0.1003 0.1122 0.1006 0.1001 0.0894 0.0785 0.0941 0.0941 0.1276 0.1027 0.1106 0.0686 0.0510 0.0655 0.0735 0.0785 0.0941 0.0875 0.0730 0.0725 0.1001 0.0700 0.0915 0.2662 0.0893 0.0991 0.0731 0.1509 0.0945 0.1851 0.1184 0.1490 0.1307 0.1403 0.1691 0.1767 0.1352 0.0717 0.0925 0.2772 0.0891 0.1000 0.0163 0.0146 0.0105 0.0082 0.0182 0.0168 0.0187 0.0105 0.0082 0.0183 0.0172 0.0112 0.0139 0.0101 0.0176 0.0168 0.0158 0.0157 0.0165 0.0162 0.0168 0.0898 0.1250 0.1800 0.0858 0.0929 0.0923 0.0645 0.1386 0.1304 0.0663 0.1500 0.1100 0.0843 0.1004 0.0887 0.1003 0.1110 0.0789 0.1234 0.1146 0.1286 0.0604 0.0542 0.0303 0.0348 0.0489 0.0372 0.0305 0.0328 0.0344 0.0289 0.0430 0.0644 0.0555 0.0286 0.0419 0.0342 0.0355 0.0465 0.0410 0.0268 0.0344 0.0164 0.0216 0.0139 0.0125 0.0248 0.0211 0.0355 0.0469 0.0199 0.0166 0.0055 0.0108 0.0050 0.0264 0.0140 0.0171 0.0149 0.0179 0.0176 0.0065 0.0118 低22 低23 低24 低25 低26 低27 低28 低29 低30 低31 低32 低33 低34 低35 低36 低37 低38 低39 低40 低41 低42 低43 低44 低45 低46 低47 低48 低49 低50 0.0704 0.0711 0.0619 0.0509 0.0440 0.0511 0.0605 0.0584 0.0465 0.0738 0.0725 0.0650 0.0501 0.0440 0.0549 0.7046 0.0280 0.0623 0.6125 0.0456 0.0653 0.0653 0.0805 0.0981 0.0802 0.1735 0.8997 0.1149 0.0456 0.0163 0.0064 0.0233 0.0280 0.0378 0.0228 0.0233 0.0233 0.0183 0.0529 0.0487 0.0466 0.0757 0.0429 0.0481 0.0115 0.0066 0.0268 0.0268 0.0657 0.0387 0.0245 0.0191 0.0206 0.0246 0.0199 0.0190 0.0253 0.0173 0.0735 0.1519 0.0935 0.1051 0.1184 0.1490 0.1407 0.1403 0.1791 0.1767 0.1302 0.1451 0.1284 0.1490 0.1303 0.1404 0.1691 0.1667 0.1336 0.1041 0.1114 0.1433 0.1392 0.1402 0.1481 0.1207 0.1270 0.1262 0.1489 0.1340 0.0664 0.1110 0.1789 0.1341 0.1800 0.1440 0.1341 0.1003 0.1289 0.1404 0.0653 0.0929 0.1746 0.0878 0.1250 0.1389 0.0858 0.1683 0.0923 0.0675 0.1586 0.1304 0.1663 0.1500 0.1100 0.0826 0.1110 0.0889 0.0040 0.0424 0.0143 0.0171 0.0149 0.0201 0.0132 0.0113 0.0125 0.0211 0.0333 0.0479 0.0189 0.0186 0.0095 0.0208 0.0045 0.0264 0.0140 0.0171 0.0154 0.0206 0.0129 0.0228 0.0201 0.0355 0.0176 0.0158 0.0098 表4.5 150家店铺词频统计 Form4.5 150 store word frequency statistics 4.4淘宝评论的分析 4.4.1 K-means快速聚类 对于样本数据,首先采用快速聚类分析方法,意在找到一个初步的聚类结果。这里样本数据的使用SPSS.22中的分类下的K-means均值聚类来进行分析,由于没有任何先验知识,为保证聚类效果,将初始类簇分为2个,3个,4个,5个,6个,并根据聚类结果来验证多少类簇是最适宜的。这里判断类簇适宜的标准有两个,一个是类簇之间包含记录的个数尽可能的平均,另一个是类簇最终聚类中心之间的差异要显著。下面进行这一步的工作:
18
(1)类簇个数与最终每个聚类中案例数目的比较,如表4.6所示。 类簇数目 2类分法 3类分法 4类分法 5类分法 6类分法 1 147 3 45 2 33 2 3 102 3 2 1 3 45 33 1 2 4 69 101 69 5 44 2 6 43 表4.6 类簇数目与案例数目对比表 Form4.6 The number of class clusters and the number of cases comparison table 表4.6中可以看到2类、3类、5类分法样本分布是比较不均匀的,2类分法存在显著的倾斜性,数据明显往第一个分类倒,3类分法与5类分法也存在同样的问题。剩下的两类采用AVONA方差分析来确定,这种分析方法可以判读类簇最终聚类中心之间的差异是否显著,应选择差异较大的分类方法: 聚集 错误 df 3 3 3 3 3 平均值平方 .001 .000 .001 .000 .000 df 146 146 146 146 146 F 510.690 3.140 36.853 246.183 23.258 显著性 .000 .027 .000 .000 .000 质量 物流 外观 价格 服务 平均值平方 .453 .001 .032 .120 .003 表4.7 四类分法方差分析表 Form4.7 Four types of sub-method analysis of variance table 聚集 错误 df 5 5 5 5 5 平均值平方 .001 .000 .001 .000 .000 df 144 144 144 144 144 F 443.662 1.986 44.129 159.960 13.792 显著性 .000 .084 .000 .000 .000 质量 物流 外观 价格 服务 平均值平方 .280 .000 .027 .073 .002 表4.8 Six types of sub-method analysis of variance table 表4.7表4.8中,数据项的含义为:组间均方,组间自由度,组内均方,组内自由度与显著性水平。两张张表中,四类类分法的变量差异性较大的,其具有统计意义。
19
综上所述,在聚类分析时,预先选择6个类簇作为聚类最终类簇数进行建模,距离选择平方欧氏聚类进行聚类,最终类簇中心如表4.9
最终聚集中心
聚集
质量 物流 外观 价格 服务
1 .0633 .0306 .1357 .1162 .0183
2 .7389 .0191 .1337 .1253 .0175
3 .1662 .0284 .1518 .0093 .0219
4 .1193 .0233 .0929 .0131 .0358
表4.9最终聚类中心 Form4.9 Final cluster centers
最终聚类中心分别为:
(.0633,.0306,.1357,.1162,.01833),(.7389,.0191,.1337,.1253,.01755),(.1662,.0284,.1518,.0093,.0219),(.1193,.0233,.0929,.0131,.0358)四个大类都有各自的特点。
与最终聚类中心之间的距离
聚集 1 2 3 4
1
2 .676
.676 .148 .122
.587 .641
.075 3 .148 .587
4 .122 .641 .075
表4.10最终聚类中心之间的距离
Form4.10 Distance between final cluster centers
从表4.10最终聚类中心点间的距离来看,4个最终聚类中心彼此之间的距离是显著的,中心2与中心3之间距离是最大的,达到了 0.676,中心3与中心4之间的距离最小,为0.075。
每个聚类的个案数 叢集
1 2 3 4
有效
20
45.000 3.000 47.000 55.000 150.000
遗漏 .000 表4.11每个聚类中的案例数 Form4.11 The number of cases in each cluster 表4.11显示了六个类簇之中的案例数,其中,第2类记录最少只有3条记录,第4类记录最多达到55条记录,而第1类跟第3类较为相等,第1类有45条记录,第3类有47条记录。 4.4.2 分析结论 各个类别强弱性 质量 物流 外观 价格 服务 1 强 .中 强 弱 强 2 弱 中 中 3 弱 弱 中 4 强 强 中 强 弱 强 中 弱 弱 表4.12 上述的分析中将通过分类将淘宝的评论分为四类,从表4.12中看到各个类别中各个因素的强弱程度是不一样的,根据分类的特征,将这四类分别定义为:注重价格物流,注重质量与价格,注重外观价格,注重体验。 其中注重价格物流,顾名思义就是在购买商品的时候对商品的价格和物流关注度比较高,表4.12中表现为第4类,第4类中在物流与价格两个方面是强关注度,而在质量、服务关注度是为弱而外观的关注度为强。注重质量与服务是在质量与价格的关注度上比较强,表现为表4.12中的第2类,第2类在质量与价格方面关注度为强,而在物流外观方面表现为中度关注,在服务方面表现为弱度关注;外观价格注重,表中表现为第3类,第3类当中表现的是价格与外观的强关注度,而在质量物流以及服务方面表现为弱的关注度。最后一类是注重体验,这一类主要表现为各个方面均注重,而对价格关注不高。 高1,高3,高4,高5,高7,高8,高9,高10,高11,高12,高13,高14,第高15,高16,高19,高20,高21,高22,高23,高24,高25,高26,高27,一高28,高29,高30,高31,高32,高33,高34,高37,高38,高39,高40,类 高41,高42,高43,高45,高46,高47,高48,高49,高50,中2,中3,中40,低47, 第二低37,低40,低40,低48 类 21
低2,低3,低4,低5,低6,低7,低8,低9,低10,低11,低12,低13,第低14,低15,低16,低17,低18,低19,低20,低21,低22,低23,低24,三低25,低26,低27,低28,低29,低30,低31,低32,低33,低34,低35,类 低36,低38,低39,低41,低42,低43,低44,低45,低46,低49,低50, 高2,高6,高17,高18,高35,高36,高44,中1,中4,中5,中6,中7,第中8,中9,中10,中11,中12,中13,中14,中15,中16,中17,中18,四中19,中20,中21,中22,中23,中24,中25,中26,中27,中28,中29,类 中30,中31,中32,中33,中34,中35,中36,中37,中38,中39,中41,中42,中43,中44,中45,中46,中47,中48,中49,中50,低1 表4.13 表4.13是各个分类中店铺个数,表中可以看到属于第1类的有95%是高端消费,属于第2类的100%是属于低端消费,属于三类的有100%是低端消费,属于第4类的有98%是中端消费,其中低端消费四类中均有分布,而高端消费出现于第一类与第四类,中端消费只出现于第四类。结合表4.12与表4.13可以看到高端端连衣裙消费者在商品的几个指标中,对于各项的关注度均是比较高的,而价格的关注度相对较低;中端连衣裙消费者对于质量、物流、价格比较关注,而对于服务与外观关注相对中等;而低端连衣裙消费者最显著的特征是对价格的关注强,其余各个方面的关注相对中弱。从表中还可以看到无论是那一类在外观方面的关注度都是中强的,说明无论是那一类的连衣裙消费者对于外观的注重程度都是比较高的。 从连衣裙的不同消费层次的消费者分类特征中,可以看到不同消费层次的商品消费者对其关注度也存在差异,高端消费品消费者关注着商品的各个维度,中端连衣裙的消费者关注维度有所下降,但是对于质量与外观仍然是十分关注的,对于低端连衣裙的消费者,关注度主要集中于价格与外观。对此,这里对淘宝不同层次的卖家的有如下的建议:高端消费品的购买者驻注重商品的质量与商品各方面的服务,同时这些用户粘度相对较大,店家要做好各方面的服务才能增加用户粘度。而对于中端连衣裙消费者卖家可以对在物流与服务方面降低成本,而质量方面要坚决做好;而低端连衣裙消费者属于价格敏感者,要从价格方面入手去吸引消费者。 5.总结与展望 本次数据挖掘实践过程,让本人受益匪浅。整个挖掘过程一开始的一无所知,到最终觉得自己知之甚少。一无所知是指原本对数据挖掘只停留在概念上的理解,没有实践过,而知之甚少是指在整个研究过程,从数据搜集到最终的数据分析,这些实践性的操作与分析都无到有的学习过程,并且在学习的过程当中,越深入越感觉自己学习的越少,所以最终有一种越学越觉得少的感觉。 本次数据挖掘让本人对SEXCEL的统计分析功能有进一步了解,EXCEL的统计功能
22
是十分强大,原本对EXCEL的认识只有简单的公式的应用,本次数据挖掘中的分词以及中文词频的统计均可以通过宏功能来实现,宏功能是用VB语言进行简单编程,但是却可以实现很多统计功能。同时在本次分析中应用的SPSS软件也是十分强大的分析工具,SPSS当中包含多种统计分析的算法,可以根据实际需要调用里面的算法,结果也可以根据自己的需要进行设置。 遇到的困难:本次数据挖掘过程碰到比较大的难题便是K-means算法的学习和应用,以及利用SPSS进行数据分析时,对于产生的结果的分析。SPSS是之前没有接触的过的分析软件,对于它的使用规则不清楚,通过借书学习,网上看教程,最终能简单应用SPSS进行相关性分析还有聚类分析。SPSS软件还有许多应用的地方,本次数据挖掘激发了我学习SPSS 的兴趣,在本次数据挖掘结束后,本人也将深入学习使用SPSS强大的分析功能,同时也想深入学习掌握EXCEL的统计分析。 对于本次数据挖掘的自我评价,本次数据挖掘总体来说花费的时间跟精力是比较多的。这次数据挖掘仍然存在很大的不足,首先是样本不够大,加上数据处理的时候把还把评论整合到一个店去分析,也就是只有是50个样本数据,如果把这150家店铺的七万多条数据以条作为样本单位,七万多条数据来研究消费的评论,这样子会严谨一点。 参考文献 ********************************************************************************** 23
后记 ******************************************************************* 致谢 ******************************************************************* 24
25
26
27
因篇幅问题不能全部显示,请点此查看更多更全内容