小売業CRM  ・中国流通動向  ・日本流通動向  ・中国経済関連ニュース 

日本流通動向(中国語)

表  題
概  要
登録日

基于对顾客购买数据挖掘的
多维交叉分层列联表分析方法
~中国航天航空大学生的研究课题

研究对象[J-COMs]使用客户

2.1.1 Apriori 关联规则算法

1993 年美国学者 Agrawal [3] 提出通过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。艾格拉沃从数学及计算机算法角度提出了商品关联关系的计算方法—— A prior 算法。 Apriori 算法是最有影响力的挖掘 布尔 关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。 我们先给出一些概念的定义:

资料库( Transaction Database ):存储着二维结构的记录集。定义为: D

所有项集( Items ):所有项目的集合。定义为: I 。

记录 ( Transaction ):在资料库里的一笔记录。定义为: T , T ∈ D

项集( Itemset ):同时出现的项的集合。

候选集( Candidate itemset ):通过向下合并得出的项集。定义为 C[k] 。

频繁集( Frequent itemset ):支持度大于等于特定的最小支持度( Minimum Support/minsup )的项集。表示为 L[k] 。注意,频繁集的子集一定是频繁集。

支持度( Support ):定 义为 supp(A) = N(A) / N(D) = P(A) 。

多项支持度 : P(A ∪ B) ,即 A 和 B 这两个项集在事务集 D 中同时出现的概率。

置信度( Confidence/Strength ): 定义为 conf(X->Y) = supp(A ∪ B) / supp(A) = P(B|A) 。

性质:如果一个项集是频繁的,那么它的所有子集都是频繁的。

关联规则挖掘分两步进行: 首先 找到所有支持度大于最小支持度的项集( Itemset ),这些项集称为频集 L ( Frequent Itemset) 。 然后使用第 1 步找到的频集产生期望的规则, 对于所有频繁项集,生成 l 的所有非空子集 s 。

为生成所有频繁项集, Aprior 使用了递推的方法 , 其核心思想是:

( 1 ) L 1 = find_frequent_1-itemsets(D);

( 2 ) for (k=2;L k-1 ≠Φ ;k++) {

( 3 ) C k = apriori_gen(L k-1 ,min_sup);

( 4 ) for each transaction t ∈ D {//scan D for counts

( 5 ) C t = subset(C k ,t);//get the subsets of t that are candidates

( 6 ) for each candidate c ∈ C t

( 7 ) c.count++;

( 8 ) }

( 9 ) L k ={c ∈ C k |c.count≥min_sup}

( 10 ) }

( 11 ) return L= ∪ k L k ;

Apriori 算法的缺点: (1) 由频繁 k-1 项集进行自连接生成的候选频繁 k 项集数量巨大。 (2) 在验证候选频繁 k 项集的时候需要对整个数据库进行扫描,非常耗时。

在他的论文 [4] 中, Agrawal 等引入了剪枝技术( Pruning )来减小候选集 Ck 的大小,由此可以显著地改进生成所有频集算法的性能,大大压缩了搜索空间。

2012.04.30

基于对顾客购买数据挖掘的
多维交叉分层列联表分析方法
~中国航天航空大学生的研究课题

研究对象[J-COMs]使用客户

2.1 面向购物篮分析 之挖掘手段——关联分析

关联规则作为数据挖掘中最活跃的研究方法之一,最早是 1993 年由 Agrawal 等人针对购物篮分析问题提出的 [l] ,目的是为了发现交易数据库中不同商品之间的关联规则 . 关联规则定义了从事务数据库的大量数据中挖掘项集之间有趣的关联或相关关系 , Pei J&Han J (2000) 认为关联规则是在事务数据库的交易记录中被同时购买的不同商品项之间的关联关系。 关联分析是指如果两个或多个事物之间存在一定的关联,那么其中一个事物就能通过其他事物进行预测。它的目的是为了挖掘隐藏在数据间的相互关系。主要应用是通过分析顾客的购物篮,找到商品与商品间的关联及商品与顾客之间的关联。

大多数关联规则挖掘算法将关联规则挖掘任务分解为如下两个主要的子任务:

(1) 频繁项集产生:其目标是发现满足最小支持度阈值的所有项集,这些项集称作频繁项集。

(2) 规则的产生:其目标是从上一步发现的频繁项集中提取所有高置信度的规则,这些规则称作强规则。通常,频繁项集产生所需的计算开销远大于规则的产生所需的汁算开销。

2012.04.30

基于对顾客购买数据挖掘的
多维交叉分层列联表分析方法
~中国航天航空大学生的研究课题

研究对象[J-COMs]使用客户

第二章 数据挖掘之购物篮分析及相关技术概述

购物篮指单个顾客一次性购买商品的总和,主要用途为通过这些购物篮所显示的信息来研究顾客的购买行为。购物篮分析藉由顾客的购买行为来了解是什么样的顾客以及这些顾客为什么买这些产品,找出关联规则,企业藉由这些规则的挖掘获得利益与建立竞争优势。举例来说,零售店可藉由此分析改变置物架上的商品排列或是设计吸引客户的商业套餐等等。 通过购物篮分析挖掘出来的信息可以指导 交叉销售和追加销售 、商品促销、顾客忠诚度管理和折扣计划。
2012.04.30

基于对顾客购买数据挖掘的
多维交叉分层列联表分析方法
~中国航天航空大学生的研究课题

研究对象[J-COMs]使用客户

1.5 文章组织结构

本文第一章主要内容为课题的研究内容和创新点;第二章主要内容为课题所用技术与方法的综述;第三章在第二章基础上提出分层交叉列链表的理论模型及此模型需要实现的功能;第四章运用第三章的理论模型进行真实数据的挖掘,将得到的数据分析结果列表化,并针对实际挖掘出的结果进一步提出多项数据关联的结合方法;第五章将这种交叉列联表的模型进行推广到顾客分层上,并得到数值实现。
2012.03.30

基于对顾客购买数据挖掘的
多维交叉分层列联表分析方法
~中国航天航空大学生的研究课题

研究对象[J-COMs]使用客户

1.4 本文的创新

1. 加入 lift (提升度)的列联表思想:挖掘商品之间的关联常使用的方法是 Apriori 算法。使用支持度——置信度框架的关联规则挖掘对于许多应用是有用的。然而支持度——置信度框架还存在以下问题:尽管 A => B 满足最小支持度、置信度,但当 A 的出现事实上并不蕴涵 B 的出现时,即 A 和 B 的出现是独立的,不能识别出 A => B 是有趣的,他们之间没有多少(或很少有)相关性。即出现“伪相关”的现象。故我们抛开 Apriori 算法的精度优化,从实际出发,通过建立列联表、同时延用 Apriori 算法中支持度——置信度的框架来衡量商品被购买的频度与相互之间的关联问题。

2 . 无 hint (假设)多项关联分析: OLAP 模型很难进行无假设分析,同样,在大量的数据下, Apriori 算法也容易出现高频却不相关的“伪关联”现象。本文给出一种无假设分析方法,它能够快速找到大量商品数据下的种种关联,且无需提前选定商品分类。方便我们找到“意想不到的”商品关联。

3. 多项关联:根据得到的结果给出一种频集的多项关联方法,将 交叉列联表与 Apriori 组合使用,在有效的关联范围内进行关联分析。
2012.03.30

基于对顾客购买数据挖掘的
多维交叉分层列联表分析方法
~中国航天航空大学生的研究课题

研究对象[J-COMs]使用客户

1.3 课题研究内容:

首先,建立购物篮中单品同时交叉出现的次数的矩阵模型,建立分层交叉列联表。方法中延用了 Apriori 算法中 置信度——支持度的模型,并在此基础上加入提升度( lift 值),以 避免产生 Apriori 算法中可能会出现的“伪关联”规则。

其次,考虑到 数据分布具有分散性,故数据很难在最细节的层次上发现一些强关联规则,为了可以在较高的层次上进行挖掘,我们在构建商品分类的同时,加入了分层的概念。

再次,引入多维的概念,即 OLAP 多维 模型,不仅在商品维内分析商品与商品的关联,还 实现了商品维与顾客维的交互分析,从而研究顾客行为。

此外,根据实际数据分析中存在的问题提出一种交叉列联表与 Apriori 组合模型。最后,将此多维分层交叉列联表的方法延伸到顾客分层,根据 Pareto 法则以消费额为指标对顾客进行了分类。

2012.03.30

基于对顾客购买数据挖掘的
多维交叉分层列联表分析方法
~中国航天航空大学生的研究课题

研究对象[J-COMs]使用客户

1.2 数据挖掘购物篮分析的方法

数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中、人们事先并不知道、但又是潜在有用的信息和知识的过程。数据挖掘涉及的学科领域和方法很多,其中购物篮分析是数据挖掘在流通业领域的一个重要分析方法。购物篮分析即对顾客购买数据的挖掘的过程,根据挖掘任务可分为分类、预测、聚类和 关联规则 发现等等;根据挖掘方法可分为 : 机器学习 方法、 统计方法 和 数据库 方法。机器 学习方法 包括归纳学习方法、 遗传算法 等;统计方法包括 回归分析 、 聚类分析 等;数据库方法主要包括多维 数据分析 ( OLAP )。

本文主要通过建立列联表、 OLAP 多维分析的方法进行商品间的关联分析、商品与顾客间的交叉分析。
2012.03.30
基于对顾客购买数据挖掘的
多维交叉分层列联表分析方法
~中国航天航空大学生的研究课题
研究对象[J-COMs]使用客户

 

第一章  引   言

1.1 课题研究的背景

随着经济、技术的不断发展,零售业面临着重大变革:具有竞争优势的零售商不但要知道客户信息、购买信息,还要能够根据这些信息抓住顾客的行为动向,实施有针对性的措施。数据挖掘作为一种新兴商业信息处理技术 , 通过对数据库中的大量数据进行抽取、转换、分析和其它模型化处理,帮助人们从数据的汪洋大海中挖掘出与企业决策相关联的信息,并在此基础上制定有效、针对顾客的销售方案,最终为企业带来更多的利润。结合数据挖掘技术 , 一种面向零售业称之为购物篮分析的方法诞生了 , 这对零售业的市场营销决策行为具有重要的意义 , 已越來越受到国内外流通业的广泛重视。

2012.03.30
基于对顾客购买数据挖掘的
多维交叉分层列联表分析方法
~中国航天航空大学生的研究课题
研究对象[J-COMs]使用客户
 

摘     要

本文介绍一种分层交叉列联表的购物篮分析方法,通过建立购物篮中单品同时交叉出现的次数的矩阵模型,快速找到交叉的商品及商品背后反应的顾客行为。模型延用 Apriori 算法中 置信度——支持度原则,并加入提升度( lift )、分层、多维( OLAP )等概念,不但 避免产生 Apriori 算法中可能会出现的“伪关联”现象,且分析前无需进行假设,还 可以在较高的层次上进行挖掘, 同时有效避免了 Apriori 算法中可能会筛选掉“低频却有价值”商品的行为,并实现了商品与顾客行为的多维交互分析。

文中采用日本千葉县千葉药品 YACS 八叶市场 FSP 店 2011 年 8 月到 2012 年 1 月的购买数据作为实验数据,在对数据经过处理(包括数据转换与建立 OLAP 模型)后,进行上述分析。一系列的数据分析实验结果表明,分层交叉列联表方法能够快速、有效地在海量数据中发现商品与商品间的关联知识、顾客与商品间的行为知识,从而有效的掌握了消费者的行为动态,其模型的推广也有广泛的应用。
2012.03.30
从邻家老太太哪里学到的东西!
专门找便宜货购买的邻家老太太那里,我们究竟能领悟到什么?
2011.01.21
企业分析力就是强有力的武器

当今社会,产品差别化,服务差别化,技术差别,手法差别化等词汇出现得很平凡,频度很高。但是真正要做到差别化,在现实中事情变得越来越艰难。因为,任何新的创新也好,技术也好,很快被他人模仿。更严重的是,随着全球化经济的迅猛发展和 WHO,EPA,TPP,FTA 等国际游戏规则的广泛渗透,地理环境和区域优势也变得越来越没什么意义了。原先所谓的优势这一词,在当今社会似乎已经不复存在。在这种时候,要想在竞争中争取占有有利的地位,剩下的决定因素只有一条,那就是要把业务流程更有效,更有效率地实施。或者说,更有效地作出最佳决策了。

那么,怎样才能更有效地作出最佳决策呢?目前最有效的方法有一个,那就是,对现状做出快速,准确,有效地进行分析的基础上把业务流程或者决策的价值最大化。企业的这种分析方法及实施能力我们称之为分析力。

在当今社会,分析力在企业活动中方方面面可以广泛使用的有效的手段。在这个激烈竞争的社会里想生存,并且想生存好,企业必须拥有至少一件和其他企业不同的武器。正上所述那样,企业在产品,技术等方面进行绝对的差别化很艰难,所以,企业所谓的不同的武器很多时候与企业的业务流程或者决策有关。比如,有一家公司很成功 , 这是因为他们把他们的死心塌地不变心的客户分析得很透彻,并巧妙地设定商品价,让这些顾客能够轻松地负担得起这些商品的价格;再比如,有家公司库存了容易代替的标准商品,保持低库存水平的同时尽量避免脱销是这家公司生存的决定因素,那么,这种供应链最优化的最佳手段还是分析力;还有,在劳动力集中型业种业态里,采用优秀的人才,并把他们稳定下来进行培养使用的关键还是分析力。我们知道,在这方面美国的职业体育界做得非常出色。他们把分析应用到运动员的选拔上。通过分析,他们不但发现了好的人才,而且把费用降低到最低。然而,在产业界人事方面至今还很少使用分析力这一有效的工具和手段。

有些企业虽然在业务流程方面没有什么特色,但是在决策方面有他们的独特之处。比如,有一家企业,她所有的店铺的位置都非常好,召集顾客方面很出色。那么,这家企业肯定是精确而彻底分析的基础店铺选址;又比如,有家企业靠兼并和收购成功地扩大了经营规模。大家都知道,一般情况下兼并的成功率很低,然而这家企业总是选对合适的兼并对象。这种 对象的 选择 肯定不会是凭感觉来进行的,其背后肯定有彻头彻尾的分析。在优秀的决策的背后一定隐藏着数据收集能力和对数据进行分析的能力。

分析本身不是战略,但是使用分析把你的特长最优化就成为战略了。不论哪一种的战略都可以用分析来强化。把分析作为武器,把你们认为强项的东西作为基准制定战略,在庞大的数据中进行统计,分析,挖掘及定量化的基础上,以事实作为为准绳来作决策,增强和延伸你们的强项,这就是一个优良企业应有的作为。也是和其他竞争对手差别化的最有效的武器。

最近几年,我们一直在研究企业分析力方面。也在为我们的客户提供分析,咨询和顾问方面的服务。其效果非常之明显。在这不景气,竞争惨烈的年代里,为我们的客户作出了一些贡献而感到欣慰!

危难时见朋友,危机时考企业。作为企业领导,时时刻刻有危机感,危机来临之前做好应对危机的准备。分析力作为企业的

假如像日本一样,泡沫经济破灭,商品供过于求,顾客日益成熟日渐个性化,市场竞争变得日趋激烈的时候,我们的胜算有几何?未雨绸缪,还是赶快行动起来把我们的死心塌地的优良客户“包围”起来,稳固我们的经营根基吧!

2010.11.22
即使价格便宜为什么顾客不回头呢?

诸如,如果介绍把焦点放在 [ 固定客化 ] 上来提高营业额的例子的话应该有数不胜数的。

即便这样,绝对不是说 [ 吸引新顾客是没必要的 ] 。当然,只靠已有顾客来提高营业额并扩大事业规模是不可能的。也没有否认免费纸,打折散单等的作用。这些东西有时在召集新顾客方面发挥特别效果。

然而,使用打折散单召集顾客不论召集多少顾客,这些顾客是 [ 只 1 回顾客 ] 的话就没什么意义了。问题就在与,把好不容易获得的新顾客 [ 只一回 ] 就画一个结束符上。

的确是,打折方法召集的顾客的回头率低。

[ 通过免费纸召集的顾客,下次没有降价就不利用店铺 ]

好像对口供一样,从很多经营者那里听到此话。如果你的店铺从现在起中一直打折下去的话也就没什么可说了。但是,打折的结果,从前的打折之后的价格很快就变为不是打折的价,而成为 [ 定价 ] 了。每回的表面上的降价来维持顾客,到何时为止能让顾客感到 [ 得到便宜 ] 呢?你通过削减利益来继续降价的结果,其结果顾客找 [ 更便宜的店铺 ] 离你而去。

可是,这是没办法的事。问题不在于顾客方。问题在于,你一开始就打出便宜的招牌,召集 [ 只对价格感兴趣的顾客 ] 上。
2010.08.25
店铺繁盛的简单秘诀是什么?

开始讲一讲繁盛你店铺的秘诀。

只要把 [ 只 1 回顾客 ] 的利用回数变为 [2 回 ] 营业额就开始提高。

只要把 70% 以上的 [ 只 1 回顾客 ] 减少到 60% 营业额就开始提高。

大多数经营者想吸引新顾客。不只是想,想得有些狂热。免费纸,打折散单,介绍票等等,不外乎利用降价来吸引新顾客。我呢,没说全坏。使用打折方法的确容易吸引新顾客。但是,听着,这样,吸引的结果营业额提高了吗?

当然,一瞬间可能提高了。但是,那些顾客随后也重复利用你店铺了吗?实际上,打折方法召集起来的新顾客的回头率是明显的低的。

也就是说,好不容易花钱召集起来的新顾客,只和当月(最坏时当天)的瞬间营业额关联。

正因为如此,我想大声说,召集 [ 只 1 回顾客 ] 没有意义。要紧的是,怎样把顾客重复利用你的店铺。

为此, [ 顾客固定化 ] 是重要的。把焦点放在顾客的回头率上下功夫。犹如星星一样多的同行中,怎样让顾客选择你店铺上下功夫。事实上,我公司很多客户,让顾客重复利用店铺来提高营业额着。
2010.08.25
为什么顾客不回头?

在这里,说一个打开眼界的话题。

在你店铺里可能来很多的顾客。

在那里定会过去 [ 只 1 回 ] 利用你店铺后从此再也不来过的顾客。

此类顾客在本书中叫做 [ 只 1 回的顾客 ] 。然而,你知道吗? [ 只 1 回的顾客 ] 在店铺顾客中占多少比例呢?

[ 嗯,因为我们店对自己的商品有信心,所以只要 1 回利用放着不用管就自动重复利用。可能, … 只 1 回的顾客在全体中大概占 20% ,至多也就占 30% 。 ]

大多数店铺都这样觉得,认为,只要 [ 商品 ] , [ 接客 ] , [ 气氛 ] 好的话顾客就会自动重复地来店。然而,事实却并非如此。事实上,在很多店铺里, [ 只 1 回的顾客 ] 所占的比例超过 70% !

也就是说,大多数的顾客,利用你店铺只 1 回就离你而去!

啊?凭什么这样说?

我是计算机工作者。读了 800 多家美容院,饮食店的数据。如果你的店铺不例外的话,认为和其他店铺雷同不会错。数据证明了这一点,即便你的店铺是例外, [ 只 1 回的顾客 ] 所占的比例一定会超过 60% 。

但是, [ 只 1 回的顾客 ] 只占 60% 的店铺也非常细少,而绝大多店铺的这个比例都超过 70% !
2010.08.25

画像