加载中 ...
首页 > 科技 > 互联网 > 正文

从入门到实战,解锁机器学习,星环科技人工智能秘籍问世

2020-01-06 16:21:37 来源:网络 阅读量:3.35万

从入门到实战,解锁机器学习,星环科技人工智能秘籍问世

星环科技人工智能平台团队合著的《机器学习实战-基于Sophon平台的机器学习理论与实践》现已问世,该书由机械工业出版社出版,凝结星环科技人工智能和大数据团队丰富的实战经验。

从技术视角提供当前人工智能相干技术的深入介绍,不但讲授人工智能知识体系的理论基础,也指点基于实战平台的环境进行操作。

这是1本面向机器学习1线工程技术人员的实战指南。除算法原理讲授,本书还结合实际业务问题,串连起各种工具,手把手教您快速搭建模型,构建行业利用。

本书特点

人工智能已然成了本时期的新动力——它正在革新世界各地的工业,并从根本上改变我们工作的方式。随着技术体系愈来愈复杂,利用场景日趋广泛,开发门坎也愈来愈高。在这类情况下,需要1本关于机器学习的专业图书,不但讲授关于整体知识体系的理论基础,也能够提供基于人工智能研发实战平台环境的操作指点。

《机器学习实战:基于Sophon平台的机器学习理论与实践》在讲授AI的算法原理的基础上,还指点针对真实业务问题,如何快速搭建模型,构建机器学习的行业利用。

1. 紧接地气:本书由星环科技人工智能平台研发团队合著,凝聚了来自算法专家及1线软件工程专家的实战经验。相比于国内学术人员的教材或国外译注,本教材案例来自本土真实的业界实践,更加贴合国内机器学习产业的需求。

2. 重视实践:与基于Python等特定语言的机器学习入门教材不同,本书不拘泥于具体功能的代码实现,更关注技术大方向与业务落地的有机结合。

3. 新手友好:对机器学习的各环节,本教材采取交互式的平台Sophon进行落地,各环节高度可视化。对有基础的编程爱好者,可以扩大视野,看看平台带来的效力提升,并没有缝迁移文本代码至新平台;对零基础的读者,可以快速搭建并跑通完全的机器学习流程,提升入门机器学习的自信心。

针对各种类型的机器学习问题,基于星环自研的人工智能平台(Sophon)环境,结合真实案例,依照数据、分析、建模的演进历程和系统化论述并进行实战讲授。

通过原理讲授与实例分析,读者既能了解人工智能相干的算法原理,也能了解人工智能1些可落地的具体利用场景。另外,本书还合适作为Sophon平台工具的使用手册,供平台用户参考。

本书既合适作为高等院校计算机、软件工程、人工智能等相干专业的教学用书,同时也可供从事机器学习相干领域的工程技术人员浏览和参考,帮助掌握机器学习相干的算法原理,并能通过专业工具平台快速搭建各类模型,构建机器学习的行业利用。

星环科技作为国内大数据和人工智能平台的领航者,专注于企业级容量云计算、大数据和人工智能核心平台的自主研发。星环科技Sophon集合基础算法、实体画像、视频分析、知识图谱、云服务、边沿计算和管理组件等多个模块的能量,可让用户快速完成从特点工程、模型训练再到模型上线利用的机器学习全生命周期的开发工作。

关于我们

星环科技人工智能平台团队由510多位优秀的研发工程师和算法工程师组成,逾8成具有国内外名校硕士及以上学历。其中研发子团队的工作重心为1站式人工智能建模平台Sophon;算方法团队则负责基础算法的研发及改进,并在数据发掘、传统机器学习、计算机视觉、自然语言处理、知识图谱等领域进行前瞻性研究和项目实行落地。星环科技人工智能平台团队1直致力于“把中国人自主研发的领先创新技术赋能全球各行各业,增进社会可延续发展,通过科技让人类的生活更美好”。目前产品利用已覆盖金融、安防、电力、交通、教育等数10个行业和领域,申请专利近310个。

下面,我们将用1个商户反讹诈的例子,串起本书的主要章节内容。

1 案例背景

随着移动支付的推行,传统的POS机刷卡已逐渐被新兴2维码POS机刷码所取代。同时,传统的线下商铺刷卡套现也逐渐演变为网络购物套现、个人POS机套现、微商及线上商铺套现等多种方式。

POS刷卡刷码的流程以下图所示:

从入门到实战,解锁机器学习,星环科技人工智能秘籍问世

银行或第3方支付平台首先向商家推行POS机,然后持有银行卡的消费者就能够在相应商铺使用POS机刷卡消费,或也能够将银行卡与支付平台绑定,再在商铺使用POS机刷码消费。这1进程中很有可能产生套现讹诈行动,而我们可使用机器学习方法对商户与消费者间交易行动建模,通过模型自动检测异常商户。

处理这类案例时,我们会先将抽象的业务目标转化为机器可理解的问题,根据我们手中的数据和业务目标构想模型。全部机器学习的进程包括数据预处理及探索性分析、特点提取及选择、模型构建及训练和模型评估。问题建模的流程以下图所示:

2 数据预处理与探索性分析

这1进程包括箱线图、条形图和数据散布特点研究等初步的数据探索、数据的归1化处理、种别特点数据的独热编码或高势集特点编码处理、时间特点数据的连续性变换或时间窗口提取处理等操作,为后续模型的构建及模型收敛速度和精度的提升做了铺垫。

3 特点提取及选择

在POS套现的案例中,我们将构建4种特点,其构建流程以下:

1. 将消费者和商家的静态属性信息作为静态特点;

2. 将商家与消费者之间的动态交易记录作为交易特点,同时加入了商户的平均交易额度等商户深度数据;

3. 分析得到消费者和商家交易图的模式结构特性、传播特点、聚类特点等图结构特点;

使用图嵌入算法和异常检测算法 LOF得到用嵌入特点表示的深度图特点

若数据存在于多个表格中,则可以应用DFS(深度特点融会)进行数据表关联,特点基元和自动特点搜索与组合(Sophon中提供了自动多表扩大算子的接口供建模使用)。自动特点构建出的特点则可使用不同类型的评价指标(如LRLogLossMetric、SquaredLossMetric和EntropyBasedMetric)进行评价,再使用1些局部最优方法进行选择(Sophon中的AutoML模块专门提供了自动特点构建算子供使用)。

4 模型构建及训练

1. 分类模型:将银行业务人员预先指定的异常商户标签作为分类目标,训练1个分类模型(如逻辑回归模型),再根据模型结果判定新商户是不是异常;

2. 回归模型:将异常商户标签经交易网络传播后的异常值作为拟合目标,训练1个回归模型(如线性回归模型),再根据模型结果预测商户未来出现套现异常的等级;

3. 图计算模型:计算图结构及图特点,辅助对交易行动进行可视化图分析

当我们担心单1的分类/回归模型性能没法满足需求时,可使用集成学习,将XGBoost回归、决策树回归/SVM、多层感知机和梯度提升树等各类模型进行简单平均/投票融会,集合成1个强学习器,从而得到1个具有比单独学习算法更好预测性能的结果。而当算法性能遭到诸如训练进程和正则化方法等选择的设计决策影响时,则可以选择使用自动建模。

另外,可视化图分析能够提供大量信息。如图所示:AB 两个欺骗商铺的顾客中大多使用非信誉卡交易,而其共同消费者(疑似讹诈团伙)却大都使用信誉卡交易,极可能在实行信誉卡套现等欺骗行动。结合商户信息的查询结果:这两个店铺物理距离相距超过 30 千米,且这几个消费者短时间内同时在这两家产生了消费,也左证了可视化图提供的信息。

5 模型评估

以判定商户是不是异常的分类模型为例,我们选择混淆矩阵、ROC曲线与PR曲线进行模型评估。

从图中可以看到,在使用了前面所述特点进行模型训练使得测试集上模型的精度和召回率分别到达 0.925 和 0.7,基本能够满足商户异常监测场景的需要。

从以上分析案例可以看到,Sophon的各个算法算子和可视化分析工具,能够帮助有数据分析需求的业务人员更好地上手使用机器学习对相干业务案例进行分析,同时也使得全部模型搭建流程和结果展现更加清晰,帮助业务人员更好地研究场景问题,助力业务目标的达成。

另外,我们还可以借助自然语言处理和计算机视觉技术,将更多关于商户和消费者的非结构化信息纳入模型,构成更综合化的分析体系。更多主题将在后续的独立文章中显现,敬请期待。

内容提早知

本书内容覆盖了机器学习领域从理论到实践的多个主题,总共分为10章。

1

第1章 机器学习导论

介绍机器学习的背景、定义和任务类型,构建机器学习利用的步骤,和开发机器学习工作流的方式。

2

第2章 数据预处理与特点工程

详细介绍数据预处理和特点工程技术,并辅以实例进行验证。

3⑹

第3~6章

介绍回归模型、分类模型、模型融会和聚类模型,这些内容是机器学习理论和实践中的传统重点。其中不但介绍各种常见数据类型的处理方法,还针对删失数据进行了专门的综述和实践。

7

第7章 图计算

介绍机器学习领域较难的图计算话题,并从工业界视角解读如何将图计算落地。

8

第8章 自动机器学习

针对特点工程、建模进程中大量调参的场景介绍自动机器学习的理论和利用,并细致比较和测试了各种自动特点工程算法在不同数据上的表现。

9

第9章 自然语言处理

介绍自然语言处理(词向量、序列标注、关键词抽取、自动摘要和情感分析)技术,使用新闻文本数据搭建文本分类的流程。

10

第10章 计算机视觉

介绍计算机视觉中图象分类和目标检测的利用和车辆检测的落地案例。

《机器学习实战》目前已在以下渠道开启销售

“掌阅财经”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与

我们联系删除或处理,客服邮箱99686143@qq.com,稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同

其观点或证实其内容的真实性。

  • 声音提醒
  • 60秒后自动更新
  • 中国8月CPI年率2.3%,预期2.1%,前值2.1%。中国8月PPI年率4.1%,预期4.0%,前值4.6%。

    08:00
  • 【统计局解读8月CPI:主要受食品价格上涨较多影响】从环比看,CPI上涨0.7%,涨幅比上月扩大0.4个百分点,主要受食品价格上涨较多影响。食品价格上涨2.4%,涨幅比上月扩大2.3个百分点,影响CPI上涨约0.46个百分点。从同比看,CPI上涨2.3%,涨幅比上月扩大0.2个百分点。1-8月平均,CPI上涨2.0%,与1-7月平均涨幅相同,表现出稳定态势。

    08:00
  • 【 统计局:从调查的40个行业大类看,8月价格上涨的有30个 】统计局:从环比看,PPI上涨0.4%,涨幅比上月扩大0.3个百分点。生产资料价格上涨0.5%,涨幅比上月扩大0.4个百分点;生活资料价格上涨0.3%,扩大0.1个百分点。从调查的40个行业大类看,价格上涨的有30个,持平的有4个,下降的有6个。 在主要行业中,涨幅扩大的有黑色金属冶炼和压延加工业,上涨2.1%,比上月扩大1.6个百分点;石油、煤炭及其他燃料加工业,上涨1.7%,扩大0.8个百分点。化学原料和化学制品制造业价格由降转升,上涨0.6%。

    08:00
  • 【日本经济已重回增长轨道】日本政府公布的数据显示,第二季度经济扩张速度明显快于最初估值,因企业在劳动力严重短缺的情况下支出超预期。第二季度日本经济折合成年率增长3.0%,高于1.9%的初步估计。经济数据证实,该全球第三大经济体已重回增长轨道。(华尔街日报)

    08:00
  • 工信部:1-7月我国规模以上互联网和相关服务企业完成业务收入4965亿元,同比增长25.9%。

    08:00
  • 【华泰宏观:通胀短期快速上行风险因素主要在猪价】华泰宏观李超团队点评8月通胀数据称,今年二、三季度全国部分地区的异常天气(霜冻、降雨等)因素触发了粮食、鲜菜和鲜果价格的波动预期,但这些因素对整体通胀影响有限,未来重点关注的通胀风险因素仍然是猪价和油价,短期尤其需要关注生猪疫情的传播情况。中性预测下半年通胀高点可能在+2.5%附近,年底前有望从高点小幅回落。

    08:00
  • 【中国信通院:8月国内市场手机出货量同比环比均下降】中国信通院公布数据显示:2018年8月,国内手机市场出货量3259.5万部,同比下降20.9%,环比下降11.8%,其中智能手机出货量为3044.8万部,同比下降 17.4%; 2018年1-8月,国内手机市场出货量2.66亿部,同比下降17.7%。

    08:00
  • 土耳其第二季度经济同比增长5.2%。

    08:00
  • 乘联会:中国8月份广义乘用车零售销量176万辆,同比减少7.4%。

    08:00
  • 央行连续第十四个交易日不开展逆回购操作,今日无逆回购到期。

    08:00
  • 【黑田东彦:日本央行需要维持宽松政策一段时间】日本央行已经做出调整,以灵活地解决副作用和长期收益率的变化。央行在7月政策会议的决定中明确承诺将利率在更长时间内维持在低水平。(日本静冈新闻)

    08:00
  • 澳洲联储助理主席Bullock:广泛的家庭财务压力并非迫在眉睫,只有少数借贷者发现难以偿还本金和利息贷款。大部分家庭能够偿还债务。

    08:00
  • 【 美联储罗森格伦:9月很可能加息 】美联储罗森格伦:经济表现强劲,未来或需采取“温和紧缩”的政策。美联储若调高对中性利率的预估,从而调升对利率路径的预估,并不会感到意外。

    08:00
  • 美联储罗森格伦:经济表现强劲,未来或需采取“温和紧缩”的政策。美联储若调高对中性利率的预估,从而调升对利率路径的预估,并不会感到意外。

    08:00
  • 美联储罗森格伦:鉴于经济表现强劲,未来或需采取“温和紧缩的”政策。

    08:00