- 博客(29)
- 资源 (65)
- 论坛 (1)
- 问答 (1)
- 收藏
- 关注
原创 分享一个好的数据集资源目录
在网上查找资料的时候发现了一个很不错的仓库,主要就是存储日常用到的机器学习深度学习数据集的,都是可以直接下载使用的,觉得这个很好的原因就是:很多数据集本来就是公开开放的,很多学生都会根据网上的教程来进行自己的学习和实验。可是有的人却把这个当做是赚积分赚C币的手段,就像下面这样的: 觉得真心是很没有意思,我倒不是说什么数据集、电子书之类的学习资料不能上传然后用来赚取积分,...
2019-06-28 15:51:56
1254
原创 'scipy.misc' has no attribute 'imresize'报错问题解决
使用scipy来对矩阵或者是数组形式的数据来进行处理是很常见的做法, 在实际使用的过程中由于版本不兼容,或者是数据的问题或报各种各样的错误,比如在我之前的一篇博文里面就解决了一个错误【from scipy.misc import imread时报错:cannot import name imread】地址在这里,需要的话可以看看。 今天在使用scipy的时候再一次地报错了...
2019-06-27 17:10:57
4302
原创 .sql文件导入mysql数据库中
在实际项目中,我们要进行数据分析工作的话往往是需要从数据库中提取数据的,今天有一个需要就是leader给我一个.sql文件需要我基于这个我呢间进行相应的数据分析和报告输出工作,这里简单记录一下基于命令行的.sql文件导入过程:mysql -u root -p passworduse mytable;source D:\data\data.sql 执行上述命令...
2019-06-25 19:15:14
3410
原创 数据分析中数据概览神器pandas_profiling介绍
Numpy、Scipy、Pandas、Matlpotlib在数据分析工程师手里几乎都是必备的工具选项,每一个库都有他自己强势的领域,让人爱不释手,当然还有其他的很多库,这里没有去一一列举出来。 在我前面的博文里面有一篇文章详细地介绍了一个详细的数据分析挖掘流程,地址在这里,感兴趣的话可以去看看。 数据分析领域中有一个部分是很重要的,那就是数据探索,不...
2019-06-25 17:23:30
1511
原创 mysql-8.0.16-winx64详细安装教程
在我之前的博客里面是有mysql安装相关的博客的,但是由于版本的更新可能会在安装过程中出现一些差别,那么今天为什么我又要再次写一次安装的教程呢?绝不对是因为mysql版本更新了,是因为我上周电脑坏掉了,固态硬盘死活起不来了,没办法只好重装了系统,没了固态大哥的支撑,现在的系统简单卡的不行。。。 好了,不吐槽这些了,不仅系统速度卡了,我之前很多环境都没了,毕竟是重装...
2019-06-25 16:48:36
6951
原创 pyspark分类算法之多层感知机神经网络分类器模型实践【MLPClassifier】
继上文的集成学习模型之后,本文实践使用的pyspark提供的多层感知机神经网络模型,这是一种比较简单但是却又很重要的神经网络模型。MLP是一种前向结构的人工神经网络,映射一组输入向量到一组输出向量。MLP可以被看做是一个有向图,由多个节点层组成,每一层全连接到下一层。除了输入节点,每个节点都是一个带有非线性激活函数的神经元(或称处理单元)。一种被称为反向传播算法的监督学习方法常被...
2019-06-21 10:01:22
1641
原创 一个完整的数据分析、挖掘流程详细介绍
完整的数据分析、挖掘流程简介这是在一次面试过程中遇到的一个问题,自己回答了个大概,但是缺少了一部分的东西,所以就抽时间查阅了一些相关的资料来总结了一下,也算是自己的一个学习过程了。一个完整的数据分析或者是数据挖掘过程包括许多个不同的阶段,每个阶段的作用都不相同但却密不可分,下面简单对自己理解总结的一个完整的分析挖掘流程中的各个阶段进行简单介绍。一个完整的分析挖掘流程大致包括以下几个方面:...
2019-06-21 10:00:03
6756
原创 python基于pip和conda配置国内安装源,提升下载安装性能
python基于pip和conda配置国内安装源,提升下载安装性能这是我在CSDN改版升级之后第二次使用markdown编辑器来写博客,markdown我个人觉得还是很不错的,主要就是用的不是很多,所以在实际写的时候可能问题会比较多一点,不管怎么说,凡事都是一个熟能生巧的过程,坚持学习吧!接下来言归正传,进入今天的主题内容:源就是我们使用的第三方包的下载地址,通过配置国内的下载镜像可以实现库...
2019-06-21 09:55:33
1234
原创 pyspark分类算法之梯度提升决策树分类器模型GBDT实践【gradientBoostedTreeClassifier】
本文紧接上文的随机森林分类器模型,实践的同样是分类算法模型,随机森林模型和GBDT模型是机器学习领域里面非常重要的两种集成学习模型,两种模型虽然均采用了集成策略来进一步提升基分类器模型的性能,但是本质上是有区别的,前者采用并行的训练方式,后者采用的是串行的训练方式。同样,下面贴一下自己学习pyspark以来的记录笔记,具体如下: pyspark顾名思...
2019-06-21 09:06:28
1272
原创 pyspark分类算法之随机森林分类器模型实践【randomForestClassifier】
本文紧接上文的决策树分类器模型,实践的同样是分类算法模型,随机森林模型可以简单理解为集成的决策树模型,实质上随机森林模型的设计思想也的确如此,它采用了一种投票的思想来完成了模型最终的决策,将多个弱分类器模型进行集成,来达到提升基分类器模型性能的效果。同样,下面贴一下自己学习pyspark以来的记录笔记,具体如下: pyspark顾名思义就是由pytho...
2019-06-20 19:55:10
2393
1
原创 python坦克大战小游戏,打包为exe文件
今天发现了一个好玩的小项目,做的就是坦克大战的,看到它的一瞬间让我想起了小时候泡在4399网站里面的时光了,我果断下载下来跑了起来,做的还是可以的,这里的可以就是说视觉效果上的可以,至于具体内容细节什么还是有一些bug的,比如我自己摧毁“老窝”的时候居然没有游戏结束,等等。 既然项目别人已经做好了,我就不多做什么工作了,想着运行py脚本多麻烦,能够把游戏打包成为exe文件...
2019-06-20 13:50:12
2036
原创 微软开源可解释机器学习框架 interpret 学习实践
机器学习、深度学习往往给人一种黑盒的感觉,也就是它所表现出来的可解释性程度不高或者是很低,这就给学习使用带来了影响,如果能够对于机器学习的结果进行更好的解释那将会是很棒的。 今天基于微软开源的可解释机器学习框架interpret进行简单的学习实践,主要是想上手我刚刚配置好的jupyter环境来跑一波代码,下面先给出来GitHub地址,在这里。 使用基本的要求是p...
2019-06-19 15:36:41
1268
4
原创 交互式编程神器jupyter notebook环境搭建【不需要虚拟环境就能实现python2版本和python3版本自由切换】
接触python也有将近3年的时间了,我从来都不是一个很擅长去编程的人,也可能是在教学式的环境里面难以有很实践性质的功底吧,python这个语言是零基础学然后一路摸爬滚打,很多声音都说它很简单,但是我想说的是:任何事都是入门简单,精通难。这么长的一段时间里我经常会发现越学新的东西反而越多,越进步反而觉得前面的台阶越看不到尽头,可能这还是说明目前的我还是处于一个比较初级的学习阶段吧。...
2019-06-19 13:41:58
522
原创 python词云可视化方法总结记录【简单词云+背景图片词云+自定义字体颜色词云】
词云是一种非常漂亮的可视化展示方式,正所谓一图胜过千言万语,词云在之前的项目中我也有过很多的使用,可能对于我来说,一种很好的自我介绍方式就是词云吧,就像下面这样的: 个人觉还是会比枯燥的文字语言描述性的介绍会更吸引人一点吧。 今天不是说要怎么用词云来做个人介绍,而是对工作中使用到比较多的词云计较做了一下总结,主要是包括三个方面:1、诸如上面的简单形式...
2019-06-18 10:17:34
4407
2
原创 pyspark连接MySQL数据库,执行SQL语句,返回数据查询结果
在日常的工作中,MySQL和SQLServer是经常使用到的两种数据库,直接连接使用的话是很简单的,如果说需要基于pyspark做连接工具,进行相应的数据查询操作的话就会复杂一点,今天简单的基于pyspark模块实现了连接MySQL数据库,执行给定的查询语句,返回查询结果数据。 接下来简单的说一点自己学习使用pyspark以来的记录学习,具体如下:py...
2019-06-13 15:09:49
2230
原创 python实现不同图像数据的叠加处理、实现多张图像数据以子图形式组合为新的图像数据【图像叠加、图像组合】
python2中提供了PIL基础的图像数据出来模块,在python3中更名为了pillow模块,名字虽然发生了改变,但是提供的方法和功能都是一样的,对于日常基础的图像数据处理分析来说是足够用了。 当前的一个要求就是给定不同的图像数据实现图像数据的叠加处理,此时的叠加处理是在图像大小不变的情况下叠加到一起的,比如:一张轮船在大海航行的图像与一张战斗机在天空滑翔的...
2019-06-13 11:06:21
3157
原创 PIL图像处理模块paste方法简单使用
python2中提供了PIL基础的图像数据出来模块,在python3中更名为了pillow模块,名字虽然发生了改变,但是提供的方法和功能都是一样的,对于日常基础的图像数据处理分析来说是足够用了的,现在正好有一个需求点就是要对给定的图像数据指定的部分进行剪切、替换处理,剪切跟替换操作的本质其实都是一样的,先要得到该区域的左下顶点和右上顶点的坐标然后才能进行相应的操作。 这篇文...
2019-06-13 10:38:49
2343
原创 pyspark分类算法之决策树分类器模型实践【decisionTreeClassifier】
本文紧接上文的逻辑回归分类器模型,实践的同样是分类算法模型,决策树模型是机器学习领域中简单却又强悍,可解释程度很高的一种模型,之前较多使用的库是sklearn,这里面提供了绝大多数机器学习模型的实现和应用方法,很nice的,现在要基于spark来完成决策树模型的简单使用,同样是依托于官方提供的实例,在完整地理解透彻之后,才会进行自己的设计与改造,这是我一般的学习思路。 ...
2019-06-13 09:25:12
1931
原创 pyspark连接SQLServer数据库,执行SQL语句,返回数据查询结果
在日常的工作中,MySQL和SQLServer是经常使用到的两种数据库,直接连接使用的话是很简单的,如果说需要基于pyspark做连接工具,进行相应的数据查询操作的话就会复杂一点,今天简单的基于pyspark模块实现了连接SQLServer数据库,执行给定的查询语句,返回查询结果数据。 pyspark顾名思义就是由python和spark组合使用的。Spark提供了一个...
2019-06-12 17:34:35
1757
原创 pyspark分类算法之逻辑回归模型实践【binomialLogisticRegression+multinomialLogisticRegression】
最近在使用pyspark来进行spark编程,之前对这个没有了解过,所以接下来需要多花点时间学习这个模块了,今天主要是简单地基于官方给出来实例来实践一下逻辑回归分类模型,pyspark提供的逻辑回归分类模型主要包括:二项逻辑回归和多项逻辑回归,各自有对应的适用场景。 pyspark顾名思义就是由python和spark组合使用的。Spark提供了一个Python_Shell,...
2019-06-12 16:21:19
1989
2
原创 python地图空间可视化神器folium实现以阿里巴巴园区为中心绘制租房小区位置信息
folium是一款非常强大的,地理信息数据可视化工具,由python编写,提供了很便利的使用方法,可以让我们在没有前端、vue、js、leaflet等的基础前提下完成数据的可视化。 六月到了,七月也快了,又是一年租房的火热季,我们正好也需要换房子了,不妨做一个房源位置信息在地图上的可视化展示吧。目前以阿里巴巴园区为中心,指定半径距离绘制圆形区域,同时将关注的几个小区的房源...
2019-06-12 11:10:43
1730
原创 python报表利器TableOne学习实践
报表是很多业务中都需要使用到的一项工具,java里面有很多优秀的报表软件,当前商业化的报表软件做的也是很优秀的,那么python中有没有可以免费使用的报表软件或者库呢,当然是有的,今天就简单学习一下报表利器tableone的相关使用,,别看简单,但是功能强大,tableone的源码都是可以读读的,毕竟不是很多。 以美国大选数据为例进行简单的统计分析生成报表具体实现如下:...
2019-06-12 09:57:39
1199
原创 python中的auto_ml自动机器学习框架学习实践
之前就有接触过auto_ml这个自动机器学习框架,但是一直没有时间做一个简单的记录总结,以便于后续有时间继续学习,我相信随着机器学习的普及推广和发展,自动机器学习一定会占据越来越大的作用,因为机器学习、深度学习里面很大的一部分时间都要花在特征工程、模型选择、组合和参数调优上面,auto_ml框架提供了一种很好的解决思路,当前的自动学习框架也有很多,想要完整地进行学习还是需要花费一定的时间...
2019-06-12 09:23:26
1512
原创 python基于Flask构建Web服务,解决Flask数据请求中的跨域问题
Flask是一款十分轻量级的web服务框架,能够很方便快捷地将本地的python数据程序构建称为一个web服务,进而方便地被调用,在前后端分离的开发过程中,不可避免地会出现前端访问后台服务时出现跨域报错的问题,为了能够正常的进行web服务的访问,解决跨域问题成为了很关键的一环。 说起跨域请求,大家首先想到的就会是设置请求头Access-Control-Allow-Ori...
2019-06-11 21:24:19
731
原创 常用SQL查询语句整理笔记【持续更新】
常用SQL查询语句整理笔记查询表所有数据 SELECT * FROM myTable查询指定学号学生的信息 SELECT * FROM myTable WHERE studentId=‘001’IN关键字查询 SELECT name,age,height FROM myTable WHERE studentId in (‘001’,‘002’,‘003’)LIKE关键词模糊查询 ...
2019-06-11 15:47:29
681
原创 python中PIL.Image,OpenCV,Numpy图像格式相互转换
图像处理领域中有很多开源成熟的工具模块和方法可以直接进行使用,目前我主要使用到的库主要包括:PIL、Numpy和OpenCV,其中,PIL是Python自带的模块,在python3中变成了Pillow,名字不同但是方法都是一样的,Numpy是一个科学数值计算模块,因为图像数据本质上是矩阵数据,所以这里也就用到了Numpy模块了,最后一个OpenCV在图像数据处理领域里面是大名鼎鼎的存在...
2019-06-10 14:37:01
4869
5
原创 python浮点数整数、小数分离,整数取整
Python里面提供了很友好的浮点数整数取整或者是整数、小数部分分离的相关函数,之前这方面我使用的较为频繁地两个方法是ceil和floor,两个方法都是math模块提供的,分别完成的是对给定数字的向上取整和向下取整两个工作。 在需要进行数字整数、小数部分分离的时候我使用的是math模块提供的floor方法来间接完成的,具体实现如下:def numSplit2(nu...
2019-06-10 14:05:42
9957
原创 Python实现给定两点经纬度数据求解两点平面直线距离与方位角
在GIS开发过程中,空间直角坐标系与求坐标系内的点坐标互相转化是很经常的事情,比如:给你两个点以及这两个点各自的经纬度数据,需要求解给定两点在空间坐标系内的直线距离以及两点之间的方位角,方位角就是从正北方向顺时针旋转到两点连线位置处的夹角值;又或者,给定你一点的经纬度数据以及另一点与该点的方位角和直线距离值,求解另一点所处位置的经纬度数据,等等,这样的转化求解需求还有很多。 ...
2019-06-04 16:09:25
1842
原创 leaflet地图区域数据可视化
地图上数据的展示对于一些有要求的场景里面还是很重要的,vue是前端经常使用的开发语言,leaflet与vue能够很好地进行融合使用,对于GIS相关的数据学习我也仅仅只是停留在皮毛上面,今天主要是简单地基于leaflet地图框架来对指定区域进行可视化,这个之后需要对不同的图层进行叠加处理,今天只是基于给定的经纬度数据来实现数据的可视化展示功能。 核心代码实现如下:&...
2019-06-03 10:57:37
2603
Ubuntu下gcc-7.5.0安装完整依赖.zip
2020-05-22
windows下MongoDB最新的安装包
2018-08-29
hadoop-mysql-hbase环境部署套装.zip
2020-09-08
猫狗大战迁移学习项目.zip
2020-04-03
Microsoft Visual C++ 安装包【14.0和9.0】.rar
2019-09-05
pyltp安装包whl文件.rar
2019-08-08
中科院自动化所宗成庆-自然语言处理方法与应用.rar
2019-08-08
2018知识图谱发展报告.rar
2019-08-08
SQL SERVER查增改删,导入导出简便工具.rar
2019-08-08
StatisticsWithJulia.pdf
2019-07-29
国家统计局2009-2018行政区划编码.zip
2019-07-16
Python数据分析与数据化运营.zip
2019-07-15
坦克大战tank.zip
2019-06-14
Docker技术入门与实战
2018-12-16
第一本Docker书(完整版)
2018-12-16
PyTorch深度学习实战
2018-12-07
Deep Learning with PyTorch
2018-12-07
Python高效开发实战——Django、Tornado、Flask、Twisted
2018-11-27
python2和python3版本可用的OpenCV安装包
2018-11-16
Python计算机视觉编程(含源码)
2018-11-16
linecache安装包(python2和python3兼容)
2018-11-15
Together_CZ的留言板
发表于 2020-01-02 最后回复 2020-02-17
大规模网页相似度计算
2017-06-05
TA创建的收藏夹 TA关注的收藏夹
TA关注的人 TA的粉丝