自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Together_CZ的博客

种一棵树,最好的时间是十年前,其次是现在

  • 博客(19)
  • 资源 (64)
  • 论坛 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 基于豆瓣影评数据的文本分析系统【数据爬取+数据清洗+数据库存储+LDA主题挖掘+词云可视化】

本分析中很多的工作都是基于评论数据来进行的,比如:滴滴出行的评价数据、租房的评价数据、电影的评论数据等等,从这些语料数据中能够挖掘出来客户群体对于某种事物或者事情的看法,较为常见的工作有:舆情分析、热点挖掘和情感分析。 如果想要了解关于文本分类或者是情感分析相关的工作内容,可以阅读我的《数据建模实战》专栏文章,下面是链接信息: ...

2019-12-17 16:26:15 7883 11

原创 基于机器学习和深度学习的推荐系统实战【图书推荐、电影推荐、音乐推荐】

推荐系统在我们日常生活中发挥着非常重要的作用,相信实际从事过推荐相关的工程项目的人或多或少都会看多《推荐系统实战》这本书,我也是读者之一,个人感觉对于推荐系统的入门来说这本书籍还是不错的资料。很多商场、大厂的推荐系统都是很复杂也是很强大的,大多是基于深度学习来设计强有力的计算系统,本文是笔者在公司实践项目中实际做过的推荐系统实践经验分享。技术层面主要从机器学习和深度学习两个方面来分别...

2019-12-17 14:37:33 2936

原创 基于文本数据的情感分析系统

在自然语言处理里面,情感分析大类上归属于文本分类领域,是NLP非常常见也是很重要的一种任务类型,在大多数已开展的分析研究工作中,主要是基于评论数据集,诸如:滴滴打车评论数据集、豆瓣猫眼影评数据集;或者是一些社交媒体数据集,诸如:Twitter数据集、微博数据集、人人网数据集等等。 在开始本文的主要内容之前,我们先看一下有意思的东西,我以当今的小鲜肉【王俊凯】为搜索对象...

2019-12-17 11:05:46 5170

原创 Python猫眼电影数据采集与可视化分析实战

在国内比较知名的电影数据平台应该就是豆瓣、猫眼了,别的使用的不是很多,这两个平台就我们来说,平时的实践依赖还是比较多的,今天主要是想基于猫眼电影数据做一点分析性的工作,在我之前的文章中,基于豆瓣影评数据的采集、处理、存储、分析、可视化整个流程已经做了详细的介绍与实现了,感兴趣的话可以去参考一下我之前的文章 ,地址在下面:https://yishuihancheng.blog.cs...

2019-12-29 15:33:11 2132

原创 Python实现 N*N 乘法表

一个简单的小实践:#!usr/bin/env python#encoding:utf-8 """__Author__:沂水寒城功能: N*N 乘法表"""import sysreload(sys)sys.setdefaultencoding('utf-8')def print_mutiple(num=9): ''''' 打印...

2019-12-29 14:04:54 526

翻译 构建一个简单的Keras +深度学习REST API

在本教程中,我们将介绍一种简单的方法来采用Keras模型并将其部署为REST API。 这篇文章中涵盖的示例将作为构建您自己的深度学习API的模板/起点–您将能够扩展代码并根据您的API端点的可扩展性和健壮性对其进行自定义。 具体来说,我们将学习:如何(以及如何不)将Keras模型加载到内存中,以便可以将其有效地用于推理如何使用Flask...

2019-12-28 14:35:37 590 2

原创 基于感知哈希算法的图像相似匹配计算实战

Google之前上线了“以图搜图”的功能,吸引了一大批人员的使用, 体验之后不得不说还是很强大,谷歌背后的黑科技还是很强大的。感知哈希本质上是哈希算法中的一类算法,最初被提出来就是用来做相似图片的匹配与计算的,以图搜图的本质也是在做详细图片的计算与匹配,不同的算法会有不同的计算精度和计算速度。 对于我们每个人来说,我们有个人的身份证号码这样的数字指纹来标识每一个人,同样...

2019-12-27 18:05:12 536

原创 Python爬虫之51job招聘数据信息爬取实战

数据爬虫对于数据分析从业者来说是必不可少的一项基础能力,学习Python的首选我也是从编写一个合格的爬虫开始的,实际的工作中经常也会遇到需要从网络上采集数据进行分析的需求,这时候就需要自己动手编写爬虫了。 在我之前的文章《BOSS直聘数据采集、解析处理、分析与可视化实战》中,详细地讲解了基于BOSS直聘网站进行招聘数据采集的完整流程与可视化分析相关的工作,今天同样是针...

2019-12-25 20:41:26 8563 8

原创 基于seaborn的相关性热力图可视化分析

seaborn本质上是对matplotlib模块的高级封装,所以要想使用seaborn的功能,首先需要安装好matplotlib的基础环境,现在的安装方式已经极大地简化了,只需要pip安装即可,这里就不再多说明了。 今天主要是想对手里的一个数据集进行简单的分析,分析不同属性特征之间的相关程度,相关性的计算有很多种方法,比如我最常用的就是基于统计学习里面的三大指数来进行...

2019-12-22 12:26:10 2843 5

原创 基于差分分级和关联规则挖掘的气象数据关联性分析实战

本文的主要研究主要是基于一批历史的气象数据来挖掘不同天气形势下的关联性,对空气质量的管控和分析提供合理的指导意见,技术是通用性的,问题是具体业务场景里面的,最初接触到这个任务的时候着实没有特别清晰的实现思路,就我以往的实践经验来水,数据之间的关联性往往会借助于关联规则挖掘算法来实现固有关联规则或者是潜在关联规则的挖掘,数据之间的相似性往往会借助于相似度算法来完成计算,在前者的任务场景...

2019-12-21 17:10:40 684 2

原创 基于机器学习的恶意网站/仿冒网站检测实战

恶意网站是我们生活中多少都会遇上到的一种网页集合,大多是包含病毒或者是一些非法获取个人信息的页面,本文所指的恶意网站主要指的是我们生活中遇到过的钓鱼网站,也就是仿冒网站。 我们先来看一份简短的月报: 如果想要简单来了解一下网络钓鱼背后的操作原理的话,推荐你看这篇文章《黑客技术解密:网络钓鱼》,地址在下方:http://www.so...

2019-12-18 19:50:19 2654

翻译 编解码器长短期记忆神经网络

编码器-解码器LSTM是一个循环神经网络,旨在解决序列到序列问题,有时称为seq2seq。 序列到序列的预测问题具有挑战性,因为输入和输出序列中的项数可能会发生变化。 例如,文本翻译和学习执行程序就是seq2seq问题的示例。 在这篇文章中,您将发现用于序列到序列预测的Encoder-Decoder LSTM体系结构。 完成这...

2019-12-18 15:28:35 702 2

翻译 Keras中的时间分布层TimeDistributed Layer使用教程

TimeDistributed官方文档在这里。 长短期网络(LSTM)是一种流行且功能强大的递归神经网络(RNN)。 即使使用像Python的Keras深度学习库中提供的那样定义明确且“易于使用”的接口,它们也很难配置并应用于任意序列预测问题。 Keras中出现此困难的原因之一是使用了TimeDistributed包装器层,...

2019-12-18 15:10:38 3643

翻译 基于LSTM及其变种网络的时序数据建模实战教程

本文翻译自大神【Jason Brownlee】的实战教程《How to Develop LSTM Models for Time Series Forecasting》。 长短期记忆网络或简称LSTM可以用于时间序列预测。 有很多类型的LSTM模型可用于每种特定类型的时间序列预测问题。 在本教程中,您将发现如何为一系列标准时间序列预测问题开...

2019-12-18 13:51:08 2659 22

原创 基于Python的《庆余年》评论分析

最近有一部热剧《庆余年》,可以说关注度很高,之前看到社区里面有人基于微博的评论数据对其评论信息做了分析,我这里简单地基于豆瓣的评论数据来对其进行分析。 首先是评论数据的采集,代码实现在我之前的文章里面都有,需要的话可以直接使用,部分数据展示如下:评论人:红骷髅评论时间:2019-11-26 20:09:47支持人数:3594评论内容:达康书记的脸配上陈萍萍的名字...

2019-12-11 13:51:43 1072 2

原创 强大高可用的数据可视化神器plotly_express实践记录

在正式将自己的主要绘图模块转移到plotly之前,我相信绝对大数的数据分析相关的从业者都是主要基于matplotlib来进行数据探索分析或者是可视化展示相关的工作的,着实,matplotlib也是真的十分强大。对于我而言,matplotlib算得上是最早使用到的库,早在14年的时候就接触到了,但是当时数据分析四大天王Numpy、Pandas、Scipy和Matplotlib的安装真的...

2019-12-09 16:17:07 1676 2

原创 一个有趣手绘风格的Python绘图库使用

今天无意间刷到了一个跟Python可视化相关的头条,就点进去看看,这是一位作者编写的手绘风格的绘图工具,对可视化工作一直都是比较感兴趣的,所以这里就想直接上手使用一下。 GitHub地址在这里。首页截图如下: 最下方也给出了安装方式,应该是以Python3为基础编写的,所以Python2应该是安装不了的,所以这里我本地使用的话也是基于Python3...

2019-12-06 09:59:57 679

原创 当孙子兵法遇上词云,会有怎样的碰撞?

这里先贴一下孙子兵法的文本内容,如下所示:孙子曰:凡治众如治寡,分数是也;斗众如斗寡,形名是也;三军之众,可使必受敌而无败者,奇正是也;兵之所加,如以碫投卵者,虚实是也。   凡战者,以正合,以奇胜。故善出奇者,无穷如天地,不竭如江海。终而复始,日月是也。死而更生,四时是也。声不过五,五声之变,不可胜听也;色不过五,五色之变,不可胜观也;味不过五,五味之变,不可胜尝也;...

2019-12-03 17:45:41 765

原创 Python爬取百度指数搜索结果,查看你想了解的热点信息吧

今天无意间搜索问题的时候跳转到了百度指数这里,索性就打开来看看,下面是首页截图: 这里你可以自己输入自己想要查询的人物、事件等等,anything,只要是你感兴趣的都可以,有一种感觉就是你认为是热点的就是热点。。。。 闲话不多说了,这里直接进入实践,先看代码,完整的实现如下:#!usr/bin/env python#encoding:utf-8...

2019-12-03 15:08:51 1232

Ubuntu下gcc-7.5.0安装完整依赖.zip

升级本地gcc版本所需安装包详情如下: gcc-7.5.0.tar.gz gmp-6.1.0.tar.bz2 mpc-1.0.3.tar.gz mpfr-3.1.4.tar.bz2 isl-0.16.1.tar.bz2

2020-05-22

Yolov3随机手写数字数据集

Yolov3随机手写数字数据集 包含4000张可以直接使用的数据集 以及制作好的原始待检测视频+自己训练好的模型的检测视频

2020-10-15

算法设计与分析基础高清第三版

算法设计与分析基础高清第三版是在之前版本的基础上进一步提炼和编写的算法书籍,对于算法和数据结构的理解更为深入,相信对于算法的学习会有更多的帮助

2018-09-03

sklearn超详细实践文档说明

本文档时python机器学习领域中极为经典的模块sklearn的入门指导使用文档,超过2000页的讲解和详细 的样例说明可以用于帮助自己的实践。

2018-09-16

Python获取气象网站中的台风详细数据

使用Python进行气象网站中台风详细参数等数据的获取,指导气象工作

2018-08-08

Microsoft Visual C++ 安装包【14.0和9.0】.rar

解决Python第三方库安装过程的报错问题。 Python2.7版本报错如下: error: Microsoft Visual C++ 9.0 is required. 安装文件为: VCForPython27.msi Python3.6版本报错如下: error: Microsoft Visual C++ 14.0 is required. 安装文件为: Microsoft Visual C++ 14.0.exe

2019-09-05

全国火车站标注名称编码集合.zip

《全国火车站标注名称编码集合》主要是日常工作实践过程中使用汇总的名称、编码数据

2019-11-06

百度内部培训PPT流出:数据分析的道与术

百度内部培训PPT流出:数据分析的道与术 主要聊一聊数据分析的艺术

2018-11-09

python2和python3版本可用的OpenCV安装包

python2和python3版本可用的OpenCV安装包里面包含了python2的安装包和python3的安装包,经过测试成功安装,十分方便。

2018-11-16

xgboost-whl安装包(包含32位和64位)

xgboost-whl安装包是可以很方便的在windows7和windows10下安装修改版xgboost的包文件

2018-09-07

京东大数据技术白皮书(全文120页).zip

京东大数据技术白皮书(全文120页)是总体概况对京东最新的技术架构体系的一次全方位的介绍,值得入手细读。

2019-07-16

kafka搭建套装.zip

20200326这里存放的是今日我搭建kafka过程中使用到的套装文件,可以直接下载使用的,完整的搭建实战与环境配置问题解决

2020-03-26

3万个高可用的IP代理

这里的IP代理均来源于网络数据获取,通过进一步解析处理后保存到本地json文件中,在爬虫启动的时候随机加载可用IP来构建代理 代理约有3万个

2019-04-15

Theano详细使用文档

Theano使用文档中包含详细的实践指南,可以帮助你由简入繁去搭建自己的深度学习模型

2018-09-16

搜索引擎在仿冒网站检测中的应用

本文是本人在研究生课程《搜索引擎技术详解》中的课程报告,临近毕业在整理学业资料的时候将报告整理出来,希望给对于需要的人提供一个参考。

2018-05-24

Flask+Web开发:基于Python的Web应用开发实战

Flask+Web开发:基于Python的Web应用开发实战是一本很不错学习和入门Flask框架的指导书籍,书中有配套的完整的代码可在GitHub上下载使用

2018-08-31

数字金融反欺诈白皮书

由京东金融研究院和中国人民大学金融科技与互联网安全研究中心、中国刑事警察学院共同撰写的《数字金融反欺诈白皮书》(下称白皮书)在北京发布。京东金融研究院院长孟昭莉表示:由于数字与金融的“联姻”,金融的欺诈行为呈现出专业化、产业化、隐蔽化、跨区域等新特征,对传统的反欺诈手段形成极大挑战。因此,针对金融领域的反欺诈技术也应不断革新,既要精准打击存在的风险,也要执棋先行,做到防患于未然。

2018-06-03

猫狗大战迁移学习项目.zip

猫狗大战迁移学习实战项目所需的完整模型+测试数据,可以自己直接加载进行测试使用 results:自己基于迁移学习方法训练得到的二分类模型 test:bing搜索引擎图像数据爬虫结果,针对cat和dog两类目标分别爬取了200多张图像数据 test1:随机从kaggle数据集每类的12500张数据中抽取100张图像组成的测试数据集

2020-04-03

坦克大战tank.zip

坦克大战tank:很古老却又经典的一款小游戏,完全基于python开发,我将其打包生成exe文件,感兴趣的可以拿去玩哈。 相应的博客介绍在这里:https://blog.csdn.net/Together_CZ

2019-06-14

jsonfile查看工具

本软件是功能强大,实用便捷的json文件查看工具,可以方便地查看json数据内容

2018-08-14

Deep Learning with PyTorch

PyTorch即 Torch 的 Python 版本。Torch 是由 Facebook 发布的深度学习框架,因支持动态定义计算图,相比于 Tensorflow 使用起来更为灵活方便,特别适合中小型机器学习项目和深度学习初学者。但因为 Torch 的开发语言是Lua,导致它在国内一直很小众。所以,在千呼万唤下,PyTorch应运而生!PyTorch 继承了 Troch 的灵活特性,又使用广为流行的 Python 作为开发语言,所以一经推出就广受欢迎!

2018-12-07

SQL SERVER查增改删,导入导出简便工具.rar

SQL SERVER查增改删,导入导出简便工具 该工具主要是讲常用的SQLServer数据操作做了一个打包和封装,能够很方便地进行使用!

2019-08-08

TensorFlow官方文档中文版.rar

TensorFlow官方文档中文版 是很全面透彻完整的Tensorflow实践学习中文学习资料,值得收藏使用!

2019-08-08

Python计算机视觉编程(含源码)

Python计算机视觉编程(含源码)依赖Python语言讲解了基础理论与算法,并通过大量示例细致分析了对象识别、基于内容的图像搜索、光学字符识别、光流法、跟踪、三维重建、立体成像、增强现实、姿态估计、全景创建、图像分割、降噪、图像分组等技术。另外,书中附带的练习还能让读者巩固并学会应用编程知识。

2018-11-16

相关性分析项目.zip

Python数据相关性分析实践完整项目【数据+代码+结果图片】 包含完整的数据和分析代码以及可视化代码,可以直接使用的完整项目数据

2020-07-08

python2和python3中文版chm文档

python2和python3中文版chm文档 中包含了python2和python3两个版本的中文使用文档,以及python3的英文chm使用文档,离线使用很方便

2018-09-03

pyltp安装包whl文件.rar

pyltp-0.2.1-cp35-cp35m-win_amd64.whl为Python3.5的安装版本 pyltp-0.2.1-cp36-cp36m-win_amd64.whl为Python3.6的安装版本 当使用pip安装方式安装失败的时候可以使用whl文件进行安装,亲测安装成功!

2019-08-08

WEKA完整中文教程

WEKA中文指南是weka很好的学习资料,包含两份完整的中文说明文档,能够帮助我们快速上手weka。

2018-11-19

关联挖掘算法详解

关联挖掘算法主要包括Apriori和FP-Growth,两者对于不同的场景有着显著地差异性...

2018-11-20

MarkDown安装包破解码20180905

MarkDown安装包破解码20180905 是MarkDown Pad2的安装包以及相应地注册秘钥,可以直接解压后使用(可汉化)。

2018-09-04

机器学习数据挖掘常用算法总结梳理完整版

机器学习数据挖掘常用算法总结梳理完整版:是对于机器学习以及数据挖掘领域中使用到的算法、方法和模型等方面一个全面的总结和学习概括,欢迎同行互相交流学习,欢迎指点。

2018-08-08

推荐算法数据集

python基于Suprise模块构建推荐算法模型,实现电影、书籍等资源的推荐 文中使用到的数据集

2019-01-14

python-scikit-learn超详细中文学习笔记

python-scikit-learn超详细中文学习笔记 是在scikit-learn 机器学习模块使用过程中总结的超级详细、实用的机器学习笔记,能够帮助快速使用机器学习加深理解

2018-09-03

百度脑图桌面版

百度脑图是一款很好的思维发散工具,能够快速帮助使用者来构建思维导图,百度脑图桌面版与web版本有相同的功能,只不过可以当做软件离线使用,非常方便

2018-11-09

linecache安装包(python2和python3兼容)

linecache模块可以读取文件并将文件内容缓存起来,方便后面多次读取。这个模块原本被设计用来读取Python模块的源代码,所以当一个文件名不在指定路径下的时候,模块会通过搜索路径(search path)来尝试读取文件

2018-11-15

国家统计局2009-2018行政区划编码.zip

国家统计局2009-2018行政区划编码 包括从2009年以来至今历年来国家统计局公布出来的行政区划代码数据 历时一天爬取完成,提供给有需要的人

2019-07-16

windows下MongoDB最新的安装包

在官网中的链接中,MongoDB很难下载下来,还得输入邮箱什么的,这里是今天20180829尝试了很多次以后成功下载下来的windows下最新的安装包,分享出来给需要的人

2018-08-29

MSTAR数据集.zip

原始的【MSTAR数据集】是灰度图,这里经过转化处理后的【MSTAR数据集】,已经是3通道数据集了,后面可以直接用于模型的测试分析使用。

2020-05-29

hadoop-mysql-hbase环境部署套装.zip

hadoop-mysql-hbase环境部署套装包括: hadoop-2.7.1.tar.gz hbase-1.1.5-bin.tar.gz jdk-8u162-linux-x64.tar.gz mysql-connector-java-5.1.40.tar.gz mysql-server_5.7.21-1ubuntu14.04_amd64.deb-bundle.tar

2020-09-08

PyTorch深度学习实战

PyTorch深度学习实战 PyTorch是什么? 这是一个基于Python的科学计算包,其旨在服务两类场合: 替代numpy发挥GPU潜能 一个提供了高度灵活性和效率的深度学习实验性平台

2018-12-07

Together_CZ的留言板

发表于 2020-01-02 最后回复 2020-02-17

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除