- 博客(23)
- 资源 (65)
- 论坛 (1)
- 问答 (1)
- 收藏
- 关注
原创 python调试利器pysnooper实践使用分析
任何编程实践中,都避免不了出现错误或者其他的问题,那么测试和调试程序就成为了解决错误很重要的一个环节了,在Python项目中,大多数的错误都是通过一步一步的print定位查找、解决的。这是我之前最为常用的方法,那么有没有更好的或者是更加方便,高大上的方法帮助我们去调试程序呢?答案是有的。 听说pysnooper很久了,一直没有时间来用一用,今天正好还有点时间就想着拿过来...
2019-05-30 19:30:47
883
原创 Python堆叠式神经网络模型实践【Stacking策略+Keras框架】,GUI可视化应用
之前接触到比较多的模型集成相关的工作,有Bagging、Boosting等等,当然还有Stacking,正好不久之前做的一个项目用的主体框架就是Stacking,所以关于这个框架的印象还算清晰吧。 实际中,将机器学习模型和Stacking框架融合的做法是比较多的,但是将神经网络模型作为基础模型来用Stacking框架进行集成使用倒不是很多,今天就是想花点时间来做一下这个...
2019-05-29 20:09:40
1877
原创 Python命令行程序项目自动化GUI显示操作神器Gooey实践
说来惭愧,接触Python也有两年的时间了,不知不觉接触到了很多特别好玩的项目,但是有时候还会是被惊艳到,原来还有这么多东西是自己还没有听说过的啊。。。。 闲话就不多说了,这里主要是简单介绍一个Python命令行执行的程序项目自动化转化为GUI应用的神器Geopy,今天尝试了一下,着实很简单,我也就是使用了最简单的功能,有时间继续去挖掘挖掘,不过我觉得就这些表面的东西...
2019-05-29 11:20:48
2559
4
原创 python日期转化利器arrow实践
之前有关于时间数据处理相关的工作我大都是使用time或者是datetime模块来进行的,今天发现了一个非常好用的时间数据处理分析的模块arrow,能够很方便地完成一些时间计算等等,详细的内容就不多说了,我使用了一些arrow提供的功能,都满足了我工作中的需求,下面简单给出来一些实践例子,以及官方文档地址在这里。 下面是具体的实践内容:#!usr/bin/env ...
2019-05-29 09:56:08
963
原创 Python地图可视化利器folium学习实践
可视化在数据分析领域里面占据着很重要的角色,最近有一个需求就是需要做一些地图可视化的相关工作,但是苦于我没有一点地图、GIS和前端的经验,这里就卡住了。今天无意间发现了一个可视化神器基本上已经满足了我的需求了,这里先简单地来一波实践,拿的都是官方给出来的例子,主要是为了学习。 具体实践内容如下:#!usr/bin/env python#encoding:utf-8...
2019-05-28 17:42:40
2774
4
原创 python 实现链家网房源数据信息的爬取
又到了一年一度的盛大毕业季了,千千万万的莘莘学子就要离开校园走向全国各地的工作岗位了,离开家乡,离开校园,租房就变成了一个重要的问题,那么如何才能够更好地找到符合自己的房子呢,这里就是想构建一个房源信息的数据爬虫,对自己感兴趣的地区数据进行爬取,之后用于后面的综合分析等等。 好了,这里就不再多说废话了,本文以链家网为源数据网站进行房源信息的爬取,具体实现如下:...
2019-05-25 14:23:44
1679
7
原创 flask报错 ValueError: Circular reference detected 问题解决
今天在使用flask做API服务的时候,后台报错“ValueError: Circular reference detected”,这个错误之前没有遇到过,查资料只找到一个相关的链接。 但是并没有能够解决我的问题,原始报错代码如下:data,res_dict,need_dict=model(start=start,end=end,factor=factor)res...
2019-05-22 14:27:07
2131
2
原创 pyspark解决报错“py4j.protocol.Py4JError: org.apache.spark.api.python.PythonUtils.getEncryptionEnabled ”
今天在使用pyspark的时候出现了一个错误,就是“py4j.protocol.Py4JError: org.apache.spark.api.python.PythonUtils.getEncryptionEnabled does not exist in the JVM”,这个错误之前也是遇到过的,但是没有记录下来具体怎么做的,只好去翻看之前的代码,查询到了具体的解决办法,具体解...
2019-05-21 10:59:42
6656
原创 python基于base64模块实现图像数据编码处理、解码还原实践【解决解码数据损失问题】
在图片的传输过程中,往往不会直接以文件的形式进行传输,而是转化为数据流的形式进行传输,直接使用图像的二进制数据传输的话很容易出现编码错误的问题,所以一般不会这么去做,经常使用的方法是基于base64模块来实现原始图像数据的编码处理,之后进行传输,在服务器端收到数据流后对原始数据进行解码还原就可以了。 下面是简单的实践过程,具体如下:#!usr/bin/env...
2019-05-17 19:07:55
970
原创 python基于PIL模块实现矩阵与图像数据互相转换
今天在处理图像数据的时候需要将RGB图像数据转化为矩阵数据,查阅了一下PIL的相关接口,简单做一下记录,具体如下:#!usr/bin/env python#encoding:utf-8'''__Author__:沂水寒城功能: 验证码数据上传返回识别结果'''import numpy as npfrom PIL import Image#图像转换为...
2019-05-17 18:55:46
1711
6
原创 sklearn常用聚类算法模型【KMeans、DBSCAN】实践
聚类算法是很重要的一类算法模型,在实际的应用实践中是会经常使用到的,最近的工作类型中大多偏向于有监督学习类型模型的使用,而对于无监督算法模型的使用则使用得相对少了很多,今天就简单的回归一下聚类算法模型,主要是KMeans模型和DBSACN模型的使用。 这两种模型可以说是聚类算法领域里面很具有代表性的算法了,前者是基于样本之间距离的聚类,后者是基于样本集密度的聚类。殊途同...
2019-05-16 09:33:56
3246
2
原创 拉丁超立方体抽样方法学习笔记
拉丁超立方体抽样Latin hypercube sampling ——沂水寒城 拉丁超立方抽样(英语:Latin...
2019-05-10 16:31:43
17235
8
原创 python实现mat格式数据解析处理,并转化为json格式数据
今天有一个mat格式的数据文件需要进行数据,但是mat格式的数据不能直接被现有的模型使用,在这之前就需要做一点转换工作使得mat格式转化为json格式,为了了解一下mat格式的数据文件是什么,我简单查看了一下百度百科中的定义,具体内容如下所示: 简单来说.mat和.m文件都是matlab生态环境里面的文件。 下面进行解析处理,具体实现如下:#!u...
2019-05-10 13:53:49
2495
2
原创 python分析《水浒传》小说,对文本数据内容清洗、分词、统计、词云可视化展示
《水浒传》这个名字说起来估计看到这篇博文的朋友都不会陌生到哪里去,这是我们中国古代四大名著之一,非常的引人入胜,今天想基于《水浒传》的小说数据来做一点分析工作。 由于用到的整部小说数据过大无法一次发表,这里只将本文用到的电子小说数据的第一章节贴在下面,感兴趣的都可以拿过去玩一玩:===========================================...
2019-05-10 11:25:50
3332
原创 python实现复联4影评数据词云可视化分析
书接上文,继上文实现了《复仇者联盟4:终局之战》电影的影评数据分析采集之后,本文主要对获取到的影评数据进行一些可视化展示,主要的可视化展示手段是词云。 这里我把200条左右的纯评论数据抽取解析了出来,贴在下面,感兴趣的可以拿去:=========================================================================...
2019-05-09 13:45:18
2486
2
原创 python实现验证码图像数据去噪处理的心路历程
最近在鼓捣一个小项目就是做验证码的识别,之前的文章里面也有提到了部分验证码数据的采集工作,今天主要是想对获取到的验证码数据做初步的处理工作。 验证码识别项目现在早已不再是新东西了,所以晚上随便一搜索会有一大堆的教程,但是很多并不是真实项目实践的,大都是自己做的一个demo,当然我这里也不是去将怎么做工程实践上的验证码识别,不过我使用的是真实网络中采集到的数据而不是借助于第...
2019-05-09 11:54:01
2197
原创 python实现原始字典数据中键值互换得到新的字典数据
在一些实际的问题中我们往往会有这样一个需求:将原始字典中的键、值互换形成新的字典数据,比如:将字母数据的ASCII数值构建字典,然后键、值互换形成新的数据。 具体的实现我常用的有两种办法,第一种方法较为常规,通过中间字典做转化,第二种则是比较“骚”的操作,直接使用字典推导式完成原始字典键、值互换。 具体实现如下:data_dict={'A':1,...
2019-05-08 21:26:43
1307
原创 python实现《复仇者联盟4:终局之战》豆瓣网站、猫眼电影网站内影评数据的爬取
喜欢看电影的朋友都知道,五一节之前上映了一部漫威号称十年布局的超级大片,据说老一代的英雄们有很多就要退出历史的舞台了,今天我们不是聊这一部电影的内容怎样,情节怎样,而是想基于爬虫来对豆瓣和猫眼电影两个网站中的影评数据进行采集,之后有时间的话会基于采集到的数据来进行文本分析。 好了,其他的话就不多说了,详细的代码实现在之前的文章里面也已经给出来了,这里简单贴一下爬取到的数据...
2019-05-08 19:22:06
8581
2
原创 python实现QQ登陆验证码数据采集
在很多网站应用中为了防止爬虫或者是一些恶意数据获取行为的发生都会加入验证码这一防范机制,有静态验证码也有动态验证码,有纯数字验证码也有数字字母混合验证码,还有滑动验证码,简直是五花八门的存在。 当然了,正所谓,道高一尺魔高一丈,一系列验证码破解项目诞生了,当然大多数的验证码破解项目都是图像数据处理技术与机器学习或者是深度学习相结合形成的,我们今天先不去车这么远了...
2019-05-07 20:26:53
1587
4
原创 python实现arxiv论文数据解析处理
今天搞了一个小项目,就是从网络上爬取下来了一些arxiv论文数据,然后想着后面对这些数据进行建模处理,然后实现论文的主题分类,早上完成了arxiv论文数据爬虫,也从网上爬取下来的需要的论文数据,截图如下: 一共是六个大类别,这里面数据格式比较奇怪,需要用到一个叫做shelve的第三方库才能完成数据的读取操作,这里的目的是将这些不可以直接使用的数据转化为js...
2019-05-07 19:55:19
1652
原创 python实现常用的相似度计算方法
相似度计算是很多具体的应用了里面都会使用到的一些东西,我们学过的有很多相似度计算的方法,最初的相似度计算是为了表征向量的重合程度的,在这里最经典的就是余弦相似度了,当然使用正弦或者是正切等等三角函数也都是可以的,只不过余弦使用的更广泛一些所以提到三角函数计算向量相似度的时候大家往往都会使用余弦来作为相似度的计算工具。 可能最开始会觉得相似度计算没有什么,因为现在...
2019-05-07 19:43:11
6479
Ubuntu下gcc-7.5.0安装完整依赖.zip
2020-05-22
windows下MongoDB最新的安装包
2018-08-29
hadoop-mysql-hbase环境部署套装.zip
2020-09-08
猫狗大战迁移学习项目.zip
2020-04-03
Microsoft Visual C++ 安装包【14.0和9.0】.rar
2019-09-05
pyltp安装包whl文件.rar
2019-08-08
中科院自动化所宗成庆-自然语言处理方法与应用.rar
2019-08-08
2018知识图谱发展报告.rar
2019-08-08
SQL SERVER查增改删,导入导出简便工具.rar
2019-08-08
StatisticsWithJulia.pdf
2019-07-29
国家统计局2009-2018行政区划编码.zip
2019-07-16
Python数据分析与数据化运营.zip
2019-07-15
坦克大战tank.zip
2019-06-14
Docker技术入门与实战
2018-12-16
第一本Docker书(完整版)
2018-12-16
PyTorch深度学习实战
2018-12-07
Deep Learning with PyTorch
2018-12-07
Python高效开发实战——Django、Tornado、Flask、Twisted
2018-11-27
python2和python3版本可用的OpenCV安装包
2018-11-16
Python计算机视觉编程(含源码)
2018-11-16
linecache安装包(python2和python3兼容)
2018-11-15
Together_CZ的留言板
发表于 2020-01-02 最后回复 2020-02-17
大规模网页相似度计算
2017-06-05
TA创建的收藏夹 TA关注的收藏夹
TA关注的人 TA的粉丝