在现如今的数字时代,全球各地的企业都在利用数据科学来解决各类问题,每一款基于移动/网络的产品软件或数字体验类服务也都需要应用数据科学来实现个性化等精细的客户体验。无疑,如果说21世纪最缺的是人才,那么其中正为紧俏短缺的可能要有“数据科学专业人士”的姓名!
用户分层这一理论通常被应用于营销行业。营销人员基于每个消费者的心理、行为偏好等数据进行人群分类运营,以提供有针对性的产品和服务。而数据科学领域的发展则可帮助营销人员们科学、快捷且大规模地实现上述分层诉求。
图像分类是数据科学中最受欢迎和需求最广泛的细分领域之一。例如:数据科学项目的GarrickChu就根据图像分类技术,设计了一套帮助人们更加快速和准确识别狗狗品种的应用程序。他通过JupyterNotebook构建神经网络模型,基于大型数据集有效地处理图像(而不是传统的数据结构)以避免过度拟合,并结合在不同数据集上训练的神经网络模型结果,进行探索性数据分析,从而优化模型预测结果,直接预测准确度高于人类肉眼识别狗狗品种的准确程度。
这是另一个基于Yelp的项目,但比我们之前讨论的更复杂。数据科学家MichailAlifierakis使用Yelp数据构建了他的“餐厅成功模型”,以评估餐厅的成功/失败率。他使用了一个线性逻辑回归模型,并使用网格搜索和交叉验证对预测结果的精度进行了优化,从而贷款人和投资者更加科学地进行ROI最大化的投资。
世界各地的许多执法机构正在转向数据驱动的方法来预测和预防犯罪。例如:数据科学家奥兰多·托雷斯(OrlandoTorres)的关于预测性警务的项目,就成功利用自动化模式检测过程,减轻了犯罪分析人员的工作量的同时,也有效通过预判降低了犯罪率。他根据公开信息源中的2016年实际数据,构建基于线性回归、随机森林回归、K-nearestneighbors、XGBoost和深度学习等预测模型,以预判2017年特定邮政编码地区、日期甚至时段内的犯罪事件。
如今,企业正通过聊天机器人实现客户服务的自动化。目前的两类聊天机器人:特定域和开放域聊天机器人,都是使用自然语言处理(NLP)和递归神经网络(RNN)模型实现的。例如:PatrickMeyer通过自然语言处理来识别负向、中立和积极的语言表述;保罗·埃克曼(PaulEkman)则将人们在文案中表露的情绪做进一步细分,即:六种情绪模型——愤怒、厌恶、恐惧、喜悦、悲伤和惊讶,以提高机器人自动化完成客服诉求的精准度。
电商购物中,跨平台比价,寻找统一产品的最低价格无疑是大量网购者的快乐源泉之一。ChaseRoberts通过比较eBay和Amazon上3500种产品的价格,帮助消费者及时制定科学的省钱/薅羊毛方案!其分析结果显示,如果选择了错误的平台购买这3500种商品(总是在价格更高的网站购物),消费者平均将花费193498.45美元;而通过自动化比价,从而在每种商品定价最低的平台分别购买这3500种商品,消费者平均只需花费149650.94美元,从而足足节省44000美元的差额,相当于为自己打了8折左右!
WendyDherin在她的Hackbright学院项目中开发了音频雪花,以创建音乐播放时的出色视觉展示。她通过将歌曲的节奏等听觉特征映射成饱和度、颜色、旋转速度等视觉特征,让人们得以享受视听的双重快乐!
以下是一些在线数据源,当你在准备数据科学案例项目时,可以免费访问并下载先关的合规数据哦:
VoxCeleb:一个视听数据集,包含来自不同年龄、职业、口音等演讲者的简短演讲片段。这些片段是从上传到YouTube的采访中提取的。它可以用于各种应用,如语音分离、说话人识别、情感识别等。
国家环境信息中心:世界上最大的环境数据仓库,提供海洋、大气、气象、地球物理、气候条件等信息。
全球卫生观察站:提供一些最新的COVID-19数据。
谷歌云公共数据集:由BigQuery、云存储、地球引擎和其他谷歌云服务托管的数据集。
亚马逊网络服务开放数据集:以下载、使用或在AmazonElasticComputeCloud(AmazonEC2)上分析数据集。
以下是一些数据分析小套路,当你在准备数据科学案例项目时,可以按照这一个完整的操作流程进行分析哦:
选择正确的问题,从而针对性的聚焦一个数据集,以免研究面太过发散
将问题模块化拆解,并按照如下流程进行
提出你的假设:假设数据如何对某些变量做出反应
清理数据:Garbagein,GarbageOut,有噪音的数据推导出的分析结论无异于废纸
找出数据特征:考虑哪些因素会影响你的预测结果,预判可能的影响因素准备放入模型中
创建预测模型:确定合适的模型
回顾你的假设研究数据:根据模型结果,肯定或者调整最初的假设,并通过讲数据故事的方式将上述研究过程进行阐述