2404173语音识别算法入门记录介绍我一直对语音识别比较感兴趣。所以，这次，我决定开个帖子记录从最开始了解的全过|智慧酒店产品趋同影响分析学术研究_宠物酒店

小米声音识别算法模型在业界率先突破50mAP

昨日，小米公司宣布，小米自研声音识别算法取得最新进展。据了解，在Google发布的AudioSet音频标记任务中，小米的声音识别算法模型首次在业界突破了50mAP，刷新了音频标记技术指标，成为截至目前性能最好的模型。

我问了chatglm,它告诉我如下：

声音识别算法模型通常指的是自动识别和理解语音的技术。这种技术使得机器能够接收并解释人类语音，进而执行相应的指令或者转换为文本信息。声音识别模型通常包括以下几种类型：

看来，要学不少算法的东西！

在语音识别算法模型中，mAP（MeanAveragePrecision）是一个常用的性能衡量标准，尤其是在关键词检出（keywordspotting）任务中。mAP是从信息检索领域借用过来的一个指标，它衡量的是模型在一系列查询中的平均精度。mAP的计算方式如下：

接下来，我一直好奇什么是SVM，我在算法课程中听过支持向量机，但是非常模糊，所以我需要再重新学习一下。

支持向量机（SupportVectorMachine，简称SVM）是一种监督学习算法，用于分类和回归分析。SVM在机器学习中非常流行，特别是在分类问题中，因为它能够有效地处理高维空间的数据，并且在实际应用中通常能够提供非常好的性能。

基本概念：

工作原理：

SVM的目标是找到一个最优的超平面，使得不同类别的数据点能够被最好地分开，同时最大化分类间隔（即支持向量到超平面的距离）。这种方法也被称为最大间隔分类器。

核技巧：

SVM使用核函数来处理非线性问题。核技巧允许算法在原始特征空间中不可分的数据通过映射到高维特征空间中变得可分。

SVM的类型：

应用：

SVM被广泛应用于文本和图像分类、生物信息学、手写识别等领域。

优点：

缺点：

学习支持向量机（SVM）可以分为理论学习和实践应用两个部分。以下是一些建议帮助你学习SVM：

理论学习：

基础数学知识：在学习SVM之前，你需要有一定的数学基础，特别是线性代数、概率论和微积分。

了解机器学习基础：熟悉基本的机器学习概念，如监督学习、无监督学习、过拟合、模型评估等。

学习SVM的理论：

阅读经典教材和论文：

在线课程和教程：参加在线课程，如Coursera、edX、Udacity上的机器学习课程，这些课程通常会有关于SVM的专门讲解。

实践应用：

使用Python或R等编程语言：这些语言有丰富的机器学习库，如scikit-learn，可以让你轻松实现SVM。

实践项目：

调参：学习如何通过交叉验证、网格搜索等技术来优化SVM模型的参数。

阅读源代码和文档：阅读scikit-learn等库中SVM的实现代码，加深对算法的理解。

参加竞赛和论坛：在Kaggle等数据科学竞赛平台上参加比赛，或加入机器学习社区和论坛，与其他学习者交流经验。

综合资源：

我想接下来给自己定个任务，就是快速的用SVM做个东西。我暂时打算先体验一下它的效果，然后再进行理论学习。

我想我需要去找三蓝一棕的视频，看看SVM的介绍，希望他有这系列视频。但是目前这个不是最重要的。

我其实现在真的很想体验一下SVM的效果。

预期说怎么学习SVM，不如说怎么学习算法。其方法都是通用的。

Sigmoid函数是一种数学函数，通常用于统计学和机器学习中，特别是在神经网络和逻辑回归模型中。它的数学表达式为：[S(x)=\frac{1}{1+e^{-x}}]

Sigmoid函数的图形类似于一个“S”形，它的输出值范围在0到1之间。当输入值(x)接近正无穷时，Sigmoid函数的输出接近1；当输入值(x)接近负无穷时，输出接近0。这种特性使得Sigmoid函数非常适合用作二分类问题的激活函数，因为它可以输出一个概率值，表示输入样本属于正类的概率。Sigmoid函数的一些重要特性包括：

怎么能做一个类似的东西呢？我自己也想拥有一个这样的东西。

而且，我之前看很多视频，音色替换，这个也非常的有意思。

我现在需要一个产品，接受一段声音文件，然后把其中的文字输出出来，应该非常简单的界面。

之前有听说过whisper也很牛！但是，一直都没用过。

那么我就自己做一个单机版的吧！

在参考1.2中提到，意义还是甚多的。

无论是语音助手和聊天机器人，还是支持客户自助服务的问答系统，语音识别和对话式AI的应用频率与日俱增。涵盖金融和医疗健康等众多领域的各行各业，在其解决方案中采用ASR或对话式AI。语音转文本的实际应用非常广泛：

别的不多说，我每天的个人语音操作手机的需求就很旺盛，但是现实并不能满足我的期望。我想开车用，我想写日记用，我想用语音操作手机，现在的都做的不够好，尤其是车载设备。

补充一下，现在的客服声音也需要更好的拟人和智能。总之，语音操作是很重要的！

参考1.3TODO

语音助手怎么盈利？比如Siri，小爱同学（小米公司的产品），天猫精灵（阿里旗下）。

刚刚我们只提了一个简单的设想，目前估计也只能暂时停留在设想层面，因为没法检验。

如果语音助手，能够更加精准的操作设备，能持续和人对话，那就好了。

亚马逊还试图围绕Alexa技术与一些公司开展合作，让用户通过一个语音指令就可以购买达美乐的披萨或叫辆优步，而在这个过程中，亚马逊可以获取佣金。报道称：“由于使用不多，到2020年，该团队已停止发布销售目标。”

根据BusinessInsider的追踪调查，Alexa目前（2022年12月1日）在美国语音助手大战中排名第三，谷歌的Assistant有8150万用户，苹果的Siri有7760万用户，Alexa有7160万用户。

另外，各种应用平台、API等已经能让语音助手遍历网络上的大量信息，再把指令跟应用程序功能对接起来。

这一切听起来都很美，但如今的语音助手仍有着明确的功能边界。在大多数情况下，亚马逊Alexa只能完成简单的任务，例如设置闹钟、播放音乐、播报天气和在网上搜索简单信息等。这些功能要么指向性很强，根本就没多少犯错的空间，要么就是敏感性很低，哪怕做错了也没多大影响。但如果我们想要执行某些敏感、需要多次交互或者具有多模实质的任务，语音助手的可靠性就会急剧下降。

声音的本质就是在手不方便的时候，代替手来操作，程序必须提供语音接口。可以从程序级别提供语音接口，而非一定要先从操作系统层面提供。

人们目前关于智能音箱的盈利办法的共识，是如下：

第一，就是销售硬件，例如亚马逊Echo、苹果HomePod或者谷歌Nest之类的智能音箱。在这种情况下，语音助手技术的商业价值就直接取决于设备价格、所能售出的设备数量以及客户更换这类设备的频率。换言之，这种商业模式跟智能手机很像，人们每隔几年就会掏几大千去买下一代iPhone或者Pixel手机。手机的使用频率高的多，音箱则不然。但那可是手机，智能音箱缺少催人升级换代的动力（只有特殊场景才需要这种功能，比如双手忙不开的时候，所以注定了它难以快速成为大众消费品）。

第一，人们不想为这些音箱支付很高的溢价，毕竟本身使用频率就不高；第二，智能音箱的升级空间也不大，一个麦克风、一个喇叭、再加个显示屏，也就差不多了；最后，用于支持语音助手的云服务也有升级和维护成本。所以综合来讲，用户对智能音箱的使用会给厂商带来持续存在的成本，并在日积月累后逐步超过当初销售音箱所创造的利润。这里来说，智能音箱就是主打一个声音，发挥空间很小。所以，它聊天的功能必须非常强大，它的发挥空间太小了。

第二种思路就是出售服务。在这种情况下，用户需要按月或按年付费才能使用手机或智能音箱上的语音助手。但让人单独付费真的很难，产品必须具有明确的价值才能说服用户为此买单。为了让这种商业模式取得成功，产品必须能够解决某些业界尚未解决的难题，或者创造足够直观的附加价值，进而与产品/市场相契合。遗憾的是，亚马逊Alexa和其他语音助手都达不到这样的高度，单独收费更是痴心妄想。

最后，有些朋友可能还指望着将亚马逊Alexa当成吸引用户购买其他产品的渠道，比如前面提到的网购操作界面。但语音助手天然就不适合这类操作，所以Alexa没法提供理想的购物体验。用户显然更愿意在手机或电脑上操作购物软件，那样更直观也更顺畅。

如今Alexa和Siri之所以还存在，就是因为其背后是两家财力极为雄厚的企业。双方可以不断砸钱进去，在承受亏损的同时慢慢摸索商业模式和技术可能性。

如果纯粹把声音变成文字，然后转换成文字聊天，那么就丢失了语音中包含的情感信息。

所以，NLP不能仅仅是文字级别的，还要有声音级别的，即能合成带有语义和情绪声音。

这样想想，挺让人绝望的，因为我目前连NLP都还没有入门。

下一代语音助手又将朝哪个方向前进？也许有以下几种可能。

首先，等待AI技术的发展让语音助手愈发强大，从而为更多应用场景提供支持（例如主动式语音助手，由它在必要时主动询问意见，而非靠指令被动激活）。

另一种方案就是将现有通用型语音助手转化为面向特定场景的专业助手。如此一来，我们就能把语音助手集成到应用场景的上下文和工作流中，让它们有能力处理步骤更多、复杂度更高的任务。这种形式有望建立起B2B商业模式，特别是在那些需要大量手动操作的行业（例如制造业、饭店和酒店等）中，可以尝试用语音助手降本增效。正如第二代谷歌眼镜在手工领域获得了不错的市场认可，这类业务场景的附加价值也将远超普通消费级市场。

目前还很难确定未来的智能音箱到底还需不需要显示屏。毕竟我们的大部分日常事务都涉及视觉元素，而纯语音助手在应用上还有很多局限。技术发展应该会给出答案。

1实现语音操控APP内部，关于发展路线，先从可实现的程序级语音接口开始。类似于高德的小德。

2语音识别模型必须成为一个组件，可以嵌入进来。

3如果是实时翻译的话，也是不错的。

4未来的语音助手，程序级的语音模块和用户级的语音模块，就相当于内核态和用户态的区别一样。

5语音助手一定要支持离线的功能，否则个人隐私堪忧！

6回家或者离开家的时候，语音助手检测到这个事件即将发生，会跟你打招呼。

在未来，也许可以尝试做一个SAAS平台，或者硬件模块，给人提供声音操作接口和引擎。

声音领域一直很有意思，我一直在想，关于声音的东西很有趣，包括声控开关，声音指纹，根据声音识别人，音色克隆，TTS等等。

之前想到一个有趣的东西，就是把离线模型，把模型写入到嵌入式系统里面去，让终端智能化，提供这样的技术或者说声音模块，提供这种标准，然后可以卖钱。

我之前看到一个人说，语音不适合被拿来做交互，是已经被证明过的事情。看的我心里一慌，不过它说了几个理由，我觉得值得认真考虑一下。

语音容易出现口音，口误，方言等问题。

这里有一个保障语音操作的功能就是声音指纹，就是证明，你是这个人，从而允许你做一些安全的操作。此外，声音指纹也可能造假，所以针对敏感的操作更是要谨慎。

声网是一家有名气的公司。我之前校招的时候听说过，我再次也简单介绍一下声网。

声网（Agora）是一家成立于2014年的全球实时互动云服务开创者和引领者。这家公司专注于提供音视频实时互动的云服务，主要面向企业客户提供应用编程接口（API），使得开发者能够快速地在应用内构建多种实时音视频互动场景。声网的服务覆盖了社交直播、在线教育、企业协作、IoT、医疗、游戏、保险等多个行业，共计100多种场景。声网的实时互动技术服务覆盖全球200多个国家和地区，并在当地提供技术和运营支持。

声网的客户包括小米、陌陌、抖音、新东方、VIPKID、好未来等知名公司。在疫情期间，声网的日均通话分钟数显著增长，达到15.6亿分钟。声网还致力于提供友好的开发者服务，每月为开发者提供10,000分钟的免费使用时长，并提供了丰富的开发者工具和支持。

2020年6月26日，声网的母公司Agora在美国纳斯达克挂牌交易，股票代码为“API”。声网的团队主要由技术人员组成，拥有强大的音视频领域技术能力。此外，声网还提供多种API服务，包括语音视频通话API、互动直播API、实时消息API、实时录制API和实时码流加速API等。

声网在提供实时音视频服务方面具有显著的技术优势，能够支持大规模的实时互动，并保证高质量的音视频传输。公司在全球部署了近百个数据中心和近千台服务器，确保了跨大洲、跨国家、跨运营商网络的实时数据传输质量。

声网这种属于数字供应链底座的公司，感觉还是蛮有前景、蛮有市场的，我很欣赏。

昨天和朋友刘洋聊到这个事，他告诉我Iphone有语音控制或者工作流，我去试用了一下。可能不尽完美，但是我能从中学到甚多，我一定要写一篇测评，来描述这个Iphone的语音控制。

我在想一个东西，就是，我想要什么样的语音助手？

我想过，也许不限于一个语音助手。

我需要一个声音转命令的引擎，可以通过自然语言和机器沟通。比如未来我和机器人对话，我让它做什么，它就做什么。要实现这个，需要几步。

第一步语音能变成文字

第二步这个引擎能够知晓当前环境，对这个环境比较熟悉或者可以自行学习，这个需要训练

第三步在当前环境下，文字能被解释成合适的命令，一系列的命令

第四步不清楚的地方和我反复多轮确认，互相对话，像人一样

第五步执行

然而，当下最重要的是什么？

2厘清到底需要什么技术最重要。

科大讯飞官网上，曾经列出过一些岗位。小米也有类似的岗位。

合肥市、西安市2022-04-07发布硕士研究生及以上3年招聘若干人

上海/合肥/西安

工作职责

1、负责语音信号处理、自然语言处理等方向算法的研发及落地；

2、负责算法的优化与工程化实现，并推动在多个行业的应用落地；

3、针对具体业务问题能够结合算法特点，设计合理的落地方案并实施交付

任职要求

2、英语六级及以上，具备中英文学术论文的调研能力，有从事研究型项目的经历；//这个我试试吧！我觉得问题不大，多读读论文，比如了解语音识别算法的历史。

3、具备较好的计算机编程能力，熟练掌握Python/C++编程；//这个我会

4、具有HTK/Kaldi/TensorFlow/PyTorch/Keras两个以上平台开展工作的经验优先。//这个必须要会！我要增强的

此岗位为科大讯飞集团统一招聘岗位，人员通过简历筛选、笔试、初试、复试、终审等环节后录用。

可能我最心仪的岗位就是这类吧！我就开始针对性学习吧。

所以，综合心仪的岗位来看，我需要即落实自己的传统岗位，也要学会新技能，带着过去走向未来吧。

1、带领团队自主掌握自研实时音视频平台；

2、能够结合业务对平台做整体规划和设计；

3、能够对平台关键指标做持续优化达到业务内一流水平；

4、线上问题快速排查定位和解决。

2、精通C/C++语言开发，熟悉Linux环境开发，3年及以上开发经验；

熟悉音视频频编码标准：H264、VP8、SILK、OPUS等；

熟悉常用流媒体协议：RTP、RTCP、RTMP、RTSP等；

熟悉主流的音视频架构：Mesh、MCU、SFU；

熟练使用FFmpeg等音视频工具的使用；

4、熟悉音视频开源项目优先：Licode、Meooze、Mediasoup、Janus等；

6、学习能力强，强烈的责任心，具有较强的沟通能力及团队合作精神。

2023-07-25发布本科4年招聘1人

2.对Linux有深入了解，了解主流linux发行版及其优缺点；

3.精通linuxC/C++，熟悉makefile，熟悉linux编译及调试过程；

4.熟悉Linux内核原理及源码和Linux驱动与应用开发；

5.熟悉嵌入式开发，熟悉ARM、MIPS或X86架构；

6.熟悉体系结构、数据结构和各种总线协议；

7.熟悉车载信息娱乐系统开发优先考虑。

此岗位为科大讯飞集团统一招聘岗位，人员通过简历筛选、初试、复试、终审等环节后录用。

西安市2024-01-03发布本科招聘1人

1、负责多项目管理或大型项目管理，带领团队按照公司要求按时完成交付任务，达成区域经营战略和目标；

2、带领团队完成给定的医疗项目部署实施，进行项目管控，协调解决疑难问题，提升团队整体能力，高效完成项目交付和验收；

3、项目过程规范文档编写和输出，优化项目交付过程；

4、贯彻落实公司各项管理规范和规章制度；5、团队建设，项目交付过程中对团队成员进行辅导，帮助团队成员全面提升能力。

西安市2024-01-04发布本科及以上3年招聘1人

西安市2024-04-15发布本科招聘1人

1、参与部门NLP系统建设，包括：数据平台、训练平台、文本分类、文本生成、命名实体识别、关系抽取、LLM、Prompt工程等方向的设计和研发工作；2、参与部门NLP模型大规模分布式训练的方案设计、训练、调优工作；3、参与客户需求分析和对接，根据客户需求完成NLP系统整体解决方案设计、研发和落地；4、参与NLP系统的数据分析工作，评估算法效果并进行持续优化改进。

2、具备良好的计算机、数据结构、机器学习、自然语言处理等理论知识;具备较好的计算机编程能力，熟练掌握Python编程;

3、熟悉常见深度学习算法和理论，熟练掌握先进的NLP模型如Transformer、BERT、GPT、InstructGPT等;熟练掌握至少一种常见的深度学习框架(Pytorch、TensorFlow等);熟悉NLP模型大规模分布式训练过程。

4、熟悉LLM如讯飞星火的理论知识、训练过程、应用范围以及Prompt调优手段;

5、擅长将算法实际应用的表现抽象出研究问题，并具有一定分析和解决实际问题的能力:

人机对话系统是一种允许用户与计算机以自然语言进行交互的系统。这种系统通过理解用户的语音或文本输入，并据此提供响应，模拟了人与人之间的对话。人机对话系统可以应用于多种场景，包括客户服务、虚拟助手、信息检索、智能家居控制等。人机对话系统的主要组成部分包括：

模式识别技术是一种人工智能的分支，它涉及使计算机能够识别数据中的模式或规律，并据此做出决策或预测。模式可以是任何形式的数据，如文字、图像、声音或其他任何类型的数据。模式识别技术在许多领域都有应用，包括图像处理、语音识别、自然语言处理、生物信息学和医学诊断等。模式识别技术通常包括以下几个步骤：

模式识别技术在许多实际应用中都有广泛的使用，以下是一些例子：

图像识别：

语音和语言处理：

生物特征识别：

金融领域：

零售和消费者行为：

文本分析和挖掘：

环境监测：

机器人技术：

2.1中介绍了alexa作为语音助手，它无法盈利的尴尬处境。

2.8介绍了rasa这个人机对话框架

2.6现在有人机对话系统的评测标准吗？-transformer的回答-知乎TODO

西瓜书是个好书，正式名字叫做《机器学习》。

机器学习是计算机科学与人工智能的重要分支领域.本书作为该领域的入门教材，在内容上尽可能涵盖机器学习基础知识的各方面.

全书共16章，大致分为3个部分：

第1部分（第1～3章）介绍机器学习的基础知识；

第2部分（第4～10章）讨论一些经典而常用的机器学习方法（决策树、神经网络、支持向量机、贝叶斯分类器、集成学习、聚类、降维与度量学习）；

查全率：查的对的里面，实际想要的占多少。

查准率：给出判断的里面，多少是对的。

都是从不同角度评价模型的。

《机器学习》这本书公式太多了，难道我要返回去学线性代数吗（已经忘了好多了）？这会真的有点头疼。如果大家都说这本书好，那么我可能这个阶段不太适合这本书。

看样子，西瓜书就是一个大而全的。

我于是尝试找了一本其他的书，这本书，《机器学习实战：基于Scikit-Learn、Keras和TensorFlow第2版》，我觉得还可以。

回头来看，个人觉得西瓜书并不是最好的入门学习书籍。公式太多了，适合中级参考。

并不是说放弃了西瓜书，而是对照着看。

摘录一些其中的观点。

使用机器学习方法挖掘大量数据来帮助发现不太明显的规律。这称作数据挖掘。

这本书里提到一些技术，比如训练一个垃圾邮件识别算法，那么问题来了，有测试数据集吗？

JupyterNotebook可以设置Python路径。您可以通过修改JupyterNotebook的配置文件来设置Python路径。具体步骤如下：

importsyssys.path.append('/path/to/your/python/directory')将/path/to/your/python/directory替换为您要添加的Python路径。

创建环境

virtualenvmlenvsourcemlenv/bin/activatepipinstall-Ujupytermatplotlibnumpypandasscipyscikit-learnJupyter和Python是相互关联但又独立的概念。Python是一种广泛使用的编程语言，它有自己的一系列库和工具，可以用于各种编程任务，从数据分析到网站开发，再到自动化脚本等。Jupyter是一个开源项目，它提供了一个交互式计算环境，允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。Jupyter支持多种编程语言，包括Python、R和Julia。JupyterNotebook是Jupyter项目的一个组件，它允许用户创建和共享包含实时代码的文档。虽然Jupyter可以支持多种编程语言，但它通常与Python一起使用，因为Python是数据科学和科学计算中最流行的语言之一。JupyterNotebook本身是用Python编写的，而且许多Jupyter的扩展和插件也是为Python设计的。简而言之，Python是一种编程语言，而Jupyter是一个可以让用户以交互式方式使用Python（以及其他语言）的工具。它们可以独立使用，但在数据科学和科学计算领域，它们经常一起使用。

事实上，在一些特定的应用中机器学习已经存在几十年了，比如光学字符识别（OpticalCharacterRecognition，OCR）。但是直到20世纪90年代，第一个影响了数亿人的机器学习应用才真正变成主流，它就是垃圾邮件过滤器。虽然它并不是一个有自我意识的天网系统（Skynet），但是从技术上来说是符合机器学习的（它可以很好地进行学习，以至于用户几乎不用将某个邮件标记为垃圾邮件）。后来出现了数以百计的机器学习应用，支撑了数百个现在经常使用的产品和特性（从更好的推荐系统到语音搜索）。

机器学习的另一个亮点是善于处理对于传统方法而言太复杂或没有已知算法的问题。

在探索机器学习新大陆之前，先观察地图来学习下这片大陆上的主要地区和最显著的地标：监督学习和无监督学习、在线学习和批量学习、基于实例学习和基于模型学习。然后我们来看一个典型的机器学习项目的工作流程，讨论你可能会遇到的难点，并介绍如何评估和微调一个机器学习系统。

通常比较好的做法是，先使用降维算法减少训练数据的维度，再将其提供给另一个机器学习算法（例如有监督学习算法）。这会使它运行得更快，数据占用的磁盘空间和内存都会更小，在某些情况下，执行性能也会更高。

最后，还有一个常见的无监督任务是关联规则学习，其目的是挖掘大量数据，发现属性之间的有趣联系。例如，假设你开了一家超市，在销售日志上运行关联规则之后发现买烧烤酱和薯片的人也倾向于购买牛排。那么，你可能会将这几样商品摆放得更近一些。

由于通常给数据做标记是非常耗时和昂贵的，你往往会有很多未标记的数据而很少有已标记的数据。有些算法可以处理部分已标记的数据。这被称为半监督学习（见图1-11）。

根据训练期间接受的监督数量和监督类型，可以将机器学习系统分为以下四个主要类别：有监督学习、无监督学习、半监督学习和强化学习。

在有监督学习中，提供给算法的包含所需解决方案的训练集称为标签。

分类任务是一个典型的有监督学习任务。垃圾邮件过滤器就是一个很好的示例：通过大量的电子邮件示例及其所属的类别（垃圾邮件还是常规邮件）进行训练，然后学习如何对新邮件进行分类。

另一个典型的任务是通过给定一组称为预测器的特征（里程、使用年限、品牌等）来预测一个目标数值（例如汽车的价格）。这种类型的任务称为回归。要训练这样一个系统，需要提供大量的汽车示例，包括它们的预测器和标签（即价格）

这里是一些最重要的有监督学习算法（本书中会介绍）：

·k-近邻算法

·线性回归

·逻辑回归

·支持向量机（SVM）

·决策树和随机森林

·神经网络

传统机器学习和深度机器学习是机器学习领域的两个子集，它们在算法、数据需求和性能方面有所不同。传统机器学习：传统机器学习通常指的是使用相对简单的算法来处理数据并做出预测的任务。这些算法包括但不限于：

总结：

这是语音识别，要求能处理音频采样。因为音频是很长、很复杂的序列，所以一般使用RNN、CNN或者Transformer（见第15章和第16章）进行处理。

数据量够大，会消除模型之间的差距，反过来看，研究算法跟准备数据，哪个更重要？

数据如果不具有代表性，会让模型跑偏

端到端的机器学习：

在机器学习中，超参数是模型参数以外的参数，通常不是通过学习算法自动估计的。它们用来指导学习算法，并且在算法开始学习之前就需要设定。超参数影响模型的学习过程和性能，通常需要根据具体的应用场景进行优化。常见的超参数包括：

可以认为，超参数类似于人生下来的设定，比如家庭背景，父母，智商程度等等。

Scikit-Learn（简称Sklearn）是一个开源的机器学习库，它是在Python编程语言中实现的。Scikit-Learn提供了一个简单而一致的API，用于访问一系列监督和非监督学习的算法，以及这些算法的评估和数据分析工具。Scikit-Learn的主要特点包括：

fetch_openml

PyTorch是一个开源的机器学习库，由Facebook的人工智能研究团队开发，并得到了广泛的应用和研究社区的支持。它主要用于应用如计算机视觉和自然语言处理等领域的深度学习，但也可以用于传统的机器学习任务。以下是PyTorch的一些主要特点和功能：

PyTorch和Scikit-Learn是两个流行的机器学习库，它们各自有不同的特点和用途。以下是它们之间的一些主要区别：

核心功能和目标用户：

灵活性和复杂性：

计算图和动态性：

GPU加速：

社区和生态系统：

第二章，非常的让人振奋人心，可以立马着手操作了。

在2.3节，获取数据这里，就可以着手开始了解和操作了。

插一嘴，我认为机器学习实战这本书非常的科学，非常适合自己学习。

在文件形式上：

在表现形式上：

在应用上：

在评估上：

使用TensorFlow框架训练的线性模型，最终的保存形式通常是一个或多个文件，这些文件包含了模型的权重、偏差、架构和其他必要的元数据。TensorFlow提供了多种方式来保存和恢复模型，最常用的是以下两种：

SavedModel格式：SavedModel是TensorFlow推荐的模型保存格式，它可以保存整个模型（包括架构和参数）以便于部署。保存后的模型目录包含一个以.pb（ProtocolBuffers）格式保存的模型文件和一个变量文件夹，其中包含了模型的权重和其他变量。保存模型：

importtensorflowastf#假设`model`是你的线性模型model=...#保存模型tf.saved_model.save(model,"path/to/model")这将创建一个包含模型文件的目录。

HDF5（Keras）格式：如果你的线性模型是用Keras（TensorFlow的高级API）创建的，你可以保存模型为HDF5格式，文件扩展名为.h5。保存模型：

model.save("path/to/model.h5")这将创建一个包含模型权重、架构和优化器的单个.h5文件。恢复模型：对于SavedModel格式：

loaded_model=tf.saved_model.load("path/to/model")对于HDF5格式：

loaded_model=tf.keras.models.load_model("path/to/model.h5")在这两种情况下，保存的模型都可以被用于进行预测或进一步的分析。SavedModel格式通常用于TensorFlowServing或TensorFlowLite，而HDF5格式则更适用于Keras模型的保存和加载。

模型部署是将训练好的模型集成到实际应用中，使其能够接收输入数据并产生预测的过程。部署模型的方法取决于应用的需求、环境和模型本身。以下是一些常见的部署策略：

在线部署：

离线部署：

批处理部署：

实时部署：

模型转换（如果需要）：

模型打包：

环境准备：

API开发：

安全性和隐私：

监控和日志：

测试：

持续维护：

要将一个使用scikit-learn训练的模型部署到线上，可以使用Flask这样的轻量级Web框架来创建一个API。以下是一个简单的步骤指南：

准备环境：确保你的开发环境中安装了Flask和scikit-learn。可以使用pip来安装：

pipinstallFlaskscikit-learn创建Flask应用：创建一个新的Python文件，例如app.py，并导入Flask和其他必要的库：

fromflaskimportFlask,request,jsonifyimportjoblibimportnumpyasnpapp=Flask(__name__)加载模型：使用joblib加载你训练好的模型。假设你的模型保存在model.pkl文件中：

model=joblib.load('model.pkl')定义预测路由：定义一个路由，它将接受POST请求并使用模型进行预测：

@app.route('/predict',methods=['POST'])defpredict():#获取JSON数据data=request.get_json(force=True)#将数据转换为NumPy数组prediction_input=np.array(data['input']).reshape(1,-1)#使用模型进行预测prediction=model.predict(prediction_input)#返回预测结果returnjsonify({'prediction':prediction.tolist()})运行Flask应用：在app.py文件的末尾添加以下代码来运行应用：

if__name__=='__main__':app.run(debug=True)测试本地服务器：在你的本地机器上运行app.py：

部署到线上：

监控和维护：

在机器学习中，predict方法是模型的一个函数，用于对新数据点进行预测。这个方法接受一个或多个数据点作为输入，并返回模型对这些数据点的预测结果。具体的预测类型（如分类或回归）取决于模型的类型。

以下是predict方法的一般工作流程：

下面是一个使用scikit-learn中线性回归模型的predict方法的例子：

fromsklearn.linear_modelimportLinearRegressionfromsklearn.model_selectionimporttrain_test_splitfromsklearn.datasetsimportload_bostonimportnumpyasnp#加载数据集data=load_boston()X=data.datay=data.target#划分训练集和测试集X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,random_state=42)#创建模型model=LinearRegression()#训练模型model.fit(X_train,y_train)#使用模型进行预测predictions=model.predict(X_test)#输出预测结果print(predictions)在这个例子中，predict方法被用来对测试集X_test进行预测，返回的predictions是一个数组，包含了模型对每个测试数据点的房价预测。

NumPy和Pandas是Python中用于数据分析和数据处理的两个非常强大的库。下面是它们各自的简单教程。

NumPy教程

NumPy是一个用于处理大型多维数组和矩阵的库，它提供了大量的数学函数来操作这些数组。

安装NumPy：

pipinstallnumpy创建数组：

importnumpyasnp#创建一个一维数组arr=np.array([1,2,3,4,5])#创建一个二维数组（矩阵）matrix=np.array([[1,2],[3,4],[5,6]])数组属性：

print(arr.ndim)#维度print(arr.shape)#形状print(arr.size)#元素数量索引和切片：

print(arr[0])#第一个元素print(arr[-1])#最后一个元素print(arr[2:4])#第三到第四个元素（不包括第四个）数据类型：

arr=np.array([1,2,3],dtype=float)数学运算：

arr=np.array([1,2,3])arr2=np.array([4,5,6])print(arr+arr2)#元素级加法print(arr*arr2)#元素级乘法print(arr**2)#元素级幂运算广播：

arr=np.array([[1,2,3],[4,5,6]])arr2=np.array([10,10,10])print(arr+arr2)#广播加法Pandas教程

Pandas是一个数据分析和操作库，它提供了数据结构和数据分析工具，用于处理和分析结构化数据。

安装Pandas：

pipinstallpandas创建DataFrame：

importpandasaspd#创建一个DataFramedata={'name':['Tom','Jerry','Mickey'],'age':[20,21,22],'city':['NewYork','LosAngeles','Chicago']}df=pd.DataFrame(data)查看DataFrame：

print(df.head())#显示前几行print(df.tail())#显示后几行print(df.shape)#行数和列数选择数据：

print(df['name'])#选择一列print(df[['name','age']])#选择多列print(df.loc[0])#选择第一行print(df.loc[0,'name'])#选择第一行的'name'列过滤数据：

print(df[df['age']>20])#过滤年龄大于20的数据缺失值处理：

df['age'].fillna(df['age'].mean(),inplace=True)#填充缺失值分组和聚合：

print(df.groupby('city').mean())#按城市分组，计算平均年龄合并数据：

df2=pd.DataFrame({'name':['Tom','Jerry'],'score':[90,80]})print(pd.merge(df,df2,on='name'))#根据'name'列合并数据这些是NumPy和Pandas的基本操作，它们的功能远不止于此。要深入学习，建议查看官方文档和教程。

总体思路就是统计A类别实例被分成为B类别的次数。例如，要想知道分类器将数字3和数字5混淆多少次，只需要通过混淆矩阵的第5行第3列来查看。

混淆矩阵中的行表示实际类别，列表示预测类别。本例中第一行表示所有“非5”（负类）的图片中：53057张被正确地分为“非5”类别（真负类），1522张被错误地分类成了“5”（假正类）；第二行表示所有“5”（正类）的图片中：1325张被错误地分为“非5”类别（假负类），4096张被正确地分在了“5”这一类别（真正类）。

实际情况非5是5判断非5：真非假非判断是5：假是真是

准确率以第二行为核心

召回率以第二列为核心

在某些情况下，你更关心的是精度，而另一些情况下，你可能真正关心的是召回率。

例如，假设你训练一个分类器来检测儿童可以放心观看的视频，那么你可能更青睐那种拦截了很多好视频（低召回率），但是保留下来的视频都是安全（高精度）的分类器，而召回率虽不高，但是在产品中可能会出现一些非常糟糕的视频的分类器（这种情况下，你甚至可能会添加一个人工流水线来检查分类器选出来的视频）。

反过来说，如果你训练一个分类器通过图像监控来检测小偷：你大概可以接受精度只有30%，但召回率能达到99%（当然，安保人员会收到一些错误的警报，但是几乎所有的窃贼都在劫难逃）。

遗憾的是，鱼和熊掌不可兼得，你不能同时增加精度又减少召回率，反之亦然。这称为精度/召回率权衡

我们来看看SGDClassifier如何进行分类决策。对于每个实例，它会基于决策函数计算出一个分值，如果该值大于阈值，则将该实例判为正类，否则便将其判为负类。

上图显示了从左边最低分到右边最高分的几个数字。假设决策阈值位于中间箭头位置（两个5之间）：在阈值的右侧可以找到4个真正类（真的5）和一个假正类（实际上是6）。因此，在该阈值下，精度为80%（4/5）。但是在6个真正的5中，分类器仅检测到了4个，所以召回率为67%（4/6）。

现在，如果提高阈值（将其挪动到右边箭头的位置），假正类（数字6）变成了真负类，因此精度得到提升（本例中提升到100%），但是一个真正类变成一个假负类，召回率降低至50%。反之，降低阈值则会在增加召回率的同时降低精度。

现在你有一个90%精度的分类器了（或者足够接近）！如你所见，创建任意一个你想要的精度的分类器是相当容易的事情：只要阈值足够高即可！然而，如果召回率太低，精度再高，其实也不怎么有用！

这个分类器的优势是能够有效处理非常大型的数据集。这部分是因为SGD独立处理训练实例，一次一个（这也使得SGD非常适合在线学习。

SGDClassifier在训练时是完全随机的（因此得名“随机”），如果你希望得到可复现的结果，需要设置参数random_state。

示例代码

fromsklearn.linear_modelimportSGDClassifiersgd_clf=SGDClassifier(random_state=42)sgd_clf.fit(X_train,y_train_5)sgd_clf.predict([some_digit])#返回array([True])表示some_digit==5第四章训练模型本章我们将从最简单的模型之一——线性回归模型，开始介绍两种非常不同的训练模型的方法：

第一种，通过“闭式”方程，直接计算出最拟合训练集的模型参数（也就是使训练集上的成本函数最小化的模型参数）。

第二种，使用迭代优化的方法，即梯度下降（GD），逐渐调整模型参数直至训练集上的成本函数调至最低，最终趋同于第一种方法计算出来的模型参数。我们还会研究几个梯度下降的变体，包括批量梯度下降、小批量梯度下降以及随机梯度下降。等我们进入到第二部分神经网络的学习时，会频繁地使用这几个的变体。

这两种知识，让人感觉非常的兴奋啊！

传说中的支持向量机，我终于学到你这了，这本书讲的非常的通俗易懂，所以我认为我有很大的机会揭开你的面纱，看清楚你到底是怎么回事。

我记得最近查阅SVM的时候，了解到SVM适合做分类任务。

作者说，它是机器学习领域最受欢迎的模型之一，任何对机器学习感兴趣的人都应该在工具箱中配备一个。SVM特别适用于中小型复杂数据集的分类。

书中5.1中，非常清晰的说明了SVM是什么，即最宽的街道。

importnumpyasnpfromsklearnimportdatasetsfromsklearn.pipelineimportPipelinefromsklearn.preprocessingimportStandardScalerfromsklearn.svmimportLinearSVCiris=datasets.load_iris()X=iris["data"][:,(2,3)]#petallength,petalwidthy=(iris["target"]==2).astype(np.float64)#Irisvirginicasvm_clf=Pipeline([("scaler",StandardScaler()),("linear_svc",LinearSVC(C=1,loss="hinge")),])svm_clf.fit(X,y)这段代码是使用Python编写的，它使用了Scikit-learn库来创建一个支持向量机（SVM）分类器，用于识别鸢尾花数据集（Irisdataset）中的Irisvirginica品种。下面是代码的逐步解释：

导入库：

importnumpyasnpfromsklearnimportdatasetsfromsklearn.pipelineimportPipelinefromsklearn.preprocessingimportStandardScalerfromsklearn.svmimportLinearSVC这些行代码导入了所需的库和模块。numpy是一个数学库，用于进行数值计算。sklearn是Scikit-learn库，它提供了许多机器学习算法和工具。

加载鸢尾花数据集：

iris=datasets.load_iris()这行代码加载了内置的鸢尾花数据集，这是一个常用的用于分类任务的数据集，包含了三种不同鸢尾花的萼片和花瓣的长度和宽度。

选择特征和标签：

X=iris["data"][:,(2,3)]#petallength,petalwidthy=(iris["target"]==2).astype(np.float64)#Irisvirginica这两行代码选择了数据集中的特征和标签。X是特征矩阵，这里只选择了花瓣的长度和宽度作为特征。y是标签向量，它是一个布尔数组，表示每个样本是否是Irisvirginica（标签为2）。astype(np.float64)将布尔数组转换为浮点数组，其中True变为1，False变为0。

创建SVM分类器管道：

svm_clf=Pipeline([("scaler",StandardScaler()),("linear_svc",LinearSVC(C=1,loss="hinge")),])这段代码创建了一个管道，它将两个步骤组合在一起：首先是StandardScaler()，它对特征进行标准化；然后是LinearSVC()，它是一个线性支持向量机分类器，使用hinge损失函数，并且正则化参数C设置为1。

训练分类器：

svm_clf.fit(X,y)这行代码训练了SVM分类器。它使用X作为特征矩阵，y作为标签向量，通过管道中的步骤对数据进行处理和分类器的训练。总结来说，这段代码的目的是使用线性支持向量机分类器对鸢尾花数据集中的Irisvirginica进行分类，通过选择合适的花瓣特征，并对特征进行标准化处理。训练好的分类器可以用于预测新的数据点是否属于Irisvirginica。

书中写到，人工神经网络（ANN）是深度学习的核心。它们用途广泛、功能强大且可扩展，使其非常适合处理大型和高度复杂的机器学习任务，例如对数十亿张图像进行分类（例如GoogleImages），为语音识别服务（例如Apple的Siri）提供支持，每天向成千上万的用户推荐（例如YouTube）观看的最佳视频，或学习在围棋游戏（DeepMind的AlphaGo）中击败世界冠军。

书中的介绍大概如此，本章的第一部分介绍了人工神经网络，首先是对第一个ANN架构的快速浏览，然后是今天广泛使用的多层感知机（MLP）（其他架构将在第11章中进行探讨）。在第二部分中，我们将研究如何使用流行的KerasAPI实现神经网络。这是设计精巧、简单易用的用于构建、训练、评估和运行神经网络的API。但是，不要被它的简单性所迷惑：它的表现力和灵活性足以让你构建各种各样的神经网络架构。

Keras是一个开源的神经网络库，它能够以Python语言运行在TensorFlow、CNTK或Theano之上。它是由Google的软件工程师FranoisChollet开发的，旨在快速实验神经网络的构建，同时保持代码的简洁性和可读性。

Keras的易用性使其在学术界和工业界都得到了广泛的应用，无论是初学者还是经验丰富的机器学习工程师，都可以通过Keras来构建和训练自己的模型。

在TensorFlow1.x版本中，TensorFlow团队将Keras作为TensorFlow的一个官方API加入到TensorFlow生态系统中。这意味着用户可以直接在TensorFlow中使用KerasAPI来构建和训练模型，而无需切换到其他库。Keras成为TensorFlow的默认高级API，并且TensorFlow为Keras提供了后端支持，使得Keras模型可以在TensorFlow的计算图上运行。

在TensorFlow2.0及以后的版本中，Keras更是被进一步整合到TensorFlow中，成为其核心的一部分。TensorFlow2.0引入了EagerExecution，这是一种命令式编程环境，使得TensorFlow的使用更加直观和易用，与Keras的设计理念相契合。因此，KerasAPI成为TensorFlow2.0推荐的模型构建方式，而TensorFlow提供了KerasAPI所需的所有功能和优化。

总结来说，Keras是TensorFlow的一个高级API，它简化了神经网络的构建和训练过程，而TensorFlow是运行环境，为Keras提供了所需的底层计算和硬件加速支持。两者的结合使得深度学习模型的开发变得更加高效和便捷。

Theano是一个Python库，允许用户定义、优化和评估数学表达式，特别是涉及多维数组的表达式。Theano最初是由蒙特利尔大学（UniversityofMontreal）的LISA实验室开发的，它的名字是为了纪念希腊数学家泰阿恩（Theano），她是毕达哥拉斯的妻子，也是一位数学家。Theano的主要特点包括：

大模型可谓太火了。

TODO

声音智能技术的应用包括，数字人，人机语音交互，语音操作模块等等。

声音智能技术就像人的衣食住行一样，一定是未来的一个方向，一定会得到广泛的应用，这一块一定是毋庸置疑的。

这里需要说一个东西，我们要敏锐的观察市场。这个大方向是对的，但是要注意当下的风向。

有一个科学家说，21世纪是生物的世纪。但是很明显，现在还没有到来。

越是准确的预言越容易证伪，很多名人的话都容易成为笑话，更何况我们自己普通人的简单判断呢？所以要对判断保持开放，即认可这个大方向，但是也要结合实际。

把自己的技术和市场需求结合起来才能稳扎稳打。

所以，我有两个问题想问，现在的市场上，对于语音技术的需求在什么地方？第二个问题，我们能做出什么超越当下技术的可靠的可推广的语音技术呢？

在大模型时代，算法工程师需要将重心从单纯的算法研究转向更加注重工程实践。这包括以下几个方面的技能升级：

在大模型时代，算法工程师可以选择不同的发展路径和职业规划：

随着人工智能技术的迅猛发展，大模型已成为当今人工智能领域的一大亮点和挑战。大模型不仅在自然语言处理、计算机视觉等领域取得了卓越成就，也为算法工程师提供了多种发展路径。在这篇博客中，我们将探讨算法工程师在大模型时代的前景和发展方向，并结合实际案例分析，深入理解每个方向的内涵。

路径一：深耕研究领域

路径二：工程实践与部署

随着大模型的广泛应用，算法工程师在工程实践和模型部署方面也有着广阔的发展空间。大模型需要高性能的硬件资源和合理的部署策略，以实现在实际应用中的效果。例如，谷歌的Bert模型在自然语言处理任务中表现出色，但其巨大的体积和计算需求也对部署提出了挑战。因此，算法工程师需要深入了解模型的优化、剪枝、量化等技术，以实现在有限资源下的高效部署。

路径三：跨界合作与解决复杂问题

大模型的应用不仅仅局限于某一领域，它们在多个领域都能发挥巨大作用。算法工程师可以选择跨界合作，与领域专家一起解决复杂问题。例如，在医疗领域，结合自然语言处理和图像处理技术，可以实现医疗影像的自动分析与诊断，从而提高诊断效率和准确率。

路径四：教育培训和技术普及

随着人工智能的普及，对于算法工程师来说，传播知识、培养新人同样具有重要意义。算法工程师可以选择投身于教育培训领域，培养更多的人才，推动人工智能技术的普及。此外，可以参与技术社区的建设，为广大开发者提供帮助和指导。

不断学习与更新知识

随着技术的迅速变化，算法工程师需要不断学习和更新知识。参加培训、学术研讨会、技术论坛等可以帮助算法工程师保持敏感的技术触觉，了解最新的技术动态和发展趋势。

THE END

2404173语音识别算法入门记录介绍我一直对语音识别比较感兴趣。所以，这次，我决定开个帖子记录从最开始了解的全过

TCL林小林：拒绝“伪智能”，拆解酒店行业数智化关键痛点转型新浪财经

问诊中国酒店业：OTA是借口，过剩和同质化才是病根ota万豪出租率酒店业餐饮

酒店数字化转型加速，数据安全已成为关键的核心竞争力之一！

酒店数字化转型加速，数据安全已成为关键的核心竞争力之一！

酒店数字化转型加速，数据安全已成为关键的核心竞争力之一！

TCL林小林：拒绝“伪智能”，拆解酒店行业数智化关键痛点

文化创意产业发展论文通用12篇

职业发展管理范文

中国人民政治协商会议郑州市委员会

共享经济行业研究报告(精选5篇)

2404173语音识别算法入门记录介绍我一直对语音识别比较感兴趣。所以，这次，我决定开个帖子记录从最开始了解的全过

关于植物的现代诗赏析八篇

特色教育理念8篇

乡村振兴背景下乡村旅游发展现状及对策研究旅游经济论文

综合酒店研究报告20242029年中国综合酒店行业经营模式分析及投资潜力研究报告