本文总结了大模型领域常用的近100个名词解释,并按照模型架构与基础概念,训练方法与技术,模型优化与压缩,推理与应用,计算与性能优化,数据与标签,模型评估与调试,特征与数据处理,伦理与公平性、其他的分类进行了整理,以下供参考:
模型架构与基础概念
大语言模型(LLM,Large Language Model):一种基于深度学习的大规模神经网络模型,通常采用Transformer架构。它能够处理大量的语言数据并生成高质量的文本,通过大规模的数据集训练来学习语言的复杂模式。Transformer架构:一种广泛应用于自然语言处理任务的神经网络架构,因其自注意力机制(self-attention)而能够高效处理序列数据中的长距离依赖关系,成为NLP领域的主流架构。
循环神经网络(RNN,Recurrent Neural Network):一种能够处理序列数据的神经网络架构,适用于自然语言处理等任务。尽管有效,但在捕捉长期依赖方面存在局限性,容易出现梯度消失或爆炸的问题。
长短期记忆网络(LSTM,Long Short-Term Memory):一种特殊类型的RNN,通过特殊的门控机制解决了标准RNN在长序列训练中的梯度消失问题,从而更好地捕捉长期依赖关系。
卷积神经网络(CNN,Convolutional Neural Network):一种专门用于处理图像数据的神经网络架构,通过卷积操作提取图像特征。此外,CNN也可应用于文本分类等其他领域。
全连接层(Fully Connected Layer):一种神经网络层,输入的每个节点都与输出的每个节点相连接。这种层通常出现在网络的最后几层中,用于整合前面层提取的特征以做出最终预测。
混合专家模型(MoE,Mixture of Experts):一种模型架构,通过多个“专家”网络并行处理输入数据,然后通过门控机制选择最合适的专家输出结果。MoE模型特别适合于处理大规模数据,在计算效率和性能平衡方面表现出色。多头注意力(Multi-Head Attention):Transformer架构中的一种机制,通过将注意力机制分解为多个“头”,每个“头”都可以学习输入数据的不同特征,从而提高模型的表现力。
位置编码(Positional Encoding):在Transformer模型中,用于向模型提供输入序列中每个元素的位置信息,因为Transformer本身不具有序列顺序的记忆能力。
注意力机制(Attention Mechanism):一种允许模型在处理序列数据时聚焦于输入序列的特定部分的机制,是Transformer架构的核心组成部分之一。
图神经网络(Graph Neural Network, GNN):一种专门设计用来处理图形结构数据的神经网络类型,可用于社交网络分析、分子结构预测等领域。自注意力机制(Self-Attention Mechanism):一种特殊的注意力机制,它允许输入序列中的每个元素都能注意到该序列中的所有其他元素,从而帮助捕捉长距离依赖关系。
编码器-解码器架构(Encoder-Decoder Architecture):一种常见的深度学习架构,用于处理序列到序列的任务,如机器翻译。编码器将输入序列转换为一个中间表示形式,而解码器则根据这个中间表示生成输出序列。
残差连接/跳跃连接(Residual/Skip Connections):在网络层之间添加直接连接,使得信息可以跳过一层或多层直接传递到后面的层中。这种方法有助于训练非常深的网络,缓解梯度消失问题。
归一化层(Normalization Layers):包括批归一化(Batch Normalization)、层归一化(Layer Normalization)等,通过调整和缩放激活值来加速训练过程并稳定训练。
正则化(Regularization):用于防止过拟合的技术,常见的方法包括L2正则化、Dropout等。
Dropout:一种正则化技术,在训练过程中随机“丢弃”神经元(即设置其激活值为零),以避免模型对特定神经元的过度依赖,从而提高泛化能力。
激活函数(Activation Function):引入非线性因素到神经网络中,使得模型能够学习复杂的模式。常用的激活函数包括ReLU、Sigmoid、Tanh等。
嵌入层(Embedding Layer):将离散的类别型数据(如词汇表中的单词)映射到连续向量空间的一种方式,常用于自然语言处理任务。
训练方法与技术训练数据集:大模型训练所需的大规模数据集,包含了各种语言样本,用于模型的学习、验证和测试其性能。它不仅支持模型的基础学习过程,还通过验证和测试集来评估和优化模型的表现。
参数量:模型中可调节的数值,用于调整神经网络的行为。
深度学习:一种基于多层神经网络的机器学习方法,特别适合处理大规模数据。深度学习不仅仅适用于大规模数据处理,它还特别擅长自动提取数据中的复杂特征,减少了手工设计特征的需求。
预训练(Pre-training):在大规模无标注数据上训练模型,学习通用的语言规律。
微调(Fine-tuning):在预训练模型基础上,用特定领域的小规模数据进一步训练。
监督微调(Supervised Fine-Tuning,SFT):使用标注好的数据集对模型进行进一步训练,使其在特定任务上表现更好。少样本学习(Few-shot Learning):在只有少量标注数据的情况下训练模型,使其能够快速适应新任务。
零样本学习(Zero-shot Learning):模型在没有见过特定类别的数据的情况下进行推理。
对抗训练(Adversarial Training):通过生成对抗样本来训练模型,增强其鲁棒性。
超参数调优(Hyperparameter Tuning):对模型的超参数进行优化,以提高模型性能。
自监督学习(Self-Supervised Learning):通过输入数据本身的部分信息来生成标签。
人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF):通过人类反馈优化模型输出,使其更符合人类价值观。
Scaling Law(缩放定律):描述模型性能如何随着模型规模(如参数数量)、数据集大小和计算资源的增加而变化的规律。Scaling Law表明,模型性能通常会按照幂律关系改善。
迁移学习(Transfer Learning):将一个领域的知识迁移到另一个领域以改进学习效率和效果的方法。
元学习(Meta-learning):也称为“学习如何学习”,通过从多个相关任务中学习来提高新任务的学习效率。
批量大小(Batch Size):在训练神经网络时,一次迭代中使用的样本数量。影响模型训练的速度和稳定性。
梯度下降(Gradient Descent):一种优化算法,通过最小化损失函数来更新模型参数,以改进模型性能。
学习率(Learning Rate):控制梯度下降步骤大小的超参数,对模型训练速度和最终性能有重要影响。
早停法(Early Stopping):一种防止过拟合的技术,在验证集上的性能不再提高时停止训练。
数据增强(Data Augmentation):通过对训练数据进行变换(如旋转、缩放等),生成更多样化的训练样本,以增加模型的泛化能力。
联合学习(Federated Learning):一种机器学习设置,允许模型在多个分散的数据源上训练而不直接共享数据,保护隐私的同时利用分布式数据资源。
模型优化与压缩知识蒸馏/模型蒸馏(Knowledge Distillation/Model Distillation):一种技术,通过训练一个小模型(学生模型)来模仿大模型(教师模型)的行为,以达到减少计算复杂度和资源消耗的目的。这种技术不仅限于大小模型之间的转换,也可以用于模型间的知识迁移。
量化(Quantization):将模型的参数和激活值映射到较低的位数(如从32位浮点数降至8位整数),以减少模型的存储需求和计算复杂度。这有助于降低内存占用并加速推理过程。
剪枝(Pruning):去除神经网络中冗余的权重或神经元,包括非结构化剪枝(逐个权重)和结构化剪枝(如整个通道、滤波器或层),以达到压缩模型的目的,简化模型结构,便于硬件实现。
稀疏激活(Sparse Activation):采用特定类型的激活函数(如ReLU变体)或通过结构化稀疏训练,使得神经网络的激活函数在大部分情况下输出零值,从而减少计算量和存储需求。
模型压缩(Model Compression):通过一系列技术手段,如知识蒸馏、量化、剪枝等,减少模型的参数量和计算量,使其能够在资源有限的设备上高效运行。
低秩分解(Low-Rank Factorization):通过近似高维矩阵为两个或多个低维矩阵的乘积来减少模型参数量的技术,这种方法可以有效降低计算成本和存储需求。
权重共享(Weight Sharing):在某些神经网络架构中,通过在不同位置使用相同的权重来减少参数数量。典型例子包括卷积神经网络中的滤波器重用,以及循环神经网络中的权重共享机制。
推理与应用
推理(Inference):模型在训练完成后,利用学到的知识根据输入数据预测输出结果,用于解决实际问题或做出决策。
模型融合(Model Ensembling):将多个模型的预测结果组合起来以提高总体性能,通过结合不同模型的优势来提升预测准确性。
深度强化学习(Deep Reinforcement Learning):结合深度学习和强化学习的方法,使代理能够在复杂环境中通过试错学习最优策略,广泛应用于游戏、机器人控制等领域。
多模态学习(Multimodal Learning):训练能够处理多种输入形式(如文本、图像、语音等)的模型,使得模型能够理解和处理来自不同信息源的数据。
迁移学习(Transfer Learning):一种技术,通过将在一个领域或任务上学到的知识应用到另一个领域或任务上,以改进学习效率和效果。这种方法特别适用于目标领域数据稀缺的情况,通过利用源领域的丰富知识来加速学习过程并提高模型性能提示词(Prompt):在生成式模型中,用于引导模型生成特定内容的输入文本。精心设计的提示词可以显著影响模型输出的质量,适用于文本生成、问答系统等多种任务。
上下文窗口(Context Window):模型在处理输入数据时能够“看到”的上下文范围,对于捕捉序列数据中的依赖关系至关重要。
在线学习(Online Learning):模型能够实时更新其参数以适应不断变化的数据环境,特别适用于数据流持续到达的应用场景,如推荐系统和金融市场分析。
计算与性能优化
混合精度训练(Mixed-Precision Training):通过结合使用16位和32位浮点数来加速深度学习模型的训练过程,同时减少内存占用。这不仅提高了计算效率,还允许在相同的硬件上训练更大规模的模型。
自适应计算(Adaptive Computation):根据任务需求动态调整计算资源的分配,以优化性能或能效比。例如,在神经网络中,某些层可能需要更高的计算能力,而其他层则不需要。
批处理(Batching):一次性处理多个样本以提高计算效率的技术,通过充分利用现代硬件(如GPU)的并行处理能力,显著加快训练速度。
并行计算(Parallel Computing):将计算任务拆分成多个子任务并在多个处理器或核心上同时执行,以加快处理速度,对于缩短大型模型的训练时间和提升推理效率至关重要。
硬件加速(Hardware Acceleration):利用专门设计用于加速特定类型计算任务的硬件(如GPU、TPU)来加速模型的训练和推理过程,提供比通用CPU更高的计算能力和效率。
分布式训练(Distributed Training):通过在网络中的多台机器之间分配训练任务来加速训练过程,特别适用于处理极其庞大的数据集和模型参数。
内存优化(Memory Optimization):采用各种技术减少训练过程中所需的内存消耗,使得可以在有限的硬件资源上训练更大的模型,如梯度累积和检查点机制等。
数据与标签
数据清洗(Data Cleaning):处理数据集中的错误、不完整、重复或无关的数据的过程,以提高数据质量和模型性能。
特征工程(Feature Engineering):从原始数据中提取有用的特征,以便更好地训练机器学习模型。这包括特征选择、特征创建和转换等过程。
数据标注(Data Annotation):为训练监督学习模型而对数据进行标记的过程,涉及将类别标签或其他注释附加到数据点上。
数据增强(Data Augmentation):通过生成新的训练样本来增加训练数据的多样性,如图像旋转、缩放等,以提高模型的泛化能力和鲁棒性。
合成数据(Synthetic Data):通过算法生成的人工数据,用于补充或替代真实世界的数据。合成数据可以在数据稀缺、敏感或难以收集的情况下提供帮助,尤其是在需要保护隐私的环境中。它广泛应用于自动驾驶汽车、医疗影像分析等领域,通过模拟不同的场景来扩展训练数据集。
硬标签(Hard Labels):指的是明确的分类标签,通常是单热编码(one-hot encoding)形式,表示样本属于某一特定类别。
软标签(Soft Labels):不同于硬标签的确定性分类,软标签提供了教师模型预测的概率分布,反映了每个类别的可能性。这种方法可以传递更多的信息,例如在知识蒸馏中,使用软标签可以帮助学生模型更好地学习教师模型的知识。
模型评估与调试
对抗样本(Adversarial Examples):通过向输入数据添加细微且难以察觉的扰动来诱使机器学习模型产生错误输出的数据点。这些样本常用于测试模型的安全性和鲁棒性。
可解释性(Explainability):指的是模型决策过程的透明度和可理解性,即能够清楚地解释模型为什么做出特定预测的能力。这对于确保模型的公平性、避免偏见以及增强用户信任至关重要。
局部搜索(Local Search):一种优化算法,通过在解空间中寻找局部最优解,并试图从局部最优解出发找到全局最优解。尽管不是直接与模型评估相关,但在某些情况下可用于优化模型参数。
模型的可扩展性(Scalability):指模型处理大规模数据和复杂任务时的扩展能力,包括计算资源的有效利用和分布式训练策略的应用等。
模型的鲁棒性(Robustness):模型在面对噪声、对抗攻击或数据分布偏移时保持稳定性和准确性的能力。一个鲁棒性强的模型能够在各种条件下保持良好的性能。
模型的泛化能力(Generalization):模型在未见过的新数据上表现良好的能力,是衡量模型是否过拟合的重要指标。良好的泛化能力意味着模型不仅能在训练数据上表现良好,在新数据上也能有出色的表现。
交叉验证(Cross-validation):一种统计方法,通过将数据集划分为几个子集并循环使用这些子集进行训练和测试来评估模型性能。这种方法有助于更准确地估计模型的泛化能力,并减少因数据划分不同而导致的结果波动。
混淆矩阵(Confusion Matrix):用于描述分类模型性能的一种表格,显示了每个类别的实际值与预测值之间的对比情况,提供了关于分类器误差类型的详细信息。
精确率、召回率和F1分数(Precision, Recall, F1 Score):精确率是指预测为正类的样本中有多少是真正正确的;召回率是指所有实际为正类的样本中有多少被正确识别出来;F1分数则是精确率和召回率的调和平均数,提供了一个单一的指标来评价模型性能。
AUC-ROC曲线(Area Under the Curve - Receiver Operating Characteristic Curve):用于评估二分类模型性能的一个图形工具,展示了模型区分正负类的能力。AUC值越接近于1,表示模型的分类效果越好。
模型校准(Model Calibration):确保模型预测的概率反映了真实发生的概率的过程。良好的校准对于需要概率估计的任务非常重要。
偏差-方差权衡(Bias-Variance Tradeoff):描述了模型复杂度与误差之间的关系。高偏差通常意味着模型过于简单而欠拟合,高方差则意味着模型过于复杂而过拟合。
特征与数据处理特征提取(Feature Extraction):从原始数据中提取关键特征以用于训练的过程。例如,在图像处理中,可能涉及到边缘检测、颜色直方图等;在文本分析中,则可能包括词袋模型、TF-IDF值等。有效的特征提取能够显著提高模型性能。
特征选择(Feature Selection):从所有可用特征中挑选出对模型最有帮助的一组特征,目的是减少维度并避免过拟合,同时提升模型性能。
特征构建(Feature Construction):创建新的特征或修改现有特征以更好地捕捉数据中的模式。这可以通过数学变换、组合现有特征等方式实现。
数据标准化/归一化(Data Standardization / Normalization):将不同尺度的数据转换到相同的尺度上,以便于某些机器学习算法的处理。标准化通常是基于均值和标准差进行的,而归一化则是将数值缩放到一个特定范围(如0到1之间)。
伦理与公平性
模型的伦理和偏见(Ethics and Bias):指模型在训练和应用过程中可能存在的伦理问题和偏见。这些问题包括但不限于性别、种族、年龄等方面的歧视性偏差,以及隐私保护、数据使用合法性等伦理考量。解决这些问题对于构建公平、透明和负责任的人工智能系统至关重要。
透明度(Transparency):指模型决策过程对用户的公开程度,以及用户理解模型工作原理的能力。高透明度有助于建立信任,并允许用户了解模型是如何做出决策的,这对于识别和纠正潜在的偏见和不公平现象非常重要。
公平性(Fairness):指机器学习模型在不同群体之间的表现是否公正。评估模型的公平性通常涉及检查是否存在对某些群体不利的偏见,并采取措施减轻这种偏见,以确保所有用户都能得到公平对待。
问责制(Accountability):指确定谁对AI系统的决策负责的过程。这涉及到法律、伦理和技术层面的问题,确保当模型出现错误或造成伤害时,有明确的责任人或机制来处理。
其他
长程依赖(Long-range Dependencies):模型在处理序列数据时,能够捕捉到数据中远距离元素之间的关系。这对于理解文本、音频或其他序列数据中的上下文信息至关重要。
能力密度(Capability Density):由清华大学研究团队提出,用于评估不同规模大语言模型的训练质量。能力密度定义为目标模型的有效参数大小与实际参数大小的比率,旨在衡量模型的实际效能与其理论最大效能之间的差距。
隐私保护(Privacy Protection):指在数据收集、存储和使用过程中保护个人隐私的技术和策略。包括差分隐私、同态加密等方法,确保个人信息不被滥用。
数据多样性(Data Diversity):指训练数据集包含来自不同背景、文化和特征的数据的程度。提高数据多样性可以帮助减少模型偏见,促进更公平的结果。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com