从自然语言处理到大模型
用最先进的技术助力客户日新月异
购买咨询

基础研究储备

多闻团队从2014年开始使用NLP算法提升舆情软件性能指标,长期致力于人工智能技术在多模态信息处理和开源情报分析领域的实际应用,并于2018年起使用深度学习算法研发智能文稿管理软件,使用知识图谱技术进行金融行业股权投资关系全链路穿透计算,在AI落地应用方面积累了丰富的实战经验。

从2020年起,多闻团队开始使用基于Transformer架构前馈神经网络进行中文大模型的无监督预训练和有监督微调研究,自主研发了多闻大模型用于提升舆情和情报软件系统功能,是国内开源情报领域大模型应用的领先者之一。

词向量 Word Embedding

将语言中的词汇映射为数学上的向量。词向量的概念源于神经网络语言模型(NNLM),应用非常广泛,可以作为各种NLP任务的底层输入表示,如文本分类、信息检索、语言生成和机器翻译等。同时,词向量也是许多基于深度学习的NLP模型的基础组件。

LSA算法

潜在语义分析(Latent Semantic Analysis,LSA)是一种基于矩阵分解的摘要提取算法,使用奇异值分解将文本矩阵分解为两个低维矩阵,即文本的向量表示,并利用这两个矩阵计算每个句子的主题分布,主要用于文本挖掘和信息检索。

Word2Vec算法

Word2Vec基于预测模型,通过将单词嵌入一个低维空间中,使单词在语义上的相似性可以通过向量之间的距离表示,主要有Skip-gram和CBOW(Continuous Bag of Words)两种模型。主要用于处理大规模数据,同时生成的词向量可以用于文本分类、情感分析、信息检索等各种自然语言处理任务。

SVM算法

支持向量机(Support Vector Machine,SVM)是一种常用的监督学习算法,可以根据训练数据来学习摘要提取的模型,然后用模型来对新的文本进行摘要提取,SVM算法常用的特征包括词频、位置和文本长度等。

Transformer模型

Transformer是一种基于注意力机制的神经网络模型,它的编码器和解码器都由多个自注意力层与前馈神经网络构成,Transformer模型主要用在文本摘要领域。在分词任务中,基于Transformer的模型可以使用文本中的每个字作为输入,通过自注意力机制和多头注意力机制对文本进行编码,最后通过全连接层输出分词结果。

RL模型

强化学习(Reinforcement Learning,RL)模型通过模拟人类的行为方式,基于奖励机制训练模型,例如用于生成式文本摘要,RL模型可以通过学习生成的摘要与参考值啊要的差异来优化模型。

表示学习

表示学习(Representation Learning)将知识图谱中的实体、关系等抽象为向量表示,以便于机器学习和推理任务,利用知识表示学习模型,可以预测两个实体的关系。多闻团队主要将知识表示学习用于关系抽取、自动问答、实体链指等任务。

GANs

生成对抗网络(GANs,Generative Adversarial Networks)由两个主要部分生成器(Generator)和判别器(Discriminator)组成,生成器负责生成尽可能接近真实的数据,而判别器的任务是区分真实数据和生成器产生的假数据。生成器和判别器在训练过程中相互竞争,生成器不断学习如何产生更真实的数据,而判别器则学习如何更好地识别假数据。主要用于生成高质量、现实的图像,可以改变图像的风格,提高图像分辨率。

关键技术应用

多闻大模型(DuoWen-LLM)通过精细化筛选方法提炼高质量数据子集,使用共享注意力机制,整合预先训练映射层,实现交叉多模态的上下文提示,并且采用多模态(图像、视频和音频)指令集进行微调,使得模型整体性能优异,连续对话轮次识别率精确率较高。

模型架构优化

通过对神经网络的结构进行调整,例如增加或减少层数、改变神经元的连接方式等,以提高模型的学习能力和处理效率;通过对模型参数的调整,例如学习率、动量等,以提高模型的收敛速度和性能。

Fine-Tuning

Fine-tuning微调,利用预训练模型作为起点,获取模型的参数,然后根据具体任务和数据对模型进行微调,包括修改模型的最后一层或最后一层前的若干层的参数,以适应新的任务和数据。使用新的数据集对微调后的模型进行训练,使其在新任务上达到更好的性能。在实际研发中,用于优化特定领域舆情小样本数据集时效果更佳。

多语言和跨语言能力调优

多语言和跨语言能力优化旨在提高模型在处理多种语言时的性能和准确性,对于国际情报处理、多语言社区的信息获取具有重要意义,主要工作包括多语言数据预训练、确保训练数据在不同语言和方言间的平衡和多样性、避免对某些语言过度优化、特定语言的微调、跨语言迁移学习、零次学习和小样本学习,并探索结合文本、声音、图像等多种模态的数据,增强模型对跨语言内容的理解能力。

Knowledge Distillation

知识蒸馏(Knowledge Distillation)是将一个大模型(称为“教师模型”)的知识转移到一个更小、更高效的模型(称为“学生模型”)中。首先训练教师模型,然后转移知识到学生模型,并进行优化。主要用在模型压缩和加速推理过程,使得复杂模型的知识可以在更加高效和节省资源的模型中得到应用。

模型压缩

模型压缩用于优化深度学习模型以提高其效率和可部署性,在计算资源受限的环境中(如移动设备或边缘计算),模型压缩使得在资源受限的设备上运行复杂的深度学习模型成为可能,同时降低了能源消耗和提高了处理速度。减小模型的大小(即减少参数的数量),降低其对存储和计算资源的需求,同时尽量保持或仅轻微降低模型的性能,主要工作包括权重剪枝(移除模型中某些不、要的权重或参数)、减少模型参数表示精度、参数共享、低秩分解等。

NLU和NLG

自然语言理解(NLU)技术用于提高模型理解复杂文本和上下文含义的能力,包括情感分析、意图识别、语义理解等;自然语言生成(NLG)技术用于提高模型在生成自然、流畅、相关文本方面的能力,包括人机对话、内容创作、自动摘要等。

Multimodal Learning

多模态学习(Multimodal Learning)用于处理和整合来自多种不同数据源(如文本、图像、声音)的信息,技术核心在于理解和利用不同模态之间的关系,以更全面地理解数据和提高模型的性能。通过早期融合(Early Fusion)在特征提取阶段就将不同模态的数据组合在一起,然后对每个模态单独进行处理和学习,并在模型的中间层面进行融合,在决策层面将这些信息结合起来。主要用于舆情系统中结合文本、表情符号和声音语调来更准确地理解信息内容表达的情感状态。多模态学习通过整合多种类型的数据,提供了比单一模态更丰富、更全面的信息视角,有助于提高模型的性能和应用的灵活性。随着技术的发展,多模态学习在人工智能领域变得越来越重要。

RAG

Retrieval-Augmented Generation (RAG) 结合了检索和生成技术,使模型能够先从大量数据中检索相关信息,然后基于检索到的信息生成回应。RAG主要应用在基于大模型的各个智能系统产品中的问答、对话生成功能中。

Intelligence Processing Copilot

情报处理(Intelligence Processing)需要从大量数据中提取、分析并生成有价值信息的领域,Copilot副驾驶指利用AI技术来辅助情报分析和决策支持。关键要素包括从多种信源(如社交媒体、新闻报道、数据库)收集相关数据,从数据中提取关键信息,如实体识别、事件检测等,利用统计和机器学习方法分析数据,识别趋势,根据历史数据和当前分析预测未来趋势,提供预警信息。AI辅助情报处理可以大幅度提高分析速度和效率,利用NLP技术处理和分析文本数据,提取有用信息揭示复杂数据集中隐藏的模式和关联,提供基于数据的洞察,辅助决策制定过程,在性能和效率方面可远超人类分析师能力可以达到的水平。

重点探索领域

多闻团队与时俱进,持续引入优秀人才,并且与人工智能领域,特别是NLP和深度学习、大语言模型方面的科研机构、高校和企业保持良好的交流与合作关系。紧随世界先进水平,积极探索人工智能应用前沿课题,以期为客户提供更强大的AI工具,为生产力水平不断提升贡献价值。

消除机器幻觉(Machine Hallucination)

模型生成的输出包含与输入数据无关或与现实世界不符的元素导致机器幻觉(Machine Hallucination)产生,表现为生成不真实或不合逻辑的内容,直接影响决策制定或与终端用户交互。多闻团队不断优化模型架构,使用更多样化和全面的数据集进行训练,以提高模型的泛化能力,同时对模型的输出结果进行后处理,识别和过滤掉错误内容,以优化过度拟合下生成不切实际输出内容的问题。

Multi-Agents

多智能体系统(Multi-agent Systems in AI)是指一组智能体(如机器人、算法)在没有集中控制的情况下共同工作和交互的系统。在大模型领域,研究聚焦于如何使这些智能体协同工作,并组建人机协作集群,以高效解决复杂问题。

Explainable AI (XAI)

可解释人工智能(Explainable AI,简称 XAI)是指能够提供其运作方式和决策过程清晰解释的人工智能系统。随着AI技术的广泛应用,特别是在关键领域如医疗、金融和法律,对AI系统的决策过程进行理解和解释变得越来越重要。研究方向包括设计本质上更透明的模型,如决策树或简化的神经网络,其决策过程更易于追踪和解释;对已经训练好的复杂模型(如深度神经网络)应用解释技术,如特征贡献分析或激活映射;通过交互式界面使用户能够查询和探索AI决策的原因。

Federated Learning

联邦学习(Federated Learning)是一种分布式机器学习方法,允许多个设备或服务器协作训练一个共享的模型,同时保持各自数据的隐私和安全性,特别适合于敏感数据的场景,如个人隐私信息或银行交易数据。联邦学习允许数据保留在原始设备上,所有参与的设备共享相同的模型结构,但每个设备上的模型独立训练,中心服务器定期收集各个设备训练好的模型参数,进行聚合更新,然后再将更新后的模型发送回各个设备。由于不需要共享原始数据,联邦学习在保护用户隐私方面具有显著优势,并且由于传输模型参数而不是大量数据,可以减少网络通信所需的带宽和成本。

Bias and Fairness in AI

在AI中处理偏见和公平性问题涉及研究如何识别和消除数据和算法中的偏见,例如消除模型在性别、种族、文化等方面的偏见,确保模型的使用符合伦理标准,以实现更公正和道德的AI应用。