文献检索-宁波市创意产业特色资源库

限定检索结果

检索条件"主题词=A2C"

共 2 条记录，以下是1-10 订阅

全选清除本页清除全部题录导出标记到"检索档案"

视图：

排序：

结合a2c和手牌估值方法的麻将博弈研究: 收藏
分享
引用; 《重庆理工大学学报（自然科学）》2024年第5期38卷 154-161页; 作者：衣御寒王亚杰吴燕燕刘松张兴慧蒋传禹沈阳航空航天大学工程训练中心沈阳110136; 针对大众麻将中对手牌信息利用不充分的问题,提出了手牌估值方法,并设计了基础麻将程序(MJE)。为进一步提升麻将AI的博弈能力,使用深度强化学习方法设计了麻将AI(MJE-RL)。首先,通过MJE自对弈生成深度学习的训练数据。其次,根据训练集...; 针对大众麻将中对手牌信息利用不充分的问题,提出了手牌估值方法,并设计了基础麻将程序(MJE)。为进一步提升麻将AI的博弈能力,使用深度强化学习方法设计了麻将AI(MJE-RL)。首先,通过MJE自对弈生成深度学习的训练数据。其次,根据训练集、测试集和对比实验的结果,选择效果最好的模型作为强化学习的预训练模型。最后,使用优势演说-评论家模型作为强化学习的主要框架,将训练好的深度学习模型作为演说家部分进行决策,通过MJE-RL与MJE的对弈不断提升麻将AI的博弈能力。实验结果显示,MJE-RL的胜率比MJE高4.08%,点炮率比MJE低3.02%,表明MJE-RL在攻守两端都有提升,达到了提升麻将AI牌力的目的。; 来源：详细信息评论

基于注意力时空卷积和a2c的虚拟机主动容错优先迁移决策: 收藏
分享
引用; 《计算机应用研究》2023年第12期40卷 3606-3613页; 作者：党伟超武婷玉太原科技大学计算机科学与技术学院太原030024; 针对边缘云环境的自动化和分布式特性、高度不可靠性及易变的工作负载问题,提出基于注意力时空卷积和a2c的虚拟机主动容错优先迁移决策模型AST-a2c。首先,采用带有注意力机制的长短期记忆网络(LSTM)提取各主机的时序特征,根据时序特征...; 针对边缘云环境的自动化和分布式特性、高度不可靠性及易变的工作负载问题,提出基于注意力时空卷积和a2c的虚拟机主动容错优先迁移决策模型AST-a2c。首先,采用带有注意力机制的长短期记忆网络(LSTM)提取各主机的时序特征,根据时序特征和多主机间的交互信息构建图网络,再利用图注意力网络(GAT)提取网络中不同主机间的关联信息,将其用于主机的故障信息编码。其次,设计可动态建立模型并不断生成改进决策的a2c模块,联合故障编码信息和调度决策信息进行优先迁移决策。最后,构建满足不同用户QoS要求和应用程序设置的自适应损失函数来优化调度决策。实验结果表明,该模型在故障检测、能源消耗、时延敏感性等方面优于最先进的基线,是提高边缘云计算可靠性的理想选择。; 来源：详细信息评论

全选清除本页清除全部题录导出标记到“检索档案”

共1页<< <1> >>

聚类工具回到顶部