EN
www.china-haitai.com

免费的黄金网站有哪些破解三大数据库AI难题!北大&亚马逊推出全球首个图中心RDB基模

Griffin将RDB视为动态异质图进行建模与推理,通过在超过1.5亿行的表格数据上进行预训练和监督微调,构建了一个具备可迁移性与强泛化能力的基础模型,相关成果已被国际顶级会议ICML 2025正式接收。 关系数据库通过明确的模式(Schema)定义数据结构,广泛服务于金融、电商、科研、物流、政府信息系统等关键领域,是现代信息社会的核心数字基础设施。 拓扑结构高度复杂数据以多表形式存储,并通过主键外键等约束关系构成复杂的图结构,传统单表范式难以捕捉全局上下文。特征高度异构表内字段涵盖文本、数值、类别、时间序列等多种类型,信息表现形态各异,模型需具备统一表征能力。深层次语义关系表内外存在丰富的显性与隐性逻辑关系,对模型的关系理解和推理能力构成巨大挑战。 上图展示了一个典型的RDB,绿色的Purchase Table记录了交易数据(每一行包括用户ID、购买的商品ID、用户对商品的评分、以及购买日期)。而每一行又可通过User ID这一外键链接到User Table里的对应行,或通过Item ID这一外键链接到Product Table里的对应行,来获取用户或商品的特定信息。 相比普通表格(单表)数据,RDB往往具有非常复杂的表间关系以及丰富的表内语义信息,对建模和基础模型训练提出了挑战。同时,社区长期缺乏能真实反映生产场景的标准化基准。 Griffin的核心思想是将关系型数据库整体抽象为时序异质图,再在此图上进行统一的编码、消息传递和解码,以此捕捉跨表、跨时间的深层依赖。具体来说,它的创新设计可以拆解为以下几点: 首先,Griffin把每张数据表中的一行记录映射为图中的一个节点,而主键-外键(PK-FK)约束被建模为带类型的有向边。这样,原本分散在多张表中的记录就组成了一张异质图,其节点/边类型天然反映了模式信息。 为了避免未来信息泄漏并符合生产预测任务的因果约束,模型在训练和推理时会围绕目标节点采样“局部时序子图”:仅纳入时间戳早于目标节点的邻域。 RDB中既包含文本/类别字段,也有数值、时间序列等多模态特征。Griffin设计了一套统一编码机制,把不同类型转换为同一语义空间中的向量: 类别&文本:先将类别值映射为其自然语言描述,再同原生文本一起输入经过预训练的文本编码器(如Nomic Embeddings),得到语义丰富的高维嵌入。数值:归一化后的数值输入给预训练的浮点编码器(ENC)。ENC与其配对的解码器DEC通过联合重构任务训练:编码后必须能够无损地解码回原始浮点值,重构误差被最小化后这两个组件参数即被冻结。元数据&任务上下文:表名、列名以及边类型被同样送入文本编码器;同时,根据当前预测目标列名生成的任务描述会在后续所有层次参与注意力计算,指导模型聚焦目标。 交叉注意力(Cross-Attention)列内聚合:对每个节点,模型利用当前节点嵌入和任务嵌入生成查询向量,与列元数据和列特征进行交互,动态评估不同列对当前任务的重要性并加权聚合。该设计天然满足列置换不变性,且可处理列数可变的表。 层级聚合(Hierarchical Aggregation)跨表推理:在消息传递的每一层,先对同一边类型的邻居消息做均值聚合,再在不同边类型间做最大池化。这种两阶段层级策略提升了模型在处理具有复杂拓扑结构和多变邻居数量的表间关联时的稳定性。 分类任务:把候选类别标签本身的文本嵌入当作可学习的动态分类头,与节点向量做内积得到概率分布,能够拓展到可变类比数量的任务。 Griffin首先在海量且多样化的单表数据集上进行自监督学习,任务形式类似“完形填空”。模型根据一行数据中已知列信息来预测被遮蔽单元的嵌入表示,并最小化预测嵌入与真实嵌入间的余弦距离,从而建立对表格结构与语义的基础理解。 在完成自监督预训练后,Griffin使用单表任务或RDB任务的数据集进行监督微调,使模型进一步贴合真实场景中的预测需求与数据特性。 为全面评估各训练阶段对模型性能的具体贡献,对Griffin的三个关键变体进行深入分析:Griffin-unpretrained(仅采用Griffin的基础架构,未经任何预训练)、Griffin-pretrained(仅进行单表预训练及单表SFT)以及Griffin-RDB-SFT(经历完整的三阶段训练流程)。 通过系统实验验证了Griffin在架构设计和预训练策略上的有效性,发现Griffin在多个RDB基准测试(如4DBInfer和RelBench)中表现优异,并进一步分析了其在少样本场景下的跨任务迁移能力与数据领域间关系的影响。 即便完全未预训练(Griffin-unpretrained),凭借统一编码、交叉注意力和层级化MPNN等设计,模型在各下游RDB任务微调后的表现仍优于GNN基线方法及结合深度特征合成(DFS)的传统单表模型,体现了架构本身的先进性。 仅在大规模、多样化单表数据上完成预训练的Griffin-pretrained,相较未预训练版本取得性能提升,验证单表场景中学习到的知识可迁移至复杂的RDB任务,增强模型泛化能力。 当进一步在针对性RDB数据上进行监督微调(Griffin-RDB-SFT)后,模型在一定情况下展现出跨任务迁移能力,尤其在小样本场景下更为突出,取决于以下2个因素: 数据相似性:SFT数据与目标任务领域具有较高相似性(例如,同为电商领域的跨任务迁移),模型性能将获得提升;数据多样性:在更多样化的SFT数据上训练(例如,使用包含体育、社交、医疗等多个其他领域的混合数据进行SFT,再迁移至电商领域任务),同样能有效提升模型性能。

免费的黄金网站有哪些
免费的黄金网站有哪些只有先在这波涛中学会了游泳,站稳了脚跟,才有资格去谈论岸上那美丽的风景。林倩的经历,不仅仅是她个人的遭遇,更是这个时代无数人面临的共同困境的一个缩影。它提醒着我们,要时刻保持敏锐本场比赛在中国球市最好的城市之一西安举行,一共有超过2万人来到球场给U22国足加油。上半场,U22国足的进攻很吃力。一直到第42分钟,拜合拉木才为中国队打破僵局。免费的黄金网站有哪些9.1短视直接观看从社会层面来看,这种不合理的聘任方案可能会对教师队伍的稳定性和积极性产生负面影响。教师们为了保住自己的岗位,可能会过度追求课时数量,而忽视了教学质量的提升。我没有给莫拉塔解释,他知道自己的角色。他是球队的一员,根据比赛计划和我们的打法,他会获得更多出场时间,因为他对我们非常重要。虽然他的角色有所不同,但他仍然是我们的队,他应该得到国家赋予的所有荣誉。
20250915 💣 免费的黄金网站有哪些菲尔克鲁格因左小腿肌肉问题将缺席比赛,德国队主帅纳格尔斯曼在对阵斯洛伐克的赛前,接受德国一台采访时确认,拜尔将会顶替受伤的菲尔克鲁格被补召入队。《黄金网站9.1网站直接进入》北京汽车旗下共有四大业务板块,包括北京汽车、北京奔驰、北京现代、福建奔驰。公司于2014年12月19日在香港证券交易所正式挂牌上市。
免费的黄金网站有哪些
📸 宋贯华记者 罗敬忠 摄
20250915 💔 免费的黄金网站有哪些更重要的是,OpenAI Jobs Platform不仅可以作为大公司吸引人才的渠道,它还将设立专门板块,帮助本地企业提升竞争力,并协助地方政府寻找所需的AI人才,更好地服务民众。《女性私密紧致情趣玩具》不常有。我很少发火,因为我总是把精力放在积极的方面——赢得比赛、帮助队友。我专注于前进,相信总会有新的机会,所以不愿浪费时间在愤怒上。
免费的黄金网站有哪些
📸 张天位记者 曹治明 摄
💢 值得一提的是,5场比赛,波尔津吉斯出手55次,其中25次为两分球,他命中了其中的20球,命中率高达80%,而在第2到第5场比赛这四场比赛,他更是18投17中,只投丢1个。而他的三分球一共是30投6中,前三场比赛一个三分球都没有投进。女性私密紧致情趣玩具
扫一扫在手机打开当前页