News

Guangdong BAIDU Special Cement Building Materials Co.,Ltd
— 新闻中心 —

华为pangu模型的“三个大门”

Reporter Zhou Yue on July 4, Honestagi, a user of open community GitHub resource, released a research report that says by a "fingerprint model" technology (review of the standard deviation of transformer layer attention parameters), found that the similarity between Huawei Pangu Pro 72B and Alibaba Tongyweni qianweni qianweni qianweni QWEN -2.5 14B Model is as high as an0 (从统计学上讲,它完全与1平行),这比行业中通常的0.7阈值更多。 May -set报告说,可以根据Qianwen模型对Pangu模型进行培训,而不是从一开始就训练。该物体涉及华为和阿里巴巴,该报告引起了人们的关注。支持者认为,这两个模型在许多注意力参数中几乎显示出恒定的分布,而自然PA的可能性较低(不是人工干预)。 Askrs指出,此方法太简化了。来自Github和Zhihu等社区的许多用户都相信可能是选择樱桃的空间(选择性数据选择),并且仅显示少量的模型比较,并且没有大型基准测试。 7月6日,一封匿名信告诉他,他来自“ Pangu集团的大型模型,华为Noah的Ark Laboratory的员工”在Github平台上发布,由HW-Whistleblower(Huawei Whistleblower)撰写。这封信的信中指出了制作许多pangu模型的研究过程,开发和部门的细节。从那时起,人们一直在社交媒体上庆祝有关Pangu和Alibaba Qianwen模型之间的相似之处以及Huawei Noah的实验室组织结构的MGA结构。总而言之,在华为pangu的大型模型中,该行业的重点主要是以下三点:首先,该行业讨论了第一次查询的身份和技术方法,因为它缺乏认可和经验的权威链;其次,阿里巴巴Qwen的版权徽标出现在模型代码中,该徽标符合行业中大型模型的“独立”和“自发开发”陈述,激励讨论;第三,未知字母直接指向Pangu背后不断变化的团队组织。 Yizhongmen:第一个给定的身份,学术和技术声誉,许多大型研发员工模式在经济观察者中表示,他们以前没有听过忠诚和研究结果,而不是Ney使用或研究了类似的研究方法,因此很难确认“ Fingerprint模型”技术的科学属性。当前,“指纹模型”发现并不是一种基本方法,很难成为识别窃模型的客观标准之一。还怀疑诚实的团队及其团队的真实性。哥斯达黎加大学有韩国人。身份五个尺寸的签名无法验证,并且没有一个根据AI行业的技能提供电子邮件或学术简历。因此,外部用户不可能在Google Scholar和Arxiv等主要学术平台上查看其历史出版物。扩展全文 经济观察者搜索了报告中提到的文件的范围,发现某些文件无法在公共数据库中进行审查。至于新闻稿,该报告在Github中删除了,找不到诚实的主页。 此外,发布了原始的GitHub页面报告,恒星和收集等数据的数量很低;相比之下,其他协议社区(例如Openllama评估)对模型的其他安全工具/评估通常会在发表的几个小时内采取联系方式。相比之下,Openllama评估目前拥有7500多个赞和400多个收藏。 反对当前的孔特XT加强了大型模型和经常开放合作的竞争,版权所有权和模型开发过程的独创性问题始终受到行业的赞赏,对接并不容易真正“窃”模型。 2024年,斯坦福大学学生队与基于中国Tsinghua的初创公司之间发生了广泛报道的“模型窃”事件。据说由斯坦福大学学生推出的Llama3-V模型与开放资源模型minicpm-llama3-v 2.5非常相似,该模型在建筑和模型代码方面是面向墙壁的智能,并更改了一些可变名称。 Tsinghua University的博士后同胞冯康(Feng Cong)曾经参加了面向墙壁的数据的标签,他告诉《经济观察家》,斯坦福大学学生队当时发布了该模型,声称其性能最高,超级低成本。工程师发现面对算法的墙壁L与面向墙壁的Modelo非常相似,但是这种怀疑很难证明。在算法代码领域,结构相似性非常普遍,很难仅基于直觉建立证据链接。 冯·康(Feng Cong)发现了一个主要证据。模型中使用了上述斯坦福大学团队标记的Tsinghua Sword(交战的竹剑)数据,并且该数据集仅在墙面面临的情报中内容。最终,斯坦福大学的学生团队开发人员向社交平台道歉,承认他们已经提及甚至复制了面向面对面的墙的明智的开放资源模型的结果,并迅速删除了相关的模型和文档。 第二扇门:Ali的版权徽标出现在Pangu型号代码中 除了参数级别的讨论外,Ituser Hexti还指出,在公开Pangu模型的源代码。该注释出现在模型部分上,被认为与开放的阿里巴巴资源模型相关联,该模型已将外界的进一步关注到模型构建路径和代码参考的参考。 参与庞大的研究模式的郭成告诉经济观察者,在诸如Huggingface之类的开放社区中,第二次培训发布的模型数量以及基于开放式派对模型的场景调整数百万,它通常会解释全世界。当发布这种类型的第二次模型时,通常将其明确标记为“垂直模型”,并且该基本模型基于诸如Meta的Llama模型,阿里巴巴的Qwen等。 从一开始就训练的开放资源的原始模型通常更难开发和消费更多的资源,因此它们的数量很小。他们还记得并尊重社区的开放资源,并有一个更好地影响品牌的技术和声誉。例如,Meta和Alibabaqwen和DeepSeek系列模型的Llama模型。 从郭成的角度来看,该行业目前尚无统一的语义含义,例如“自我研究”和“独立变化”。但是,如果根据第二次预训练或微调获得模型,并且外部描述使用诸如“截止日期培训”和“自我发展”之类的表达式,则通常在行业中是不可接受的。关于“如果pangu模型是壮大的现有模型的参数或体系结构”的问题,他说尚未对其进行研究,也不希望检查。 7月5日,华为诺亚方舟实验室发布了一份声明:“ Pangu Pro Moe的开源模型是由Ascend Hardware Platform开发和培训的主要大型模型,而不是基于增加其他制造商模型的培训。排除的一些基本组成部分的资源来源的来源来源的资源和开源来源的来源来源。 像新闻稿一样,阿里巴巴尚未公开回应此事。 三扇门:诺亚的实验室工作人员改变 随着Karin在模型本身的争议中增加了争议,这一事件在公众的大型公共模式背后也会改变组织的结构。 7月6日,华为Noah的Ark Laboratory的员工“ Pangu的大型模特团队”的一封匿名信表示了他对选择训练道路的看法,以换取模型建筑,词汇标准以及对大型Pangu模型的团队成员的更改。 至于新闻发布时间,身份不明的信件收到了8,500个赞和1100个Github收藏的库。 这封信说,一些早期型号是由“基本语言大型模型”团队培训的,最终是版本的放电和更改的开源,另一个团队进行了干预并与代码,数据,命名的名称等相交。 “水印”是指可疑去除用于识别模型原始性的数字标记。身份不明的信件没有提供技术细节,例如照片,电子邮件,代码等来支持它。这表示为“在内部审查后,他们实际上使用QWEN 1.5 110B继续培训。” 7月8日,另一封身份不明的信引起了与Github的讨论,题为“盗贼的反总队”。已发表的帐户是Knemik97。文本没有描述您的身份,也没有提供照片,内部电子邮件,代码记录等的证明。 未知的信件均已报告并被排除在公开验证的证据(例如内部电子邮件,代码记录等)。基本指控是缺乏第三方证据,华为没有回应或确认。 经济观察家要求将自己描述为“ Pangu Big Model团队”的雇员进行验证,但没有收到新闻稿的回应。 公共信息表明,华为诺亚的方舟实验室于2025年3月进行了工作人员安排,王云恩(Wang Yunhe)由实验室拥有。 Wang Yunhe是90年代后的一代。他研究了数学并将数学应用于中国西安电子科学技术大学。他于2018年毕业于北京大学的医生头衔。他曾经对公众说:“对个人试验的研究主要方向是相反的,侧面的AI模型等。“终端AI模型通常也称为行业中的小型模型。 此外,他是华为第四个“十大发明”之一的主要发明者重新提高计算强度。 “ 过去,Yao Jun负责实验室。 Yao Jun曾在Tsinghua大学学习,并毕业于日本的京都大学。从2009年到2014年,他担任日本奈良初级科学技术学院的潜在教授,该学院从事研究算法的AI异源系统,例如深入研究。 (应访调员的要求,郭郑和冯·康(Guo Cong)是假名)回到Sohu,以查看更多
Tel
Mail
Map
Share
Contact