蒙特利尔大学llm怎么样

HuggingFace 上的顶级 LLM 模型表现优于 GPT 变体

您好,欢迎来到我的博客!今天我将与您分享一些您可以在 Hugging Face 上找到的比 GPT 更好的最佳 LLM 模型。如果您想知道LLM是什么,它们是大型语言模型,可以根据某些输入生成文本。他们接受了大量数据的训练,可以学习模仿不同风格、流派和领域的文本。它们也非常强大且用途广泛,因为它们可用于各种任务,例如文本摘要、问答、文本生成等。

但为什么它们比 GPT 更好呢? GPT 是由 OpenAI 开发的非常受欢迎且令人印象深刻的LLM。它有多个版本,例如 GPT-2、GPT-3 和 GPT-J,它们具有不同的尺寸和功能。然而,GPT 并不是唯一的LLM,不同的研究人员和组织创建的许多其他模型可以在某些方面与 GPT 相媲美甚至超越。在这篇博文中,我将向您介绍其中一些模型,并向您展示如何将它们与 Hugging Face 一起使用。

Hugging Face 是一个令人惊叹的平台,提供对超过 12 万个模型、2 万个数据集和 5 万个演示应用程序 (Spaces) 的访问,所有这些都是开源且公开的。您可以通过 Transformers 库轻松浏览、下载和使用这些模型,Transformers 库是一个 Python 库,提供了一种用户友好且有效的方法来使用 LLM。您还可以向 Hugging Face Hub 贡献自己的模型和数据集,并与社区中的其他用户和专家协作。

因此,言归正传,让我们来看看您可以在 Hugging Face 上找到的一些比 GPT 更好的最佳 LLM 模型。

Vigogne

Vigogne 是由 Bofeng Huang 及其蒙特利尔大学团队开发的LLM系列。它们基于 GPT 架构,但进行了一些修改和改进,使它们更加高效和强大。例如,他们使用一种名为 LORA 的新技术,它代表注意力的局部重新加权,以减少注意力机制的内存和计算成本。他们还使用一种称为 PEFT(位置编码微调)的技术,使模型的位置编码适应不同的任务和领域。

链接 — https://huggingface.co/bofenghuang/vigogne-7b-chat

Vigogne 型号有不同的尺寸和风格,参数范围从 7B 到 33B。他们可以为各种领域生成高质量的文本,例如聊天、指令和绽放。您可以在 Hugging Face Hub 上以“bofenghuang”用户名找到它们。例如,您可以尝试 vigogne-7b-chat 模型,它可以根据某些输入生成引人入胜且连贯的对话。以下是如何将其与转换器库一起使用的示例:

import torchfrom transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfigfrom vigogne.preprocess import generate_inference_chat_promptmodel_name_or_path = "bofenghuang/vigogne-7b-chat"tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, padding_side="right", use_fast=False)model = AutoModelForCausalLM.from_pretrained(model_name_or_path, torch_dtype=torch.float16, device_map="auto")user_query = "Expliquez la différence entre DoS et phishing."prompt = generate_inference_chat_prompt([[user_query, ""]], tokenizer=tokenizer)input_ids = tokenizer(prompt, return_tensors="pt")["input_ids"].to(model.device)input_length = input_ids.shape[1]generated_outputs = model.generate( input_ids=input_ids, generation_config=GenerationConfig( temperature=0.1, do_sample=True, repetition_penalty=1.0, max_new_tokens=512, ), return_dict_in_generate=True,)generated_tokens = generated_outputs.sequences[0, input_length:]generated_text = tokenizer.decode(generated_tokens, skip_special_tokens=True)print(generated_text)

JAIS

JAIS 是由 Core42 及其阿尔伯塔大学团队开发的另一个LLM系列。它们也基于 GPT 架构,但进行了一些增强和优化,使它们更加健壮和可扩展。例如,他们使用一种称为 GPTQ(GPT 量化)的技术,通过使用较低精度的算术来减少模型的大小和延迟。他们还使用一种称为 ACTORDER(代表激活排序)的技术,通过对激活函数重新排序来提高模型的并行性和吞吐量。

链接 — https://huggingface.co/core42/jais-13b

JAIS型号有不同的尺寸和版本,参数范围从13B到30B。它们可以为各种领域生成高质量的文本,例如 chat、bloom 和 jais。您可以在 Hugging Face Hub 上以 core42 用户名找到它们。例如,您可以尝试 jais-13b-chat-hf 模型,它可以根据一些输入生成幽默诙谐的对话。以下是如何将其与转换器库一起使用的示例:

# -*- coding: utf-8 -*-import torchfrom transformers import AutoTokenizer, AutoModelForCausalLMmodel_path = "inception-mbzuai/jais-13b"device = "cuda" if torch.cuda.is_available() else "cpu"tokenizer = AutoTokenizer.from_pretrained(model_path)model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True)def get_response(text,tokenizer=tokenizer,model=model): input_ids = tokenizer(text, return_tensors="pt").input_ids inputs = input_ids.to(device) input_len = inputs.shape[-1] generate_ids = model.generate( inputs, top_p=0.9, temperature=0.3, max_length=200-input_len, min_length=input_len + 4, repetition_penalty=1.2, do_sample=True, ) response = tokenizer.batch_decode( generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True )[0] return responsetext= "عاصمة دولة الإمارات العربية المتحدة ه"print(get_response(text))text = "The capital of UAE is"print(get_response(text))

BERTIN

BERTIN 是一门独特的LLM,由 Manuel Romero 及其在 Platzi 的团队开发。它基于 GPT-J 架构,该架构是 EleutherAI 创建的 GPT-3 的变体。然而,BERTIN 不仅仅是 GPT-J 的复制品,而是一个在大型且多样化的西班牙语文本语料库上训练的新颖模型。它是第一个可以生成高质量西班牙语文本的LLM,还可以处理代码生成和其他任务。

链接 — https://huggingface.co/mrm8488/bertin-gpt-j-6B-ES-8bit

BERTIN有不同的尺寸和版本,参数范围从6B到12B。它可以为各种领域生成高质量的文本,例如聊天、alpaca 和 chivo。您可以在 Hugging Face Hub 上以用户名 mrm8488 找到它。例如,您可以尝试 bertin-gpt-j-6B-ES-8bit 模型,它可以根据某些输入生成流畅且连贯的西班牙语文本。以下是如何将其与转换器库一起使用的示例:

import transformersimport torchfrom Utils import GPTJBlock, GPTJForCausalLMdevice = "cuda" if torch.cuda.is_available() else "cpu"transformers.models.gptj.modeling_gptj.GPTJBlock = GPTJBlock # monkey-patch GPT-Jckpt = "mrm8488/bertin-gpt-j-6B-ES-8bit"tokenizer = transformers.AutoTokenizer.from_pretrained(ckpt)model = GPTJForCausalLM.from_pretrained(ckpt, pad_token_id=tokenizer.eos_token_id, low_cpu_mem_usage=True).to(device)prompt = tokenizer("El sentido de la vida es", return_tensors='pt')prompt = {key: value.to(device) for key, value in prompt.items()}out = model.generate(**prompt, max_length=64, do_sample=True)print(tokenizer.decode(out[0]))

Mistral

Mistral 是由 FPHam 及其剑桥大学团队开发的LLM系列。它们基于 GPT-2 架构,但进行了一些扩展和改进,使它们更具表现力和多样性。例如,他们使用一种名为 CLP(即对比语言预训练)的技术来增强模型捕捉自然语言不同方面的能力,例如风格、情感和主题。他们还使用一种称为 PEFT(位置编码微调)的技术,使模型的位置编码适应不同的任务和领域。

链接 — https://huggingface.co/mistralai/Mistral-7B-v0.1

Mistral 型号有不同的尺寸和版本,参数范围从 6B 到 7B。他们可以为各个领域生成高质量的文本,例如指导、问题和绽放。您可以在 Hugging Face Hub 上以 FPham 用户名找到它们。例如,您可以尝试 Mistra-7b-chat 模型,它可以根据某些输入生成相关且有趣的问题。以下是如何将其与转换器库一起使用的示例:

from transformers import AutoTokenizer, AutoModelForCausalLMtokenizer = AutoTokenizer.from_pretrained("openskyml/mistral-7b-chat")model = AutoModelForCausalLM.from_pretrained("openskyml/mistral-7b-chat")# encode the input textinput_ids = tokenizer.encode("The Eiffel Tower is a famous landmark in Paris.", return_tensors="pt")# generate the output textoutput_ids = model.generate(input_ids, max_length=50)# decode the output textoutput_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)print(output_text)

Igel

Igel 是一个独特的LLM,由 Phil Schmid 和他的 Hugging Face 团队开发。它基于 GPT-Neo 架构,该架构是 EleutherAI 创建的 GPT-3 的变体。然而,Igel 不仅仅是 GPT-Neo 的复制品,而是一个在大型且多样化的德语文本语料库上训练的新颖模型。它是第一个可以生成高质量德语文本的LLM,还可以处理代码生成和其他任务。

链接 — https://huggingface.co/philschmid/instruct-igel-001

Igel有不同的尺寸和版本,参数范围从2.7B到13B。它可以为各种领域生成高质量的文本,例如chat、alpaca和 igel。您可以在 Hugging Face Hub 上以用户名 philschmid 找到它。例如,您可以尝试 instruct-igel-001 模型,它可以根据某些输入生成流畅且连贯的德语文本。以下是如何将其与转换器库一起使用的示例:

from transformers import AutoTokenizer, AutoModelForCausalLMtokenizer = AutoTokenizer.from_pretrained("philschmid/instruct-igel-001")model = AutoModelForCausalLM.from_pretrained("philschmid/instruct-igel-001")# encode the input textinput_ids = tokenizer.encode("Wie macht man einen Kuchen?", return_tensors="pt")# generate the output textoutput_ids = model.generate(input_ids, max_length=50)# decode the output textoutput_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)print(output_text)

结论

这些是您可以在 Hugging Face 上找到的一些比 GPT 更好的最佳 LLM 模型。它们不仅令人印象深刻、功能强大,而且创新且多样化。它们可以为各种领域、语言和任务生成高质量的文本,并且还可以轻松地与 Transformer 库一起使用。您还可以在 Hugging Face Hub 上探索其他LLM模型,并发现可以满足您的需求和兴趣的新的、令人兴奋的模型。

声明:壹贝网所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,版权归原作者wangteng@admin所有,原文出处。若您的权利被侵害,请联系 756005163@qq.com 删除。

本文链接:https://www.ebaa.cn/29327.html

(0)
上一篇 2024年7月24日
下一篇 2024年7月24日

相关推荐

  • 青山学院大学排名_青山学院大学排名 us

    近日,JS Corporation 公布了 11 月份的“大学人气排名”。这是JS公司对关于高中生感兴趣的大学进行的调查,现经有193548名高中生参与了调查。 目前,《大学人气排行榜(截至2023年11月30日编制)》已在其网站上公布,调查时间为2021年4月至2023年11月。 以下是截止至2023年11月30日的统计结果,包括国立大学、公立大学和私立大…

    2024年4月11日
  • 意大利的大学qs排名

    国际高等教育研究机构QS Quacquarelli Symonds于今日正式发布第15版QS世界大学学科排名。本次排名对全球100个国家和地区的 1700多所大学在55个学科领域的表现进行了独立的比较分析。此外,还对五大学科领域(艺术与人文、工程与技术、生命科学、自然科学和社会科学)进行了评估。 这是QS有史以来最大规模的学科排名,凸显了全球高等教育不断变化…

    2025年4月7日
  • 南加州大学在美国排名第几

    南加州大学排名在2020年USNEWS美国最佳综合大学排名第22,2020年《泰晤士高等教育》美国大学排名18,南加州大学位于美国洛杉矶市,1880年由监理会创立,是美国大学协会和环太平洋大学联盟成员。 南加州大学学制 南加州大学本科一般三年毕业,一个学年为三个学期,比如社会学、生物学、经济学、计算机科学、语言文学等热门专业的学制都是三年制的;研究生一般1年…

    2025年1月22日
  • 日本大学本科sgu项目有哪些专业

    东京国际大学(TIU)是一所位于东京的日本私立大学。起初只有商学院的商学科,现在有6个学部4个大学院,秉持“培养真正具有国际思想人才”的教育理念,东京国际大学积极招收海外留学生,以不断扩大其以实践为导向的国际教育。作为日本sgu项目的37所院校之一,是被日本文部省(教育部)和中国教育部双双认证的私立大学,今天蔚蓝日本留学老师为同学们介绍一下东京国际大学sgu…

    2024年1月9日
  • 香港都会大学mba申请条件

    申请要求: ★学术要求: 专科毕业,十年以上管理工作经验可申请; 本科毕业,三年以上管理工作经验可申请。 ★英语语言要求:无需语言成绩 香港都会大学的工商管理硕士专业,将在2024年11月15日开放25fall入学申请。中文授课,无英语入学要求,名额有限,早报名早录取! 香港都会大学 香港都会大学,简称“都大”,1989年由香港政府创办,是中国香港九所公立大…

    2024年12月16日
  • 渥太华大学和多伦多大学哪个好

    QS世界大学排名作为世上最受注目的大学排行榜之一,2023年榜单一经发布,就引起广大关注,今天我们一起来看看加拿大在2023QS排名中的表现吧! 2023QS排名 大学 英文名称 综合得分 31麦吉尔大学McGill University81.934多伦多大学University of Toronto81.547不列颠哥伦比亚大学University of …

    2024年9月30日
  • 国际美发学校排行榜

    北京东青美容美发学校全国十大知名品牌学校之首,百分百就业保障 ,课程前沿,注重实践,办学历史悠久,口碑好,学校综合评分为99.99分,业内公认的职业技能人才教育基地。 北京东青美容美发学校全国十大知名品牌学校之首, 就业有保障:百分百就业服务,就业有保障 课程前沿 注重实践 全国十大名校 北京东青美容美发学校 全国美发排行榜领先的知名学校 强大的师资力量:北…

    2025年8月25日
  • 日本广岛修道大学

    见习记者 王媛媛 根据埃森哲数据统计,2016年中国科技金融企业总共获得了100亿美元的投资,占亚太地区科技金融领域投资总额的90%。相比之下,日本的科技金融企业筹集到的投资资金仅为1.54亿美元。 近日,日本神户大学及广岛修道大学经济学研究人员考察中国互联网金融企业时说,目前日本国内网贷市场发展处于非常初级的阶段,相当于中国P2P市场在2008年的发展水平…

    2025年4月21日
  • 卡耐基梅隆大学计算机学费

    卡内基梅隆大学计算机学院开设机器人研究所、机器学习系、计算机科学系、计算生物学系、人机交互研究所、软件研究所、新兴媒体、娱乐技术中心、语言技术研究所等。学费如下: 卡内基梅隆大学计算机专业学费 机器人研究所 The Robotics Institute 学费:$43,000 机器学习系 Machine Learning Department 学费:$43,0…

    2024年7月24日
  • 台湾大学曾仕强简介

    曾仕强是中国台湾著名学者、国学大师,被誉为“中国式管理之父”。他长期致力于中国传统文化与管理哲学的研究与传播,曾任台湾交通大学教授、台湾兴国管理学院校长等职。曾仕强在教学、研究、写作、演讲、翻译等方面均有卓越成就,著有《胡雪岩的启示》《易经的奥秘》《家庭教育》等多部著作。他还在央视《百家讲坛》主讲《易经》《胡雪岩的启示》等专题,深受观众喜爱。 曾仕强擅长演讲…

    2025年5月26日

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信