Parti: Pathways Авторегрессионная модель преобразования текста в изображение
Исследовательская работа Репозиторий GitHub
Мы представляем модель Pathways Autoregressive Text-to-Image (Parti), модель генерации авторегрессионного преобразования текста в изображение, которая обеспечивает создание фотореалистичных изображений с высокой точностью и поддерживает синтез с большим содержанием, включающий сложные композиции и знания о мире. Недавние достижения в области моделей распространения для преобразования текста в изображение, такие как Google Imagen, также продемонстрировали впечатляющие возможности и современную производительность в исследовательских тестах. Parti и Imagen дополняют друг друга в изучении двух разных семейств генеративных моделей — авторегрессионной и диффузионной соответственно — открывая захватывающие возможности для комбинаций этих двух мощных моделей.
Parti рассматривает преобразование текста в изображение как задачу моделирования последовательностей, аналогичную машинному переводу.
Мы наблюдали следующие результаты:
- Постоянное повышение качества за счет масштабирования кодера-декодера Parti до 20 миллиардов параметров.
- Ультрасовременный нулевой показатель FID 7,23 и точно настроенный показатель FID 3,22 на MS-COCO.
- Эффективность по широкому спектру категорий и аспектов сложности в нашем анализе Localized Narratives и PartiPrompts, нашего нового целостного эталона из более чем 1600 английских подсказок, которые мы публикуем в рамках этой работы.
Мы также изучаем и подчеркиваем ограничения наших моделей, давая примеры ключевых областей для дальнейших улучшений.
Parti реализована в Lingvo и масштабируется с помощью GSPMD на оборудовании TPU v4 как для обучения, так и для логического вывода, что позволило нам обучить модель параметров 20B, которая достигает рекордной производительности на нескольких тестах.
Мы проводим детальное сравнение четырех весов моделей Parti – 350M, 750M, 3B и 20B – и наблюдаем:
- Постоянные и существенные улучшения возможностей модели и качества выходного изображения.
- При сравнении моделей 3B и 20B оценщики чаще всего предпочитали последнюю, а именно:
- 63,2% для реалистичности/качества изображения
- 75,9% для соответствия изображения тексту
- Модель 20B особенно хорошо подходит для абстрактных подсказок, требующих знания мира, конкретных точек зрения или письма и отображения символов.
Нажмите на одну из следующих подсказок, чтобы сравнить модели Parti в разных масштабах:
Портретная фотография кенгуру в оранжевой толстовке с капюшоном и синих солнцезащитных очках, стоящего на траве перед Сиднейским оперным театром и держащего на груди табличку с надписью «Добро пожаловать, друзья!»
Зеленый знак с надписью «Очень глубокое обучение» на краю Гранд-Каньона. В небе плывут пушистые белые облака.
Карта США, сделанная из суши. Он стоит на столе рядом с бокалом красного вина.
Белка дает яблоко птице
Спинка скрипки
Бесконечность
Генерация текста в изображение наиболее интересна, когда позволяет нам создавать сцены, которые мы никогда не видели.
Мы обнаружили, что Parti может управлять длинными и сложными подсказками, которые требуют от него:
- Точно отражать мировые знания
- Скомпонуйте множество участников и объектов с мелкими деталями и взаимодействиями
- Придерживаться определенного формата и стиля изображения
В следующих примерах подсказок и выходных изображений мы показываем, как Parti реагирует на изменения в составе участников, действиях, описаниях, местоположениях и формате.
Енот в формальной одежде, в топапе и с тростью в руках. Енот держит мешок для мусора. Картина маслом в стиле Рембрандт Винсент Ван Гог Хокусай пиксель арт абстрактный кубизм Египетские иероглифы на гробницах
Портрет тигра в шляпе проводника поезда, держащего в руках скейтборд с символом инь-янь. фотография иллюстрация комикса картина маслом мраморная статуя набросок углем гравюра на дереве детский рисунок мелками цветной рисунок тушью и смывкой Китайская живопись тушью и мытьем
Плюшевый мишка в мотоциклетном шлеме и плаще стоит перед Лох Трепетом с замком Килчурн позади него вождение скоростной лодки возле моста Золотые Ворота автомобильный серфинг в такси в Нью-Йорке на мотоцикле в Рио-де-Жанейро на фоне Доис Ирмауш. зеркальное фото.
Фотография кленовый лист Пальма четырехлистный клевер цветок лотоса панда плюшевый мишка крокодил стрекоза из воды.
Фото афинской вазы с росписью панды туканы панголины играть большой теннис футбольный баскетбол в стиле египетских иероглифов.
Торнадо из акулы тигры пчелы врезаться в небоскреб. Картина в стиле Хокусай абстрактный кубизм акварель
PartiPrompts (P2) — это богатый набор из более чем 1600 подсказок на английском языке, которые мы выпускаем в рамках этой работы. P2 можно использовать для измерения возможностей модели по различным категориям и аспектам задач.
Подсказки P2 могут быть простыми, позволяя нам оценить прогресс от масштабирования. Они также могут быть сложными, как, например, следующее описание из 67 слов, которое мы создали для картины Винсента Ван Гога « Звездная ночь » (1889):
Картина маслом на холсте синего ночного неба с бурлящей энергией. Сверху сияет нечеткий ярко-желтый полумесяц. Под взрывающимися желтыми звездами и сияющими голубыми вихрями справа тихо сидит далекая деревня. Соединяет землю и небо кипарис, похожий на пламя, с вьющимися и покачивающимися ветвями слева. Церковный шпиль возвышается как маяк над голубыми холмами.
Многие изображения, показанные здесь, были отобраны или отобраны из большого набора примеров, созданных в ходе оперативного исследования и взаимодействия с модификацией. Мы называем этот процесс «Выращивание вишневого дерева» и приводим его подробный пример в статье, где мы создаем очень сложную подсказку и стратегии для создания изображения, полностью отражающего описание.
Несмотря на то, что Parti производит высококачественные выходные данные для широкого спектра подсказок, у этой модели, тем не менее, есть много ограничений. В статье мы обсуждаем эти проблемы с примерами, текущими видами отказов и возможностями для будущей работы. Мы предоставляем образец некоторых из этих случаев отказа в интерактивной визуализации ниже.
Неудача: неправильное обращение с отрицанием или указание на отсутствие.
Два бейсбольных мяча слева от трех теннисных мячей.
Жук-носорог размером с танк схватился за реальный пассажирский самолет на взлетной полосе.
Портрет статуи Анубиса в короне и в желтой футболке с изображением шаттла. На заднем плане белая кирпичная стена.
Кремовый лабрадудель рядом с белой кошкой с черными кончиками ушей.
Тарелка, на которой нет бананов. рядом стоит стакан без апельсинового сока.
Робот, нарисованный граффити на кирпичной стене. На стене написаны слова «Управляй самолетом». Тротуар перед стеной, а из трещин в бетоне растет трава.
Блестящий робот в костюме гоночного автомобиля и с черным козырьком гордо стоит перед гоночным автомобилем F1. Солнце садится на фоне городского пейзажа. иллюстрация комикса.
Как мы более подробно обсуждаем в статье, модели преобразования текста в изображение открывают множество возможностей и рисков, потенциально влияя на предвзятость и безопасность, визуальную коммуникацию, дезинформацию, творчество и искусство. Похожий на Имиген, мы признаем, что существует риск того, что Parti может кодировать вредные стереотипы и представления. Некоторые потенциальные риски связаны со способом разработки самих моделей, и это особенно верно для обучающих данных. Текущие модели, такие как Parti, обучаются на больших, часто зашумленных наборах данных изображений и текста, которые, как известно, содержат предубеждения в отношении людей разного происхождения. Это приводит к тому, что такие модели, включая Парти, производят стереотипные представления, например, о людях, описанных как юристы, стюардессы, домохозяйки и т. д., и отражают западные предубеждения в отношении таких событий, как свадьбы. Это создает особые проблемы для людей, чей опыт и интересы недостаточно хорошо представлены в данных и модели, особенно если такие модели применяются для таких целей, как визуальная коммуникация, т.е. помощь малограмотным социальным группам. Модели, которые создают фотореалистичные изображения, особенно людей, создают дополнительные риски и опасения, связанные с созданием дипфейков.
Модели преобразования текста в изображение открывают перед людьми множество новых возможностей для создания уникальных и эстетически привлекательных изображений — по сути, они действуют как кисть для повышения творческого потенциала и производительности человека. Однако при оценке дизайна или художественных достоинств важно иметь тонкое понимание алгоритмического искусства на протяжении многих лет сама модель, вовлеченные люди и более широкая художественная среда. Здесь также имеет значение предвзятость, поскольку диапазон выходных данных модели зависит от обучающих данных, и это может привести к предвзятости в сторону западных образов и еще больше помешать моделям демонстрировать радикально новые художественные стили, как это могут делать люди-художники.
По этим причинам мы решили не публиковать наши модели, код или данные Parti для публичного использования без дополнительных мер безопасности. Тем временем мы ставим водяной знак Parti на все изображения, которые мы публикуем. Мы сосредоточимся на продолжении этой работы с дальнейшим тщательным измерением смещения модели и стратегиями смягчения, такими как оперативная фильтрация, фильтрация выходных данных и повторная калибровка модели. Мы считаем, что можно использовать модели генерации текста в изображение, чтобы понять предвзятость в больших наборах данных изображения и текста в масштабе, путем явного исследования их на наличие набора известных типов предвзятости и, возможно, выявления других форм скрытой предвзятости. Мы также планируем координировать свои действия с художниками, чтобы адаптировать возможности высокопроизводительных моделей преобразования текста в изображения к их работе. Это особенно важно, учитывая большой интерес со стороны многих исследовательских групп и быстрое развитие моделей и данных для их обучения. В идеале мы надеемся, что эти модели будут способствовать человеческому творчеству и продуктивности, а не заменять его, чтобы мы все могли наслаждаться миром, наполненным новыми, разнообразными и ответственными эстетическими визуальными впечатлениями.
Карта данных
Parti — это совместная работа авторов из нескольких исследовательских групп Google:
Цзяхуэй Юй * ,
Юаньчжун Сюй † ,
Цзин Ю Кох † ,
Тханг Луонг † ,
Гунджан Байд † ,
Зируи Ван † ,
Виджай Васудеван † ,
Александр Ку †
Йинфэй Ян,
Бурджу Карагол Аян,
Бен Хатчинсон,
Вэй Хан,
Зарана Парех,
Синь Ли,
Хан Чжан
Джейсон Болдридж † ,
Yonghui Wu *
* Равный вклад † Основной вклад
Мы хотели бы поблагодарить Элизабет Адкисон, Фреда Алкобера, Таню Бедракс-Вайс, Кришну Бхарат, Николь Бричтову, Юань Цао, Уильяма Чана, Чжифэн Чена, Эли Коллинза, Клэр Куи, Эндрю Дая, Джеффа Дина, Эмили Дентон, Тоджу Дьюка. , Думитру Эрхан, Брайан Гэбриэл, Зубин Гахрамани, Джонатан Хо, Майкл Джонс, Сара Ласло, Куок Ле, Лала Ли, Жень Ли, Сара Махдави, Кэти Мейер-Хеллстерн, Кевин Мерфи, Пол Нацев, Пол Николас, Мохаммад Норузи, Ники Пармар , Руоминг Панг, Фернандо Перейра, Слав Петров, Винодкумар Прабхакаран, Уцав Прабху, Эван Рапопорт, Керан Ронг, Негар Ростамзаде, Читван Сахария, Джиа Солес, Остин Таранго, Ашиш Васвани, Тао Ван, Трис Варкентин, Остин Уотерс, Бен Зевенберген за помощь обсуждения и рекомендации, Питер Андерсон, Коринна Кортес, Том Дуриг, Дуглас Эк, Дэвид Ха, Раду Сорикут и Рахул Суктанкар за обзор статьи и отзывы, Эрика Морейра и Виктор Гомес за помощь в координации ресурсов, Том Смолл за разработку водяного знака партии, Google МЛ Команда Data Operations для сбора человеческих оценок созданных нами изображений, а также другие команды Google Brain и Google Research для поддержки на протяжении всего этого проекта.
Мы также хотели бы выразить особую признательность команде Imagen, особенно Мохаммаду Норузи, Читвану Сахарии, Джонатану Хо и Уильяму Чану, за то, что они поделились своими почти полными результатами перед выпуском Imagen; их выводы о важности руководства по CF оказались особенно полезными для окончательной модели Parti. Мы также благодарим команду Make-a-Scene, особенно Орана Гафни, за полезное обсуждение реализации CF-наведения в авторегрессионных моделях. Мы благодарим авторов DALL-E 2, особенно Адитью Рамеша, за полезное обсуждение оценки MS-COCO. Мы также благодарим авторов DALL-Eval, особенно Джемина Чо, за помощь в воспроизведении их номеров.
Входные билеты (Служба национальных парков США)
Прекрасная Америка — Серия билетов для национальных парков и федеральных рекреационных земель
Каждый пропуск покрывает входные билеты на территории, находящиеся в ведении Службы национальных парков и Службы охраны рыбных и диких животных США, а также стандартные удобства сборы (сборы за дневное использование) на землях, находящихся в ведении Лесной службы США, Бюро управления земельными ресурсами, Бюро мелиорации и Инженерного корпуса армии США. Пропуск распространяется на владельца пропуска и всех пассажиров в личном транспортном средстве в местах, где взимается плата за транспортное средство, или на владельца пропуска и до трех дополнительных взрослых (16 лет и старше) в местах, где взимается плата за человека. Дети до 15 лет допускаются бесплатно.
Чтобы найти ближайший к вам пункт выдачи межведомственных пропусков, выполните поиск по списку всех федеральных мест отдыха, где выдаются пропуска, включая национальные парки. В дополнение к получению одного из межведомственных пропусков лично в национальных парках и других федеральных местах отдыха, многие из пропусков America the Beautiful — The National Parks and Federal Recreational Lands (межведомственные) доступны для заказа в интернет-магазине USGS (доступны по адресу минимум три недели на обработку заказа и доставку). Пожалуйста, посетите интернет-магазин USGS для получения подробной информации о том, как приобрести пропуск в Интернете и является ли покупка пропуска сейчас правильным решением для вас.
При покупке помните, что Межведомственные пропуска не подлежат возврату, передаче, продлению и замене в случае утери или кражи . Пассажиры должны предъявлять действительное удостоверение личности с фотографией при каждом проходе.
Изображение представляет собой дерево решений, помогающее людям решить, какой пропуск получить. Он называется «Какой межведомственный пропуск мне подходит?» Текст гласит: «Прекрасная Америка — пропуск в национальный парк и федеральные зоны отдыха. В программе межведомственных пропусков есть множество вариантов. Эти пропуска действительны для нескольких агентств (см. логотипы ниже) и могут быть получены при наличии соответствующего удостоверения личности или документации. Средства от продажи пропусков помогают федеральным агентствам поддерживать высокое качество обслуживания посетителей»
Инфографика включает логотипы веб-сайта – store.usgs.gov, где можно найти дополнительную информацию об этих пропусках. И включает логотипы участвующих федеральных агентств, в том числе Службы национальных парков, Бюро землеустройства, Бюро мелиорации, Службы рыболовства и дикой природы США, Лесной службы США и Инженерного корпуса армии США. Он также украшен силуэтами деревьев и зубров.
Первый ряд вариантов пропуска включает вопросы и ответы:
Он спрашивает: «Вы волонтер из федеральных земель, проработавший 250 часов?» затем указывает на пропуск волонтера бесплатно.
Ниже вопроса «Являетесь ли вы гражданином или постоянным жителем США?» есть несколько вариантов пропуска:
Он спрашивает: «Вам 62 года или больше?» затем указывает на годовой абонемент для пожилых за 20 долларов или пожизненный абонемент для пожилых за 80 долларов.
Он спрашивает: «Вы член семьи Gold Star или ветеран?» затем бесплатно указывает на военный пожизненный пропуск.
Он спрашивает: «Есть ли у вас по медицинским показаниям постоянная инвалидность?» затем указывает на пропуск доступа бесплатно.
Он спрашивает: «Вы в настоящее время служите в армии или находитесь на иждивении?» затем указывает на военный годовой пропуск бесплатно.
Он спрашивает: «Вы учитесь в США в 4-м классе или эквиваленте домашней школы?» затем указывает на пропуск в 4-й класс бесплатно.
Годовой абонемент The America the Beautiful-2023 The National Parks and Federal Recreation Lands0003Годовой абонемент
Стоимость: Годовой абонемент 80 долларов
Доступно для: Все
Как приобрести:
- В сети: купите этот пропуск в магазине USGS.
- По телефону: 1-888-275-8747, добавочный номер 1. Часы работы: с 8:00 до 16:00 по горному времени.
Дополнительная информация:
- Подробную информацию об этом пропуске можно найти на веб-страницах годового абонемента и часто задаваемых вопросов интернет-магазина Геологической службы США.
- Этот пропуск не подлежит передаче другому лицу.
Фотография на пропуске Карлы Риверы, 2021 г. «Поделись опытом» Победитель конкурса фотографий
Военный годовой пропуск
Стоимость: Бесплатно
Доступно для: Как получить: Дополнительная информация: Узнайте о бесплатном доступе для ветеранов вооруженных сил США и семей с золотой звездой через военный пожизненный пропуск. Пропуска не могут быть выданы в качестве подарков, так как правомочный получатель должен представить подтверждение соответствия требованиям. Фотография на пропуске Энтони Грациано в Национальном заповеднике дикой природы Вертхайм в Нью-Йорке. Стоимость: Бесплатный пропуск, действительный в течение учебного года для учащегося 4-го класса, но до следующего лета (сентябрь-август) Доступен для: Учащиеся 4-х классов США, в том числе обучающиеся на дому и учащиеся по выбору в возрасте 10 лет, с действительным бумажным ваучером Every Kid Outdoors Как получить: Дополнительная информация: Фотографии на перевалах сделаны Лори Уилкинсон, Йеллоустонский национальный парк (вверху) и Карла Ривера, 2021 г. Победитель конкурса фотографий «Поделись впечатлениями» (внизу) Доступно для: граждан или постоянных жителей США в возрасте 62 лет и старше . Кандидаты должны предоставить документы о возрасте и месте жительства или гражданстве. Как приобрести: Дополнительная информация: Фотография на пропуске сделана Стивеном Келером, Йеллоустонский национальный парк Стоимость: Бесплатный пожизненный пропуск Доступно для: граждан США или постоянных жителей с постоянной инвалидностью. Кандидаты должны предоставить документы о постоянной нетрудоспособности и месте жительства или гражданстве. Как связаться: Дополнительная информация: Фотография на пропуске Карлы Риверы, 2021 г. «Поделись опытом» Победитель конкурса фотографий Стоимость: Бесплатный годовой абонемент часов Доступно для: с 2 волонтерами с федеральными агентствами, участвующими в межведомственной пропускной программе Как получить: Добровольцы должны связаться со своим координатором волонтеров для получения дополнительной информации.
3
3
3 Военнослужащие США и их иждивенцы в армии, флоте, военно-воздушных силах, морской пехоте, береговой охране и космических силах, а также члены резерва и национальной гвардии. Перед прибытием проверьте требования к удостоверению личности с фотографией.
1 сентября 2022 г. — 31 августа 2023 г. — пропуск 4-го класса Пропуск для 4-го класса
Пожизненный межведомственный пропуск для старшего персонала и Годовой межведомственный пропуск для старшего сотрудника на 2023 год.
Межведомственный пропуск Пропуск
Межведомственный абонемент волонтеров на 2023 год Волонтерский абонемент