{# Generated per-post OG image: cover + headline rendered onto a 1200×630 PNG by apps/blog/og_image.py. Cached for 24 h via cache_page on the URL pattern; the ?v= bust ensures editing the title or swapping the cover forces a fresh render in the very next social preview (Facebook/LinkedIn/Twitter cache by URL incl. query). #} {# LCP-image preload — kicks off the AVIF fetch in parallel with HTML parse instead of waiting for the tag in the body. imagesrcset + imagesizes mirror the banner's responsive set so the browser preloads the variant it actually needs. Browsers without AVIF ignore the preload and grab WebP/JPEG from the as usual. #} Перейти к содержимому

Обзор Google AI: уверенно неправо, но заметнее, чем когда-либо

updated 1 неделя ago AI Engineering Sarah Chen 11 мин чтения 6 просмотров
{# Banner is the LCP image. The post container is `container-narrow` (max ~720px on lg+ but the banner breaks out to ~960px); on mobile it fills the viewport. 640/960/1280/1680 cover the realistic slot widths at 1× and 2×. fetchpriority=high stays on the so the LCP starts loading before AVIF/WebP source selection completes. #} Обзор Google AI: уверенно неправо, но заметнее, чем когда-либо
{# body_html is precompiled at save time (apps.blog.signals.precompile_body_html). Fall back to runtime `|md` on the off-chance an old post slipped past the backfill — keeps the page from rendering blank. #}

Google AI Overview: Confident When Wrong, Yet More Visible Than Ever

Рекомендация: примите три термина для оценки – точность, очевидность и полнота – и согласуйте ответы с целью вашей компании. Постройте систему рутинного тестирования с использованием разнообразных данных, адаптируйте свою стратегию и полагайтесь на четкую, подтвержденную человеком обратную связь.

Как сообщает источник, обзор Google AI высвечивает пробел: системы могут быть уверены, даже когда не правы, однако ошибки становятся очевидными только при тестировании в реальных сценариях. Не сатира, это подход, основанный на данных, который определяет, как продукты сообщают об ограничениях и планируют исправления.

Чтобы построить полную картину, полагайтесь на обширный набор бенчмарков и пятилетние планы. Используйте метрики, которые имеют значение: точную базовую линию, задержку и полноту, и преобразуйте их в конкретные цели продукта, которые команды могут отслеживать. Реальность такова, что видимость возрастает с улучшением тестов и более четкими сигналами.

Три прагматичных шага помогают командам сделать этот подход действенным: 1) разработайте наборы тестов, ориентированные на режимы отказа; 2) внедрите систему участия человека в контуре для неоднозначных результатов; 3) опубликуйте краткую стратегию реагирования на ответы, которые они развертывают, с четким определением ответственности и сроков.

Наконец, сформулируйте управление вокруг трех целей: прозрачность используемых данных, отслеживаемость решений и непрерывная адаптация. Это делает видимый ИИ честным и полезным, имеющим цель во всех линейках продуктов и регионах. Эта стратегия опирается на данные, результаты тестов и последовательные действия, которым команды могут доверять.

Практический анализ уверенности и видимости в поиске Google AI

Рекомендация: регулярно проводите аудит, который сопоставляет показатели уверенности с реальными результатами, и указывайте источники для каждого утверждения.

Со временем регистрируйте случаи, когда поисковый инструмент выдает ответ с высокой уверенностью, в то время как результат не соответствует реальным терминам или намерениям пользователя.

Измеряйте видимость, отмечая, где появляется ответ: наиболее заметной функцией является сниппет, альтернативами являются панель знаний или главная страница темы, и записывайте источник для каждого результата.

Создайте легкую панель инструментов, которая отслеживает время ответа, уровень уверенности и наивысшее местоположение в результатах, чтобы команды могли быстро обнаруживать отклонения.

Внедрите этап перекрестной проверки: требуйте явный источник, предлагайте альтернативный ответ, когда источник слаб, и пропускайте только тогда, когда сигналы совпадают; это защищает пользователей от ущерба, вызванного чрезмерно уверенными, но неправильными результатами.

Приглашайте отзывы пользователей от постоянных читателей на Reddit или внутренних форумах; фиксируйте используемые ими термины и передавайте их в оценку, что может указывать на пробелы в охвате и в подсказках и проверках.

Сводное руководство подчеркивает источник, четкие цитаты и разделение между уверенными, но неуверенными ответами и ответами, основанными на надежных данных.

Пример 5: Уверенность в ответах, похожих на поисковые, и пограничные случаи

Пример 5: Уверенность в ответах, похожих на поисковые, и пограничные случаи

Проверяйте результаты, проверяя первичные источники и перекрестно ссылаясь как минимум на два источника; переходите по ссылкам к оригиналам документов и относитесь к этому ответу как к предварительному.

Пограничные вопросы демонстрируют высокую уверенность, даже когда факты шаткие; эта закономерность, вероятно, повторится в моменты, когда шаблоны соответствуют знакомым форматам. Используйте это понимание, чтобы сделать паузу, когда утверждение звучит правдоподобно, но не имеет прямых доказательств. Примерно одна треть ответов в пограничных случаях заявляется уверенно, но неверна, поэтому относитесь к уверенности как к первому сигналу, а не к вердикту. Если источник не согласен, утверждение недействительно.

Для проверки проведите быструю сортировку: сделайте снимок экрана ответа, перечислите цитируемые источники и сравните каждое утверждение с текстом источника, чтобы подтвердить понимание. Если появляется несоответствие, оно не подтверждает утверждение, и вам следует воздержаться от каких-либо действий на основании этого ответа.

Ущерб от дезинформации возрастает, когда команды полагаются исключительно на поверхностные признаки; внедрите компактный контрольный список уверенности и отслеживайте изменения с течением времени. Это снижает риск в обычных рабочих процессах и повышает подотчетность.

В социальных сетях, таких как Facebook, спекуляции могут распространяться быстро; четко маркируйте источник, предоставьте краткий обзор этапов проверки и добавьте снимок экрана при обмене результатами, чтобы обуздать дезинформацию. Сделайте визуальный контекст менее вводящим в заблуждение, выделив происхождение и предостережения, так как это облегчает различение очевидных утверждений от хорошо обоснованных.

Вот компактный контрольный список для этого пограничного пространства: проверяйте события и временные метки, сверяйте с двумя независимыми источниками, проверяйте, является ли результат избранным фрагментом, фиксируйте временную метку последнего обновления и соблюдайте регулярный график проверок. Также имейте в виду метафору сыра: этот быстрый выбор отражает выбор сыра с прилавка – отдавайте предпочтение самому безопасному и проверенному варианту.

Пример 6: Ориентированность на пользователя и доверие к поиску в стиле ChatGPT

Предоставьте краткий, основанный на фактах ответ и укажите источники. Согласно историческим данным, результат соответствует многочисленным известным исследованиям и примерам, и они цитируют первоисточник после ответа для подтверждения утверждения.

Для каждого запроса приложите краткое обоснование и видимый индикатор уверенности. они уверенно представляют результат, когда данные сильны, и открывают краткое предостережение, когда доказательства слабее.

Если обнаружена дезинформация, разверните план исправления: укажите соответствующие источники, открыто укажите на неопределенность и предложите контрпримеры с возможностью проверки фактов. Мы откладываем спекулятивные рассуждения для последующей проверки.

Во всех продуктах, таких как поиск, чат и панели знаний, включите панель доверия со списком источников и краткой заметкой, основанной на фактах. Наличие открытых ссылок на данные и исторического контекста помогает пользователям оценить реальность и оставаться в соответствии с фактами.

Примите следующие стратегии: цитируйте каждое утверждение, показывайте как минимум два релевантных источника, указывайте даты и авторов и приглашайте вопросы пользователей. Этот подход помогает пользователям ориентироваться в информации с помощью четких подсказок и сводит к минимуму шансы дезинформации.

Планируйте следующие шаги с пользователем: задайте уточняющий вопрос, запросите разрешение на получение дополнительных данных и предложите экспортировать информационный бюллетень. Это делает процесс открытым и совместным.

Метрики калибровки: измерение уверенности речи ИИ

Опубликуйте оценку калибровки для каждого ответа и пометьте каждое утверждение оценкой уверенности, чтобы помочь пользователям отделить веру от фактов.

Используйте четыре основных меры для построения систематического представления о том, когда ИИ уверен, а когда нет, с упором на точность, удобство использования и прозрачность для людей и бизнес-команд.

  • Ожидаемая ошибка калибровки (ECE): разделите прогнозы примерно на 10 групп по уверенности, сравните среднюю точность каждой группы со средней уверенностью и стремитесь к низкому ECE (часто менее 0,05 в высококачественных развертываниях).
  • Оценка Брайера: вычислите среднюю квадратичную разницу между прогнозируемыми вероятностями и результатами; более низкая оценка сигнализирует о лучшем соответствии между уверенностью и реальностью.
  • Диаграмма надежности и максимальная ошибка калибровки (MCE): визуализируйте наблюдаемую и прогнозируемую точность по группам и ограничьте отклонение в наихудшей группе, чтобы предотвратить искажение общего доверия единичным неверным толкованием риска.
  • Согласованность и четкость ранжирования: убедитесь, что существительные с более высокой уверенностью соответствуют более высокой точности и что распределение уверенности является информативным, а не примерно плоским, что сводит к минимуму шум, который пользователи часто неправильно интерпретируют.

Чтобы реализовать калибровку на практике, соблюдайте рабочий процесс из четырех этапов, который обеспечивает полезность и доступность результатов для людей и бизнес-команд:

  1. Определите точки принятия решений, в которых система должна говорить с уверенностью, а в которых должна воздерживаться или запрашивать ввод данных человеком.
  2. Собирайте реальные результаты, отслеживайте оценки уверенности и фиксируйте контекст пользователя, такой как тип задачи и устройство (например, взаимодействие с мышью и подсказки пользовательского интерфейса, указывающие на уверенность).
  3. Вычисляйте метрики для каждой задачи и каждого года, затем публикуйте четкую панель инструментов с объяснениями на простом языке, чтобы неспециалисты могли интерпретировать результаты без неправильной интерпретации.
  4. Постепенно улучшайте модели на основе результатов, проверяя изменения с помощью A/B-тестов и оценки людьми для повышения точности, сохраняя при этом калибровку в соответствии с реальностью.

Руководство для команд, стремящихся поддерживать доверие: разрабатывайте цели калибровки как живой стандарт, обновляйте их по мере изменения качества данных и сложности задач и поддерживайте авторитетное, прозрачное повествование для заинтересованных сторон. На практике видимые, высококачественные метрики приводят к принятию более качественных решений, особенно когда лидеры бизнеса хотят получить надежные сигналы о том, где ИИ говорит с истинной уверенностью и где должны вмешаться люди.

Цитаты и сигналы источников: уменьшение неоднозначности для пользователей

Всегда сопоставляйте ответы, сгенерированные ИИ, с видимым сигналом источника, который указывает на происхождение и подтверждающий материал. Отображайте источник рядом с ответом, указывайте название источника, прямую ссылку и дату или версию материала. Убедитесь, что панель является полной, но компактной, чтобы не снижать скорость.

Сделайте сигналы легкими для чтения: четко их маркируйте, используйте краткую заметку об уверенности и исключите нерелевантные детали. Полагайтесь на шкалу 0-100 для оценки уверенности, с быстрой визуальной подсказкой. Когда пользователи видят низкую оценку, они могут усомниться в результате и запросить более глубокую проверку. Этот подход уменьшает неоднозначность, когда запрос включает такие бренды, как Hershey, или платформы, такие как Facebook.

Выходите за рамки одной ссылки: показывайте подтверждение из разных источников и отмечайте любой отсутствующий контекст. Добавьте краткую заметку об используемых типах данных, таких как страницы продуктов, научные отчеты или пресс-релизы. Сохраняйте термины в соответствии с терминами пользователя, чтобы читатели понимали объем и ограничения ответа. Это помогает читателям видеть наиболее релевантные термины.

Тип сигнала Что он показывает Лучшая практика
Тег происхождения Название источника, URL, дата Отображайте метку источника с кликабельным URL и датой.
Оценка уверенности Числовой индикатор 0-100 Показывайте рядом с ответом; используйте цветовые подсказки для указания высокой/низкой уверенности; включите быстрое пояснение подсказки
Контекстные заметки Краткое обоснование и список сильнейших терминов Укажите 2-3 ключевых термина, используемых в результате, и отметьте любые ограничения

Руководство по внедрению: тестирование, ведение журнала и защитные ограждения для производства

Примите детальный, систематический подход: тестируйте в промежуточной среде, ведите журнал в производственной среде и обеспечивайте защитные ограждения с проверкой человеком, когда риск высок. Назначьте владельцев для качества модели, целостности данных и результатов продукта и свяжите успех с авторитетным, текущим набором метрик. Поделитесь планом с соответствующими командами и убедитесь, что развертывания в регионе Джерси отражают защитные ограждения во всех средах. Задача состоит в том, чтобы создать телеметрию, которая быстро выдает точные сигналы, чтобы команды могли действовать в пределах временных окон и не быть ослепленными неточными результатами.

Тестирование: трехслойный план включает модульные тесты для подсказок и обработки данных; интеграционные тесты для источников данных; и сквозные тесты, которые имитируют реальное взаимодействие пользователя с помощью генератора сценариев на основе мыши для зеркального отображения интерактивных потоков. Сохраняйте детерминированность тестовых данных с помощью подсказок и ответов с временными метками. Установите целевые показатели задержки: 95-й процентиль менее 200 мс при 1000 qps. Используйте канареечные развертывания, направляющие 5% трафика в течение 24 часов; автоматически откатывайте, если задержка увеличивается на 25% или частота ошибок превышает 0,5%. Включите тест подсказки, чтобы проверить обработку крайних случаев; убедитесь, что для покрытия используются только репрезентативные подсказки; проанализируйте влияние следующего выпуска перед отправкой.

Ведение журнала: структурированные журналы с полями, такими как временная метка, model_id, подсказка, input_hash, ответ, задержка_мс, результат и код_ошибки. Используйте быстрое, удобное для запросов хранилище и сохраняйте критические журналы в течение 30 дней, архивируя старые данные через 12 месяцев. Применяйте выборку для управления объемом, сохраняя при этом редкие сигналы ошибок, и предупреждайте о неточностях и неточных сигналах. Создавайте панели инструментов, которые показывают текущую точность, связанные сигналы риска, а также отслеживают типы подсказок в режиме реального времени.

Защитные ограждения: обеспечивайте соблюдение политики посредством многоуровневых фильтров: модерация контента, бюджеты токенов, ограничения скорости и участие человека в контуре для подсказок с высоким риском. Внедрите легкий классификатор для маршрутизации подсказок в безопасные полосы, для проверки или отклонения; требуйте проверки людьми, когда уверенность падает ниже порогового значения. Убедитесь, что только проверенные подсказки продолжаются автоматически, и свяжите защитные ограждения с телеметрией продукта, чтобы владельцы могли видеть, где концентрируется риск, и принимать дальнейшие действия с минимальными трениями. Помните: невозможно полагаться на одну метрику; объединяйте сигналы точности, задержки и покрытия для принятия решений.

Роли и управление: владельцы отвечают за точность и эффективность защитных ограждений; руководители продукта устанавливают релевантность и пороговые значения; технические команды поддерживают инфраструктуру и конвейеры данных. Делитесь авторитетными указаниями во всей организации и убедитесь, что развертывание в регионе Джерси соответствует тем же стандартам. Цель состоит в том, чтобы преобразовать текущие идеи в систематический, повторяемый процесс, который масштабирует линейку продуктов и поддерживает участие людей в контуре.

Послеинцидентная рутина: проводите структурированный обзор, систематизируйте основные причины и опубликуйте план корректирующих действий в течение 24 часов. Обновите подсказки, защитные ограждения и наборы тестов на основе результатов; повторно запустите целевые тесты для проверки улучшений. Сделайте процесс прозрачным для людей и доступным для обмена между командами; определите время обнаружения, время восстановления и критерии успеха для следующего выпуска, чтобы команда училась на каждой неудаче и уменьшала неточности в продукте.

subscribe

Будьте в курсе

Новые статьи про AI, рост и B2B-стратегию — без шума.

{# No on purpose — see apps.blog.views.newsletter_subscribe for the reasoning (anon pages must not Set-Cookie: csrftoken or the nginx edge cache skips them). Protection is via Origin/Referer in the view, not via the token. #}
$ cd .. # Все посты
X / Twitter LinkedIn

ls -la ./ai-engineering/

Похожие посты

{# Browsers pick the smallest supported format (AVIF → WebP → JPEG) AND the closest width for the layout. Cards render at ~320 px on mobile, ~400 px on tablet, ~480 px in the 3-up desktop grid; 320 / 640 / 960 cover those at 1× / 2× / 2×-large-desktop. `sizes` tells the browser the slot is roughly one-third of viewport on large screens. #} Mangools AI Search Grader Review 2026 - Проверенные в деле инсайты и показатели производительности

Mangools AI Search Grader Review 2026 - Проверенные в деле инсайты и показатели производительности

Начните с 14-дневной базовой оценки, используя поисковые запросы, чтобы установить ожидания; эта работа дает надежную основу для измерений входных данных, динамики потока…

~/ai-engineering 12 мин
{# Browsers pick the smallest supported format (AVIF → WebP → JPEG) AND the closest width for the layout. Cards render at ~320 px on mobile, ~400 px on tablet, ~480 px in the 3-up desktop grid; 320 / 640 / 960 cover those at 1× / 2× / 2×-large-desktop. `sizes` tells the browser the slot is roughly one-third of viewport on large screens. #} Эпоха Золотых Специалистов: Как AI-платформы, такие как Claude Code, создают новый класс неудержимых профессионалов

Эпоха Золотых Специалистов: Как AI-платформы, такие как Claude Code, создают новый класс неудержимых профессионалов

Конец специализации, какой мы ее зналиДесятилетиями в технологической индустрии восхваляли специалистов. Компании нанимали людей, которые делали что-то одн...

~/ai-engineering 7 мин
{# Browsers pick the smallest supported format (AVIF → WebP → JPEG) AND the closest width for the layout. Cards render at ~320 px on mobile, ~400 px on tablet, ~480 px in the 3-up desktop grid; 320 / 640 / 960 cover those at 1× / 2× / 2×-large-desktop. `sizes` tells the browser the slot is roughly one-third of viewport on large screens. #} 5 способов, которыми ИИ повлияет на поведение потребителей при покупках в 2026 году

5 способов, которыми ИИ повлияет на поведение потребителей при покупках в 2026 году

Рекомендация: Внедрите контекстные AI-сигналы в режиме реального времени во всех точках взаимодействия на сайте, в мобильных устройствах и в розничной торговле, чтобы положительно…

~/ai-engineering 12 мин