18+

Алина Саратова

©  SmartBabr

Наука и технологии, Интернет и ИТ Мир

4193

30.05.2017, 13:54

Там, где машинный интеллект бессилен. Как работают «расшифровщики аудиозаписей»

Машинный интеллект может многое, но не всё. Одна из неподдающихся автоматизации задач — перевод сложных аудиозаписей в текст. Эту работу сегодня поручают фрилансерам и на первый взгляд она кажется лёгкой. Обозреватель SmartBabr рассказывает, каково это — быть «расшифровщиком аудиозаписей», и какие технологии все-таки могут в этом деле пригодиться.


У меня есть любимая работа, которая меня полностью удовлетворяет. Но, как известно, денег много не бывает – и со мной согласятся все, кто ищет дополнительный заработок. Именно поэтому так популярны все эти инфобизнесы, и, наверное, именно это является причиной распространенности и процветания всяких «работ», где нужно отправить предварительно некую сумму «на материалы» или «на документы». Покопавшись на бирже фриланса и пообщавшись с подругами, я наткнулась на вакансию расшифровщика аудиозаписей.

Эту вакансию размещают те, кто занимается социологическими исследованиями. У них есть такая штука, как «фокус-группа», когда собирается несколько человек по определенным параметрам, и проводится беседа на определенную, опять же, тему. Беседа записывается на диктофон, и вот эти-то записи и требуют так называемой расшифровки.

Доверить столь тонкую работу машинам не получается, как бы они не были умны

Причина проста: в самых обычных компьютерах не используются технологии, которые могут распознавать голоса. Машина переводит аудио в текст сплошным потоком, и потом этот поток требуется расшифровывать заново: программа не различает мужские и женские голоса, не может назвать имена и возраст, и не соображает, где вопрос, а где восклицание.

И тут мне, что называется, подфартило. Одна очень хорошая женщина предложила попробовать свои силы в расшифровке бесед. При этом она предлагала в четыре раза больше, чем платят за это дело на биржах. Ну кто от такого откажется? Тем более, имея опыт перевода диктофонных интервью (не своих).

— А тут что делать-то? — думала я. — Сиди себе, наушники в уши, да строчи — дословно же надо, никакой обработки. Ну или почти никакой…

И я согласилась.

После первой расшифровки у меня дрожали руки. После второй начал дергаться глаз. После третьей, кое-как поднявшись от компьютера и разогнув скрюченные пальцы, я поняла, что за последние трое суток я спала три часа, я не помню, как выглядит мой ребенок, а еще не знаю, когда я ела, когда причесывалась и как меня зовут. Я позвонила заказчице и попросила освободить меня от такого «удовольствия».

Эту работу могут делать те, у кого нет семьи, нет другой работы, хорошая память и высочайшая скорость набора текста

Для тех, кто усмехается: «Вот я-то, в отличии от тебя, все смогу и уж такую возможность не упущу!», кратко о работе. Дается аудиофайл, который нужно перевести в текстовый документ дословно. На файле беседа, не менее 8 человек, и очень плотная — никто не задумывается, все говорят по делу. Требуемым шрифтом требуемого размера полуторачасовая беседа занимает не менее 30 страниц. И целый список требований к оформлению: после набора я расставляла скобки, выделяла курсивом и полужирным шрифтом и ставила комментарии к репликам в одном тексте еще 4 часа.

Отказавшись от дальнейшего самоистязания, я проспала 15 часов. А потом, уже приняв ванну и вкусив чашечку чаю (от кофе, думаю, меня еще долго будет тошнить), подумала:

А вдруг меня спасли бы средства голосового набора?

Я бы перевела ручкой на бумажку, с указанием персонажей и выделением вопросов и восклицаний, с выведением эмоций и так далее, а потом аккуратно и вдумчиво, как учитель диктант для только научившихся писать первоклашек, прочитала бы это все в микрофон, а компьютер сам за меня набрал это? Может, так было бы проще и легче? И я полезла искать, пробовать, анализировать и сравнивать программы для голосового набора. Конечно, мне они уже не так уж и нужны — но пригодятся тем, кто пишет дипломы, статьи, лекции и так далее.

Компания Google, которая занимает лидирующие позиции в области машинного обучения и искусственного интеллекта, предлагает сразу несколько приложений для своего браузера. Установив эти приложения и помощники, вы получите тот самый инструмент для набора текстов посредством чтения его в микрофон.

Первое из них – голосовой блокнот. Это бесплатное приложение. Оно есть как в интернет-магазине браузера, так и на конкретном сайте .

Голосовой блокнот может проводить транскрибацию, но потоком. А когда надиктовываешь ему текст, нужно называть словами знаки препинания. Буквально как в том анекдоте:

«Кто там знак вопроса это мы запятая Вася и Петя запятая твои друзья точка»

При очень медленном чтении с выделением голоса блокнот может и сам поставить знаки препинания, но перед тем как брать файл и использовать его нужно проверить: а правильно ли он вас понял.

Второе приложение – это Войснот II . Он работает точно так же, как блокнот, но имеет несколько другой интерфейс и кому-то покажется более удобным.

Сервис Август предлагает не только голосовой блокнот, но ряд других услуг, которые являются платными. А вот запись текста голосом в нем доступна только для браузера Google Chrome. Голосовой помощник сервиса бесплатен и распознает русский, украинский, английский, немецкий, французский и итальянский языки.

Следующий сервис TalkTyper – бесплатный, и удобен тем, что имеет голосовые подсказки и возможности просмотра вариантов распознавания. Также в сервисе есть удобный редактор, с помощью которого довольно просто скопировать полученный текст или сразу с сайта распечатать его на принтере. Также ваш материал с помощью TalkTyper можно сразу перевести, скажем, на английский или французский. Если честно, иностранными владею на уровне «здороваюсь со словарем», поэтому именно эту функцию проверить не смогла. А так – сойдет. Очень удобно, что слова, которые программа не смогла распознать точно, подсвечиваются, и при нажатии на них можно выбрать другие варианты.

Есть программы, которые требуют установки, самые известные – Voco и MSpeech. Первая – платная, ее стоимость от 1690 рублей. Вторая — бесплатная. Voco не только печатает на компьютере и устанавливает знаки препинания, но и умеет транскрибировать аудио (потоком). MSpeech может распознавать голос на 50 языках и имеет горячие клавиши. Можно самому выбирать источник звука, корректировать распознанный текст.

Для всех программ и приложений требуется браузер Google Chrome, практически абсолютная тишина в комнате и очень чувствительный микрофон. Также желательна хорошая дикция – чтобы не пришлось потом много править в готовом документе. Также практически весь софт недостаточно хорошо распознает отдельные слова и приходится четко их проговаривать, а это снижает скорость появления текста.

В принципе, попробовать можно.

Читайте также:

Работа в интернете на дому и без вложений: что скрывается за заманчивыми предложениями

Алина Саратова

©  SmartBabr

Наука и технологии, Интернет и ИТ Мир

4193

30.05.2017, 13:54

URL: https://m.babr24.com/?IDE=272319

Bytes: 7734 / 6789

Скачать PDF

Поделиться в соцсетях:

Также читайте эксклюзивную информацию в соцсетях:
- Телеграм
- ВКонтакте

Связаться с редакцией Бабра:
newsbabr@gmail.com

Другие статьи и новости в рубрике "Наука и технологии"

Археологическая сенсация: в красноярском угольном разрезе нашли орудия труда возрастом 100 тысяч лет

В Балахтинско-Новоселовском округе Красноярского края археологи совершили открытие, способное изменить научные представления о заселении Сибири.

Учёные ТГУ – о новых спектральных сенсорах и выбросах парниковых газов

Учёные ТГУ разработали для одной из самых современных установок в мире уникальные спектральные сенсоры на основе арсенида галлия, компенсированного ...

Автор: Андрей Тихонов.

Источник: Babr24.com.

Наука и технологии, Экология

Томск

5664

05.03.2026

Древние строители в Хакасии использовали священные камни как обычный кирпич

Археологи Института истории материальной культуры РАН нашли в курганах Аскизского района Хакасии каменные плиты с древними рисунками.

Первая путеводная звезда Байкала: итоги викторины Бабра

Запуск паромной переправы через Байкал стал точкой перезагрузки всего побережья.

Автор: Есения Линней.

Источник: Babr24.com.

Наука и технологии, История

Бурятия, Байкал, Иркутск

2605

28.02.2026

20 лет исследований: красноярский краевед пересчитал все скалы на Столбах

Красноярский краевед Владимир Матвеев подсчитал точное количество скал на территории национального парка «Красноярские Столбы».

В Красноярске продемонстрировали технологии рыболовства каменного века

Красноярские археологи продемонстрировали уникальную музейную коллекцию древних рыболовных снастей.

Учёные ТГУ: фильтр от микропластика и повышающий износостойкость техники материал

Учёные ТГУ давно занимаются изучением проблемы загрязнения водоёмов и почвы синтетическими волокнами.

Автор: Андрей Тихонов.

Источник: Babr24.com.

Наука и технологии, Экология

Томск

12206

18.02.2026

Учёные из России и Монголии собирают экспедицию для оценки рисков строительства ГЭС «Эгийн-Гол»

В Институте систем энергетики имени Л. А.

Глубоководные чудовища Байкала: итоги викторины Бабра

Эта обширная группа ракообразных в озере обитает как в толще воды, так и на дне озера.

Автор: Есения Линней.

Источник: Babr24.com.

Наука и технологии, Экология

Байкал, Бурятия, Иркутск

12653

16.02.2026

Археологи выяснили, кто жил на месте будущей станции метротрама в Красноярске: это были педагоги-офицеры

Красноярские археологи завершили раскопки на месте будущей станции метротрам «Центральный парк».

В Новосибирске планируют объединить два института СО РАН

В Новосибирске планируют объединить Институт теплофизики и Институт гидродинамики СО РАН. Об этом сообщили в пресс-службе регионального правительства.

Где в Байкале скапливается микропластик и что обнаружили учёные

Байкал привыкли называть чистым и почти нетронутым.

Автор: Анна Моль.

Источник: Babr24.com.

Наука и технологии, Экология

Иркутск, Байкал, Томск

14129

12.02.2026