Ses Dosyası Metne Çevirme Nasıl Yapılır? Bilirkişi Transkripsiyon Rehberi

📅 9 Mayıs 2026 ⏱️ 12 dk okuma 🏷️ Ses-Yazı / Transkripsiyon

Bir saatlik bir telefon görüşmesi kaydını manuel olarak deşifre etmek 5–8 saat sürer. Aynı işi profesyonel bir ses-yazı motoru 5 dakikada tamamlar. Peki mahkemeye sunulacak bir transkripsiyon nasıl yapılır, hangi adımlardan geçer ve hukuken delil değeri taşıması için nelere dikkat edilmelidir? Bu rehberde bilirkişi, avukat ve adli bilişim uzmanları için kapsamlı bir yol haritası sunuyoruz.

📋 İçindekiler

Ses Dosyası Metne Çevirme (Transkripsiyon) Nedir?
Hukuki Çerçeve: Ses Kayıtları Mahkemede Delil Olur mu?
Bilirkişi Raporlarında Transkripsiyon İhtiyacı
Desteklenen Ses ve Video Formatları
Adım Adım Transkripsiyon Süreci
Teknik Arka Plan: STT Motorları ve Speaker Diarization
Kaliteyi Etkileyen Faktörler ve En İyi Uygulamalar
Sık Yapılan Hatalar ve Kaçınılması Gerekenler
analizlerim.com Ses-Yazı Modülü
Sıkça Sorulan Sorular
Sonuç ve Öneriler

Ses Dosyası Metne Çevirme (Transkripsiyon) Nedir?

Transkripsiyon, bir ses veya video kaydındaki konuşmaların yazılı metne dönüştürülmesi işlemidir. Adli ve hukuki süreçlerde transkripsiyon; tanık ifadelerinin, telefon görüşmelerinin, duruşma kayıtlarının, ses ve video kanıtlarının dosyaya işlenebilir biçimde sunulması için vazgeçilmez bir adımdır.

Transkripsiyon, basit bir “yazma” işi değildir. Profesyonel bir transkripsiyon raporu; konuşmacıların ayrı ayrı tanımlanması, zaman damgalarının (timecode) eklenmesi, duraksamaların ve örtüşmeli konuşmaların not edilmesi gibi unsurları içerir. Bu yönüyle transkripsiyon, mahkemede sunulduğunda olayın anlaşılmasını kolaylaştıran analitik bir delil belgesidir.

💡 Basit Tanım

Transkripsiyon = Konuşma → Yazı. Bilirkişi raporlarında ise bu süreç; konuşmacı kimliği, zaman bilgisi ve içerik bütünlüğü ile birlikte düzenlenmiş bir hukuki belgeye dönüşür.

Hukuki Çerçeve: Ses Kayıtları Mahkemede Delil Olur mu?

Türk hukuk sisteminde ses kayıtlarının delil değeri, kaydın elde edilme şekline ve sunulduğu yargılama türüne göre farklılık gösterir. Genel olarak iki temel kategoriye ayrılır:

1. Ceza Yargılamasında Ses Kaydı (CMK 135 ve 206)

Ceza Muhakemesi Kanunu’nun 135. maddesi, hâkim kararıyla yapılan iletişimin dinlenmesi ve kayda alınmasını düzenler. Bu kapsamda elde edilen ses kayıtları kanuna uygun delil niteliğindedir. Mahkemeye sunulduğunda CMK 206 kapsamında değerlendirilir; gerektiğinde bilirkişi tarafından metne dönüştürülerek dosyaya kazandırılır.

2. Hukuk Yargılamasında Ses Kaydı

HMK 189. madde uyarınca taraflar, hukuka uygun yollarla elde ettikleri her türlü delili sunabilirler. Yargıtay’ın yerleşik içtihatları, tarafın kendisinin de içinde bulunduğu bir konuşmayı kayıt altına almasının bazı koşullar altında hukuka uygun delil sayılabileceğini kabul eder (özellikle başka delil elde etme imkânının bulunmadığı, hak kaybı riskinin somut olduğu durumlarda).

⚠️ Önemli Uyarı

Tarafı olunmayan bir konuşmanın gizlice kayda alınması Türk Ceza Kanunu 132–134. maddeleri kapsamında özel hayatın gizliliğini ihlal suçu oluşturabilir. Böyle bir kayıt mahkemeye sunulsa dahi hukuka aykırı delil olarak reddedilebileceği gibi, kaydı yapan kişi hakkında ayrıca cezai sorumluluk doğurabilir. Transkripsiyon yapılmadan önce kaydın elde edilme yönteminin hukuka uygunluğu mutlaka değerlendirilmelidir.

3. Bilirkişi İncelemesi ve Otantiklik

Bir ses kaydı mahkemeye sunulduğunda iki ayrı teknik soru gündeme gelir:

İçerik nedir? → Transkripsiyon ile cevaplanır.
Kayıt orijinal midir, üzerinde oynama var mı? → Ses analizi (forensik audio authentication) ile incelenir.

Bu yazıda birinci soruya — yani içeriğin metne dönüştürülmesine — odaklanıyoruz. Otantiklik incelemesi ayrı bir uzmanlık dalı olup, mahkemenin gerekli görmesi hâlinde adli bilişim bilirkişisi tarafından ayrıca yapılır.

Bilirkişi Raporlarında Transkripsiyon İhtiyacı

Türkiye’de mahkemeler ve savcılıklar, ses ve video kayıtlarını içeren dosyalarda neredeyse her zaman bir transkripsiyon raporu talep eder. Bu raporu hazırlama görevi genellikle bilirkişiye verilir. Tipik kullanım alanları:

⚖️

Ceza Davaları

HTS dinleme kayıtları, yer dinleme (ortam dinlemesi), ifade kayıtları, suç videosu transkripsiyonu.

👨‍⚖️

Hukuk Davaları

Boşanma davalarında ses kayıtları, ticari uyuşmazlıkta görüşme kayıtları, tanık ifadeleri.

📋

Soruşturma

Savcılık ifade kayıtları, telekonferans / sanal görüşme kayıtları, üçüncü kişi tanıklığı.

🏢

İdari ve Disiplin

Disiplin soruşturmalarında çağrı merkezi kayıtları, toplantı kayıtları, etik ihlal incelemeleri.

Desteklenen Ses ve Video Formatları

Adli süreçlerde dosyaya gelen ses ve video kayıtları çok farklı kaynaklardan ve dolayısıyla farklı formatlardan oluşur. Profesyonel bir transkripsiyon sisteminin yaygın formatların tümünü desteklemesi beklenir:

Format	Kaynak	Tipik Senaryo
`.mp3` / `.wav`	Standart ses dosyaları	Telefon kaydı, dijital ses kayıt cihazı, dökümler
`.m4a` / `.aac`	iPhone / Apple cihazlar	iPhone’dan WhatsApp ses notları, sesli mesaj
`.ogg` / `.opus`	WhatsApp, Telegram	WhatsApp sesli mesaj kayıtları (delil olarak sunulan)
`.mp4` / `.mov`	Video kayıtları	Olay yeri kamera kaydı, cep telefonu video, güvenlik kamerası
`.amr` / `.3gp`	Eski cep telefonu	Adliyede sıklıkla rastlanan eski telefon kayıtları
`.wma`	Windows Media	Eski Windows tabanlı ses kayıt cihazı çıktıları
`.flac`	Yüksek kaliteli ses	Profesyonel kayıt stüdyosu / forensik orijinal kayıt

Profesyonel ses-yazı modülü, bu formatların tamamını arka planda otomatik olarak ortak bir formata dönüştürerek işler. Kullanıcının dosya formatını manuel çevirmesine gerek yoktur.

Adım Adım Transkripsiyon Süreci

Profesyonel bir transkripsiyon süreci, dosyanın yüklenmesinden Word çıktısının oluşturulmasına kadar 6 temel adımdan oluşur:

Adım 1: Dosya Yükleme ve Ön Kontrol

Ses veya video dosyası sisteme yüklenir. Sistem dosyanın formatını, süresini ve ses kalitesini otomatik olarak analiz eder. Dosya bozuk veya ses içermiyorsa kullanıcı uyarılır. Bu adım, sonraki işlemlerin sağlıklı yürümesi için kritik bir kalite kontrol noktasıdır.

Adım 2: Ses İzolasyonu ve Gürültü Azaltma

Adli kayıtlar genellikle arka plan gürültüsü, çevre sesi ve düşük kayıt kalitesi içerir. Sistem; arka plan gürültüsünü süzme, ses normalizasyonu (her konuşmacının sesinin yakın seviyeye getirilmesi) ve gerekiyorsa stereo kanal ayrıştırma uygular. Bu işlemler doğruluk oranını önemli ölçüde artırır.

Adım 3: Konuşma Algılama (Voice Activity Detection)

Kayıt içindeki sessiz bölümler, müzik, gürültü vb. konuşma olmayan kısımlar tespit edilir. Sistem yalnızca konuşma içeren bölümleri sonraki adıma aktarır. Bu hem hızı artırır hem de “boş yere” metin üretilmesini engeller.

Adım 4: Konuşmacı Ayrıştırma (Speaker Diarization)

Birden fazla kişinin konuştuğu kayıtlarda her konuşmacı ayrı ayrı etiketlenir: [K1], [K2], [K3]… Sistem her konuşmacının ses parmak izini (voice embedding) çıkartır ve kayıt boyunca aynı kişiyi takip eder. Bu özellik özellikle çok kişili görüşme kayıtlarında — örneğin bir toplantı, üçüncü kişiyle telefonla konferans veya sokak görüşmesi — kritiktir.

Adım 5: Türkçe Konuşma Tanıma (STT)

Algoritma, ayrıştırılmış ses bölümlerini Türkçeye özel eğitilmiş bir konuşma tanıma motoruyla metne dönüştürür. Türkçenin ses bilgisel ve dilbilgisel özelliklerine (sesli harfler, ünsüz benzeşmesi, bölgesel ağız farkları) duyarlı modeller kullanılır. Yabancı kelime ve teknik terim sözlüğü de sürece dahil edilir.

Adım 6: Zaman Damgalama ve Word Çıktısı

Her konuşma satırına başlangıç zamanı (HH:MM:SS) eklenir. Bu sayede rapor okuyucu mahkemenin ya da avukatın metindeki herhangi bir cümleyi orijinal kayıtta saniye hassasiyetiyle bulması mümkün olur. Final çıktı, biçimlendirilmiş bir .docx dosyası olarak indirilebilir; başlık, konuşmacı renkleri ve zaman damgaları profesyonel raporlama standardına uygun şekilde hazırlanır.

📝 Tipik Çıktı Örneği

[K1] 00:00:12 — Merhaba, Cumartesi günkü toplantıyla ilgili görüşmek istiyorum.
[K2] 00:00:18 — Tabii, ne sormak istemiştiniz?
[K1] 00:00:22 — Sözleşmeyi imzalamadan önce şartları bir daha gözden geçirmek lazım.
[K2] 00:00:29 — Anlaştık, yarın sabah ofise gelin, birlikte bakarız.

Teknik Arka Plan: STT Motorları ve Speaker Diarization

Modern transkripsiyon teknolojisi, derin öğrenme tabanlı konuşma tanıma (Speech-to-Text, STT) motorları üzerine kuruludur. Bu motorlar, milyonlarca saatlik ses-metin çifti üzerinde eğitilmiş sinir ağlarıdır. Türkçe için optimize edilmiş bir motor, genel amaçlı modellerden çok daha yüksek doğruluk oranı sağlar.

STT Motorlarında Kalite Kriterleri

Word Error Rate (WER): Yanlış kelimelerin oranı. Profesyonel sistemlerde net ses için %5–10 arasındadır.
Latency (Gecikme): Bir saatlik ses için ne kadar sürede metin üretiyor? Modern sistemlerde 3–5 dakika.
Diarization Error Rate (DER): Konuşmacı ayrıştırma hatası. İki kişilik kayıtlarda %3–7, çok kişili kayıtlarda daha yüksek.
Domain Uyumu: Hukuki terimler, mesleki jargon, yerel ağızları ne kadar iyi tanıyor?

Speaker Diarization Nasıl Çalışır?

Konuşmacı ayrıştırma; her konuşmacının sesinin akustik parmak izini çıkartmaya dayanır. Sistem, kayıttaki kısa ses parçalarını (genellikle 1–2 saniyelik segmentler) vektör uzayına yerleştirir; benzer vektörler aynı konuşmacıya ait sayılır. Modern sistemlerde bu işlem x-vector veya ECAPA-TDNN gibi sinir ağı tabanlı yöntemlerle yapılır.

🔬 Teknik Not

Konuşmacı ayrıştırma, konuşmacının kim olduğunu (Ahmet, Mehmet vb.) söylemez; yalnızca kaç farklı kişi konuştuğunu ve hangisinin ne zaman konuştuğunu belirler. Konuşmacı kimliğinin tespiti (speaker identification) ayrı bir incelemedir ve genellikle karşılaştırma örneği gerektirir.

Kaliteyi Etkileyen Faktörler ve En İyi Uygulamalar

Transkripsiyon doğruluğu, kullanılan motorun gücü kadar kayıt kalitesinin da fonksiyonudur. Adli süreçlerde kayıt koşulları çoğu zaman ideal değildir, ancak doğru hazırlık sonucu önemli ölçüde iyileştirebilir.

Doğruluğu Artıran Faktörler

Yüksek örnekleme hızı: 16 kHz ve üzeri tercih edilir (telefon kayıtları genellikle 8 kHz’dir).
Tek kanallı (mono) ama net kayıt stereo ama gürültülü kayıttan daha iyidir.
Konuşmacılar arası mesafe: Kayıt cihazına yakın konuşma daha temiz çıktı verir.
Sıkıştırılmamış format: Mümkünse WAV/FLAC; aksi hâlde yüksek bit hızlı MP3 (192 kbps+).
Arka plan gürültüsünün minimum tutulması (klima, müzik, trafik sesi).

Doğruluğu Düşüren Tipik Sorunlar

Aynı anda birden fazla kişinin konuşması (overlapping speech)
Ağır bölgesel ağız veya zayıf telaffuz
Çok kısa, kopuk cümleler (“Hı-hı”, “Yani şey…”)
Telefon hattı parazitleri, eko, yankı
Yabancı dilde geçişler (kod-karışımı: “Şimdi okay diyorum”)
Çok düşük ses seviyesi (kayıt cihazı uzakta)

💡 Pratik İpucu

Çıktı metnini kontrol ederken düşük güven puanlı (low confidence) bölümlere öncelik verin. Profesyonel sistemler her cümleye bir güven skoru atar; %70’in altındaki bölümleri mutlaka ses kaydından doğrulayın. Bu pratik, son kontrol süresini birkaç saatten 15–20 dakikaya düşürür.

Sık Yapılan Hatalar ve Kaçınılması Gerekenler

Hem manuel hem otomatik transkripsiyon süreçlerinde sıkça karşılaşılan ve mahkemede raporun güvenilirliğini sarsabilecek tipik hatalar şunlardır:

1. Otomatik Çıktıyı Kontrolsüz Sunmak

Hiçbir otomatik sistem %100 doğruluk vermez. Bilirkişi raporuna konacak metin mutlaka insan gözüyle gözden geçirilmeli, kritik bölümler ses kaydıyla karşılaştırılmalıdır. “Şüpheliyim” yerine “şüpheli yim”, “olamaz” yerine “ola maz” gibi küçük hatalar bile davanın seyrini değiştirebilir.

2. Zaman Damgası Eklemeden Rapor Hazırlamak

Mahkemenin raporu okurken her cümleyi orijinal kayda dönerek kontrol edebilmesi gerekir. Zaman damgası olmayan transkripsiyon, sadece “elimdeki ses kaydını ben böyle anladım” demekten farksızdır. Her satıra başlangıç zamanı eklemek profesyonel standarttır.

3. Konuşmacıları Birleştirmek

Birden fazla konuşmacının olduğu kayıtlarda kim ne dedi belirtilmeden hazırlanan transkripsiyon delil değerini büyük ölçüde kaybeder. K1 / K2 etiketlemesi minimum standarttır; kimliği bilinen konuşmacılar varsa başlığa not edilmelidir (Örn: “K1 = sanık Mehmet Y.”).

4. Yorum ve Çıkarım Yapmak

Transkripsiyon, konuşulan sözcüklerin yazıya geçirilmesidir. Bilirkişi yorum, çıkarım veya eksik kelime tahmini eklememelidir. Anlaşılmayan bölümler “(…)” veya “(anlaşılmıyor)” ile gösterilmelidir. Yorum gerekiyorsa raporun ayrı bir bölümünde yapılır.

5. Orijinal Dosyayı Saklamamak

Transkripsiyon raporunun ekinde mutlaka orijinal ses dosyasının hash’i (MD5 veya SHA-256) belirtilmeli ve orijinal dosya saklanmalıdır. Bu sayede ileride dosyada değişiklik yapılıp yapılmadığı denetlenebilir; raporun bütünlüğü korunur.

⚠️ Sıkça Yapılan Kritik Hata

Bazı bilirkişiler raporda “argo / küfür” gibi ifadeleri sansürlemek amacıyla “…” veya “***” işareti ile geçiştirir. Bu, ceza yargılamasında tehdit, hakaret, şantaj gibi suçların unsurları açısından kritik kelimeleri raporda görünmez kılabilir. Hukuken doğru yaklaşım, kelimeleri olduğu gibi yazmaktır; raporun başında bir not ile bu durumu açıklamak yeterlidir.

analizlerim.com Ses-Yazı Modülü

analizlerim.com İletişim Analiz Sistemi (İAS), bilirkişiler ve hukuk profesyonelleri için tasarlanmış bir Ses ve Video Dosyalarını Metne Çevirme modülü içerir. Modül, yukarıda anlatılan tüm süreçleri tek bir akışta otomatize eder.

Modülün Temel Özellikleri

🇹🇷

Türkçeye Özel Motor

Türkçe sesli harf yapısı, ünsüz benzeşmesi ve hukuki terminoloji için optimize edilmiş.

👥

Konuşmacı Ayrıştırma

Birden fazla konuşmacıyı otomatik ayrıştırır, [K1]/[K2] etiketleriyle işaretler.

⏱️

Zaman Damgaları

Her satır için saniye hassasiyetinde başlangıç zamanı, mahkeme kontrolüne uygun.

📄

Word Çıktısı

Profesyonel formatlı .docx çıktı, doğrudan bilirkişi raporuna eklenebilir.

🎬

Tüm Formatlar

MP3, WAV, M4A, OGG, MP4, MOV, AMR ve daha fazlası — manuel dönüştürmeye gerek yok.

🔒

Veri Güvenliği

İşlem sonrası dosyalar otomatik silinir; KVKK uyumlu altyapı, üçüncü taraf paylaşımı yok.

İlgili Modül: Ses ve Video Dosyalarınızı Metne Çevirme Mahkeme ve savcılık dosyalarındaki ses ve video kayıtlarını saatler değil dakikalar içinde profesyonel metne dönüştürün — Türkçeye özel eğitilmiş motor, konuşmacı ayırma desteği ve Word çıktısı.

Ses Kayıtlarınızı Dakikalar İçinde Metne Çevirin

Hediye kontörle analizlerim.com’i deneyin. Aboneliksiz, taahhütsüz başlayın. T.C. Kültür Bakanlığı tarafından tescilli yazılım.

Ücretsiz Hesap Aç →

Sıkça Sorulan Sorular

Bir saatlik ses kaydının metne çevrilmesi ne kadar sürer?

Profesyonel bir ses-yazı motorunda 3–7 dakika arasındadır; ses kalitesine ve sunucu yüküne göre değişir. Manuel transkripsiyonda ise tecrübeli bir kişi için bile 5–8 saat bulur. Otomatik sistem zamandan ortalama 50 kat tasarruf sağlar.

WhatsApp ses notları metne dönüştürülebilir mi?

Evet. WhatsApp ses notları genellikle .opus veya .ogg formatındadır; analizlerim.com bu formatları doğrudan kabul eder. WhatsApp’tan dosyayı indirin (uzun basıp “Dışa Aktar” seçeneğiyle) ve sisteme yükleyin. Mahkemeye sunulacaksa orijinal dosyanın hash’inin raporda belirtilmesi tavsiye edilir.

Konuşmacı kimliğini sistem otomatik tespit eder mi?

Sistem konuşmacıların kim olduğunu bilmez; yalnızca kaç farklı konuşmacı olduğunu ve her birinin hangi anlarda konuştuğunu belirler ([K1], [K2] gibi). Kimliğin tespiti için konuşmacının başka bir kayıttaki sesi ile karşılaştırma yapılması gerekir; bu ayrı bir ses tanıma incelemesidir.

Çıktı metnindeki hatalar nasıl düzeltilir?

Çıktı bir .docx dosyası olduğu için Word veya benzeri bir kelime işlemcide doğrudan düzenlenebilir. Sistem ayrıca her satıra güven skoru atar; düşük skorlu satırları kontrol etmek pratik bir kalite güvence yöntemidir. Düzeltme sonrası nihai metin bilirkişi raporuna eklenir.

Yabancı dilde ses kayıtları desteklenir mi?

analizlerim.com Ses-Yazı modülü öncelikle Türkçe için optimize edilmiştir. Türkçe içine serpiştirilmiş yabancı kelime ve ifadeler genellikle doğru tanınır; ancak tamamen yabancı dilde uzun bir kaydın transkripsiyonunda doğruluk düşebilir. Tamamen yabancı dilde kayıtlar için ayrı bir uzman tercüman / bilirkişi tavsiye edilir.

Bilirkişi raporunda transkripsiyon nasıl referans gösterilir?

Raporun ekinde transkripsiyon dosyasıyla birlikte (1) orijinal ses dosyasının hash değeri, (2) kullanılan transkripsiyon yönteminin adı ve sürümü, (3) konuşmacı etiketlemesinin nasıl yapıldığı belirtilmelidir. Bu üç bilgi, raporun denetlenebilirliği için minimum standarttır.

Gizli kaydedilen bir ses metne dönüştürülebilir mi?

Teknik olarak evet, ancak hukuka uygunluk ayrı bir sorudur. Tarafı olunmayan bir konuşmanın gizli kaydı TCK 132–134 kapsamında suç oluşturabilir; mahkeme böyle bir kaydı hukuka aykırı delil olarak reddedebilir. Transkripsiyon yapılmadan önce kaydın elde ediliş yöntemi mutlaka avukatınızla değerlendirilmelidir.

Sonuç ve Öneriler

Ses ve video kayıtlarının metne dönüştürülmesi, modern hukuk uygulamasının vazgeçilmez bir parçası hâline gelmiştir. Telefon kayıtları, ortam dinlemeleri, sokak görüşmeleri, sanal toplantı kayıtları — hepsi mahkemede değerlendirilebilmek için önce okunabilir bir metne dönüşmek durumundadır.

Profesyonel bir transkripsiyon süreci; doğru format desteği, konuşmacı ayrıştırma, zaman damgalama ve insan kontrolü üzerine kuruludur. Otomatik araçlar bu sürecin %95’ini bilirkişiden devralır; ancak son %5 — yani kritik bölümlerin doğrulanması ve raporun yargılama diline uyarlanması — hâlâ uzmanın işidir.

Bilirkişiler, avukatlar, hâkim ve savcılar ile adli bilişim uzmanları için ses-yazı teknolojisini tanımak ve doğru kullanmak; davalardaki delillerin etkin biçimde değerlendirilmesi açısından artık bir tercih değil, mesleki gereklilik hâline gelmiştir.

Sonraki yazılarımızda ses kaydı otantiklik analizi (forensik audio authentication), konuşmacı kimlik tespiti ve video görüntü analizinde transkripsiyonun yeri gibi spesifik konuları detaylıca inceleyeceğiz.

Bu yazı, analizlerim.com editör ekibi tarafından hazırlanmıştır. İçerik, bilgilendirme amaçlıdır; hukuki danışmanlık niteliği taşımaz. Spesifik bir hukuki sorunla ilgili olarak avukatınıza danışmanız önerilir. Son güncelleme: 9 Mayıs 2026.