Ses Dosyası Metne Çevirme Nasıl Yapılır? Bilirkişi Transkripsiyon Rehberi
Bir saatlik bir telefon görüşmesi kaydını manuel olarak deşifre etmek 5–8 saat sürer. Aynı işi profesyonel bir ses-yazı motoru 5 dakikada tamamlar. Peki mahkemeye sunulacak bir transkripsiyon nasıl yapılır, hangi adımlardan geçer ve hukuken delil değeri taşıması için nelere dikkat edilmelidir? Bu rehberde bilirkişi, avukat ve adli bilişim uzmanları için kapsamlı bir yol haritası sunuyoruz.
- Ses Dosyası Metne Çevirme (Transkripsiyon) Nedir?
- Hukuki Çerçeve: Ses Kayıtları Mahkemede Delil Olur mu?
- Bilirkişi Raporlarında Transkripsiyon İhtiyacı
- Desteklenen Ses ve Video Formatları
- Adım Adım Transkripsiyon Süreci
- Teknik Arka Plan: STT Motorları ve Speaker Diarization
- Kaliteyi Etkileyen Faktörler ve En İyi Uygulamalar
- Sık Yapılan Hatalar ve Kaçınılması Gerekenler
- analizlerim.com Ses-Yazı Modülü
- Sıkça Sorulan Sorular
- Sonuç ve Öneriler
Ses Dosyası Metne Çevirme (Transkripsiyon) Nedir?
Transkripsiyon, bir ses veya video kaydındaki konuşmaların yazılı metne dönüştürülmesi işlemidir. Adli ve hukuki süreçlerde transkripsiyon; tanık ifadelerinin, telefon görüşmelerinin, duruşma kayıtlarının, ses ve video kanıtlarının dosyaya işlenebilir biçimde sunulması için vazgeçilmez bir adımdır.
Transkripsiyon, basit bir “yazma” işi değildir. Profesyonel bir transkripsiyon raporu; konuşmacıların ayrı ayrı tanımlanması, zaman damgalarının (timecode) eklenmesi, duraksamaların ve örtüşmeli konuşmaların not edilmesi gibi unsurları içerir. Bu yönüyle transkripsiyon, mahkemede sunulduğunda olayın anlaşılmasını kolaylaştıran analitik bir delil belgesidir.
Transkripsiyon = Konuşma → Yazı. Bilirkişi raporlarında ise bu süreç; konuşmacı kimliği, zaman bilgisi ve içerik bütünlüğü ile birlikte düzenlenmiş bir hukuki belgeye dönüşür.
Hukuki Çerçeve: Ses Kayıtları Mahkemede Delil Olur mu?
Türk hukuk sisteminde ses kayıtlarının delil değeri, kaydın elde edilme şekline ve sunulduğu yargılama türüne göre farklılık gösterir. Genel olarak iki temel kategoriye ayrılır:
1. Ceza Yargılamasında Ses Kaydı (CMK 135 ve 206)
Ceza Muhakemesi Kanunu’nun 135. maddesi, hâkim kararıyla yapılan iletişimin dinlenmesi ve kayda alınmasını düzenler. Bu kapsamda elde edilen ses kayıtları kanuna uygun delil niteliğindedir. Mahkemeye sunulduğunda CMK 206 kapsamında değerlendirilir; gerektiğinde bilirkişi tarafından metne dönüştürülerek dosyaya kazandırılır.
2. Hukuk Yargılamasında Ses Kaydı
HMK 189. madde uyarınca taraflar, hukuka uygun yollarla elde ettikleri her türlü delili sunabilirler. Yargıtay’ın yerleşik içtihatları, tarafın kendisinin de içinde bulunduğu bir konuşmayı kayıt altına almasının bazı koşullar altında hukuka uygun delil sayılabileceğini kabul eder (özellikle başka delil elde etme imkânının bulunmadığı, hak kaybı riskinin somut olduğu durumlarda).
Tarafı olunmayan bir konuşmanın gizlice kayda alınması Türk Ceza Kanunu 132–134. maddeleri kapsamında özel hayatın gizliliğini ihlal suçu oluşturabilir. Böyle bir kayıt mahkemeye sunulsa dahi hukuka aykırı delil olarak reddedilebileceği gibi, kaydı yapan kişi hakkında ayrıca cezai sorumluluk doğurabilir. Transkripsiyon yapılmadan önce kaydın elde edilme yönteminin hukuka uygunluğu mutlaka değerlendirilmelidir.
3. Bilirkişi İncelemesi ve Otantiklik
Bir ses kaydı mahkemeye sunulduğunda iki ayrı teknik soru gündeme gelir:
- İçerik nedir? → Transkripsiyon ile cevaplanır.
- Kayıt orijinal midir, üzerinde oynama var mı? → Ses analizi (forensik audio authentication) ile incelenir.
Bu yazıda birinci soruya — yani içeriğin metne dönüştürülmesine — odaklanıyoruz. Otantiklik incelemesi ayrı bir uzmanlık dalı olup, mahkemenin gerekli görmesi hâlinde adli bilişim bilirkişisi tarafından ayrıca yapılır.
Bilirkişi Raporlarında Transkripsiyon İhtiyacı
Türkiye’de mahkemeler ve savcılıklar, ses ve video kayıtlarını içeren dosyalarda neredeyse her zaman bir transkripsiyon raporu talep eder. Bu raporu hazırlama görevi genellikle bilirkişiye verilir. Tipik kullanım alanları:
HTS dinleme kayıtları, yer dinleme (ortam dinlemesi), ifade kayıtları, suç videosu transkripsiyonu.
Boşanma davalarında ses kayıtları, ticari uyuşmazlıkta görüşme kayıtları, tanık ifadeleri.
Savcılık ifade kayıtları, telekonferans / sanal görüşme kayıtları, üçüncü kişi tanıklığı.
Disiplin soruşturmalarında çağrı merkezi kayıtları, toplantı kayıtları, etik ihlal incelemeleri.
Desteklenen Ses ve Video Formatları
Adli süreçlerde dosyaya gelen ses ve video kayıtları çok farklı kaynaklardan ve dolayısıyla farklı formatlardan oluşur. Profesyonel bir transkripsiyon sisteminin yaygın formatların tümünü desteklemesi beklenir:
| Format | Kaynak | Tipik Senaryo |
|---|---|---|
.mp3 / .wav |
Standart ses dosyaları | Telefon kaydı, dijital ses kayıt cihazı, dökümler |
.m4a / .aac |
iPhone / Apple cihazlar | iPhone’dan WhatsApp ses notları, sesli mesaj |
.ogg / .opus |
WhatsApp, Telegram | WhatsApp sesli mesaj kayıtları (delil olarak sunulan) |
.mp4 / .mov |
Video kayıtları | Olay yeri kamera kaydı, cep telefonu video, güvenlik kamerası |
.amr / .3gp |
Eski cep telefonu | Adliyede sıklıkla rastlanan eski telefon kayıtları |
.wma |
Windows Media | Eski Windows tabanlı ses kayıt cihazı çıktıları |
.flac |
Yüksek kaliteli ses | Profesyonel kayıt stüdyosu / forensik orijinal kayıt |
Profesyonel ses-yazı modülü, bu formatların tamamını arka planda otomatik olarak ortak bir formata dönüştürerek işler. Kullanıcının dosya formatını manuel çevirmesine gerek yoktur.
Adım Adım Transkripsiyon Süreci
Profesyonel bir transkripsiyon süreci, dosyanın yüklenmesinden Word çıktısının oluşturulmasına kadar 6 temel adımdan oluşur:
Adım 1: Dosya Yükleme ve Ön Kontrol
Ses veya video dosyası sisteme yüklenir. Sistem dosyanın formatını, süresini ve ses kalitesini otomatik olarak analiz eder. Dosya bozuk veya ses içermiyorsa kullanıcı uyarılır. Bu adım, sonraki işlemlerin sağlıklı yürümesi için kritik bir kalite kontrol noktasıdır.
Adım 2: Ses İzolasyonu ve Gürültü Azaltma
Adli kayıtlar genellikle arka plan gürültüsü, çevre sesi ve düşük kayıt kalitesi içerir. Sistem; arka plan gürültüsünü süzme, ses normalizasyonu (her konuşmacının sesinin yakın seviyeye getirilmesi) ve gerekiyorsa stereo kanal ayrıştırma uygular. Bu işlemler doğruluk oranını önemli ölçüde artırır.
Adım 3: Konuşma Algılama (Voice Activity Detection)
Kayıt içindeki sessiz bölümler, müzik, gürültü vb. konuşma olmayan kısımlar tespit edilir. Sistem yalnızca konuşma içeren bölümleri sonraki adıma aktarır. Bu hem hızı artırır hem de “boş yere” metin üretilmesini engeller.
Adım 4: Konuşmacı Ayrıştırma (Speaker Diarization)
Birden fazla kişinin konuştuğu kayıtlarda her konuşmacı ayrı ayrı etiketlenir: [K1],
[K2], [K3]… Sistem her konuşmacının ses parmak izini (voice embedding)
çıkartır ve kayıt boyunca aynı kişiyi takip eder. Bu özellik özellikle çok kişili görüşme
kayıtlarında — örneğin bir toplantı, üçüncü kişiyle telefonla konferans veya sokak görüşmesi —
kritiktir.
Adım 5: Türkçe Konuşma Tanıma (STT)
Algoritma, ayrıştırılmış ses bölümlerini Türkçeye özel eğitilmiş bir konuşma tanıma motoruyla metne dönüştürür. Türkçenin ses bilgisel ve dilbilgisel özelliklerine (sesli harfler, ünsüz benzeşmesi, bölgesel ağız farkları) duyarlı modeller kullanılır. Yabancı kelime ve teknik terim sözlüğü de sürece dahil edilir.
Adım 6: Zaman Damgalama ve Word Çıktısı
Her konuşma satırına başlangıç zamanı (HH:MM:SS) eklenir. Bu sayede
rapor okuyucu mahkemenin ya da avukatın metindeki herhangi bir cümleyi orijinal kayıtta saniye
hassasiyetiyle bulması mümkün olur. Final çıktı, biçimlendirilmiş bir .docx dosyası
olarak indirilebilir; başlık, konuşmacı renkleri ve zaman damgaları profesyonel raporlama
standardına uygun şekilde hazırlanır.
[K1] 00:00:12 — Merhaba, Cumartesi günkü toplantıyla ilgili görüşmek istiyorum.
[K2] 00:00:18 — Tabii, ne sormak istemiştiniz?
[K1] 00:00:22 — Sözleşmeyi imzalamadan önce şartları bir daha gözden geçirmek lazım.
[K2] 00:00:29 — Anlaştık, yarın sabah ofise gelin, birlikte bakarız.
Teknik Arka Plan: STT Motorları ve Speaker Diarization
Modern transkripsiyon teknolojisi, derin öğrenme tabanlı konuşma tanıma (Speech-to-Text, STT) motorları üzerine kuruludur. Bu motorlar, milyonlarca saatlik ses-metin çifti üzerinde eğitilmiş sinir ağlarıdır. Türkçe için optimize edilmiş bir motor, genel amaçlı modellerden çok daha yüksek doğruluk oranı sağlar.
STT Motorlarında Kalite Kriterleri
- Word Error Rate (WER): Yanlış kelimelerin oranı. Profesyonel sistemlerde net ses için %5–10 arasındadır.
- Latency (Gecikme): Bir saatlik ses için ne kadar sürede metin üretiyor? Modern sistemlerde 3–5 dakika.
- Diarization Error Rate (DER): Konuşmacı ayrıştırma hatası. İki kişilik kayıtlarda %3–7, çok kişili kayıtlarda daha yüksek.
- Domain Uyumu: Hukuki terimler, mesleki jargon, yerel ağızları ne kadar iyi tanıyor?
Speaker Diarization Nasıl Çalışır?
Konuşmacı ayrıştırma; her konuşmacının sesinin akustik parmak izini çıkartmaya dayanır. Sistem, kayıttaki kısa ses parçalarını (genellikle 1–2 saniyelik segmentler) vektör uzayına yerleştirir; benzer vektörler aynı konuşmacıya ait sayılır. Modern sistemlerde bu işlem x-vector veya ECAPA-TDNN gibi sinir ağı tabanlı yöntemlerle yapılır.
Konuşmacı ayrıştırma, konuşmacının kim olduğunu (Ahmet, Mehmet vb.) söylemez; yalnızca kaç farklı kişi konuştuğunu ve hangisinin ne zaman konuştuğunu belirler. Konuşmacı kimliğinin tespiti (speaker identification) ayrı bir incelemedir ve genellikle karşılaştırma örneği gerektirir.
Kaliteyi Etkileyen Faktörler ve En İyi Uygulamalar
Transkripsiyon doğruluğu, kullanılan motorun gücü kadar kayıt kalitesinin da fonksiyonudur. Adli süreçlerde kayıt koşulları çoğu zaman ideal değildir, ancak doğru hazırlık sonucu önemli ölçüde iyileştirebilir.
Doğruluğu Artıran Faktörler
- Yüksek örnekleme hızı: 16 kHz ve üzeri tercih edilir (telefon kayıtları genellikle 8 kHz’dir).
- Tek kanallı (mono) ama net kayıt stereo ama gürültülü kayıttan daha iyidir.
- Konuşmacılar arası mesafe: Kayıt cihazına yakın konuşma daha temiz çıktı verir.
- Sıkıştırılmamış format: Mümkünse WAV/FLAC; aksi hâlde yüksek bit hızlı MP3 (192 kbps+).
- Arka plan gürültüsünün minimum tutulması (klima, müzik, trafik sesi).
Doğruluğu Düşüren Tipik Sorunlar
- Aynı anda birden fazla kişinin konuşması (overlapping speech)
- Ağır bölgesel ağız veya zayıf telaffuz
- Çok kısa, kopuk cümleler (“Hı-hı”, “Yani şey…”)
- Telefon hattı parazitleri, eko, yankı
- Yabancı dilde geçişler (kod-karışımı: “Şimdi okay diyorum”)
- Çok düşük ses seviyesi (kayıt cihazı uzakta)
Çıktı metnini kontrol ederken düşük güven puanlı (low confidence) bölümlere öncelik verin. Profesyonel sistemler her cümleye bir güven skoru atar; %70’in altındaki bölümleri mutlaka ses kaydından doğrulayın. Bu pratik, son kontrol süresini birkaç saatten 15–20 dakikaya düşürür.
Sık Yapılan Hatalar ve Kaçınılması Gerekenler
Hem manuel hem otomatik transkripsiyon süreçlerinde sıkça karşılaşılan ve mahkemede raporun güvenilirliğini sarsabilecek tipik hatalar şunlardır:
1. Otomatik Çıktıyı Kontrolsüz Sunmak
Hiçbir otomatik sistem %100 doğruluk vermez. Bilirkişi raporuna konacak metin mutlaka insan gözüyle gözden geçirilmeli, kritik bölümler ses kaydıyla karşılaştırılmalıdır. “Şüpheliyim” yerine “şüpheli yim”, “olamaz” yerine “ola maz” gibi küçük hatalar bile davanın seyrini değiştirebilir.
2. Zaman Damgası Eklemeden Rapor Hazırlamak
Mahkemenin raporu okurken her cümleyi orijinal kayda dönerek kontrol edebilmesi gerekir. Zaman damgası olmayan transkripsiyon, sadece “elimdeki ses kaydını ben böyle anladım” demekten farksızdır. Her satıra başlangıç zamanı eklemek profesyonel standarttır.
3. Konuşmacıları Birleştirmek
Birden fazla konuşmacının olduğu kayıtlarda kim ne dedi belirtilmeden hazırlanan transkripsiyon delil değerini büyük ölçüde kaybeder. K1 / K2 etiketlemesi minimum standarttır; kimliği bilinen konuşmacılar varsa başlığa not edilmelidir (Örn: “K1 = sanık Mehmet Y.”).
4. Yorum ve Çıkarım Yapmak
Transkripsiyon, konuşulan sözcüklerin yazıya geçirilmesidir. Bilirkişi yorum, çıkarım veya eksik kelime tahmini eklememelidir. Anlaşılmayan bölümler “(…)” veya “(anlaşılmıyor)” ile gösterilmelidir. Yorum gerekiyorsa raporun ayrı bir bölümünde yapılır.
5. Orijinal Dosyayı Saklamamak
Transkripsiyon raporunun ekinde mutlaka orijinal ses dosyasının hash’i (MD5 veya SHA-256) belirtilmeli ve orijinal dosya saklanmalıdır. Bu sayede ileride dosyada değişiklik yapılıp yapılmadığı denetlenebilir; raporun bütünlüğü korunur.
Bazı bilirkişiler raporda “argo / küfür” gibi ifadeleri sansürlemek amacıyla “…” veya “***” işareti ile geçiştirir. Bu, ceza yargılamasında tehdit, hakaret, şantaj gibi suçların unsurları açısından kritik kelimeleri raporda görünmez kılabilir. Hukuken doğru yaklaşım, kelimeleri olduğu gibi yazmaktır; raporun başında bir not ile bu durumu açıklamak yeterlidir.
analizlerim.com Ses-Yazı Modülü
analizlerim.com İletişim Analiz Sistemi (İAS), bilirkişiler ve hukuk profesyonelleri için tasarlanmış bir Ses ve Video Dosyalarını Metne Çevirme modülü içerir. Modül, yukarıda anlatılan tüm süreçleri tek bir akışta otomatize eder.
Modülün Temel Özellikleri
Türkçe sesli harf yapısı, ünsüz benzeşmesi ve hukuki terminoloji için optimize edilmiş.
Birden fazla konuşmacıyı otomatik ayrıştırır, [K1]/[K2] etiketleriyle işaretler.
Her satır için saniye hassasiyetinde başlangıç zamanı, mahkeme kontrolüne uygun.
Profesyonel formatlı .docx çıktı, doğrudan bilirkişi raporuna eklenebilir.
MP3, WAV, M4A, OGG, MP4, MOV, AMR ve daha fazlası — manuel dönüştürmeye gerek yok.
İşlem sonrası dosyalar otomatik silinir; KVKK uyumlu altyapı, üçüncü taraf paylaşımı yok.
Ses Kayıtlarınızı Dakikalar İçinde Metne Çevirin
Hediye kontörle analizlerim.com’i deneyin. Aboneliksiz, taahhütsüz başlayın. T.C. Kültür Bakanlığı tarafından tescilli yazılım.
Ücretsiz Hesap Aç →Sıkça Sorulan Sorular
Bir saatlik ses kaydının metne çevrilmesi ne kadar sürer?
Profesyonel bir ses-yazı motorunda 3–7 dakika arasındadır; ses kalitesine ve sunucu yüküne göre değişir. Manuel transkripsiyonda ise tecrübeli bir kişi için bile 5–8 saat bulur. Otomatik sistem zamandan ortalama 50 kat tasarruf sağlar.
WhatsApp ses notları metne dönüştürülebilir mi?
Evet. WhatsApp ses notları genellikle .opus veya .ogg formatındadır;
analizlerim.com bu formatları doğrudan kabul eder. WhatsApp’tan dosyayı indirin (uzun basıp
“Dışa Aktar” seçeneğiyle) ve sisteme yükleyin. Mahkemeye sunulacaksa orijinal dosyanın hash’inin
raporda belirtilmesi tavsiye edilir.
Konuşmacı kimliğini sistem otomatik tespit eder mi?
Sistem konuşmacıların kim olduğunu bilmez; yalnızca kaç farklı konuşmacı olduğunu ve her birinin hangi anlarda konuştuğunu belirler ([K1], [K2] gibi). Kimliğin tespiti için konuşmacının başka bir kayıttaki sesi ile karşılaştırma yapılması gerekir; bu ayrı bir ses tanıma incelemesidir.
Çıktı metnindeki hatalar nasıl düzeltilir?
Çıktı bir .docx dosyası olduğu için Word veya benzeri bir kelime işlemcide doğrudan
düzenlenebilir. Sistem ayrıca her satıra güven skoru atar; düşük skorlu satırları
kontrol etmek pratik bir kalite güvence yöntemidir. Düzeltme sonrası nihai metin bilirkişi raporuna
eklenir.
Yabancı dilde ses kayıtları desteklenir mi?
analizlerim.com Ses-Yazı modülü öncelikle Türkçe için optimize edilmiştir. Türkçe içine serpiştirilmiş yabancı kelime ve ifadeler genellikle doğru tanınır; ancak tamamen yabancı dilde uzun bir kaydın transkripsiyonunda doğruluk düşebilir. Tamamen yabancı dilde kayıtlar için ayrı bir uzman tercüman / bilirkişi tavsiye edilir.
Bilirkişi raporunda transkripsiyon nasıl referans gösterilir?
Raporun ekinde transkripsiyon dosyasıyla birlikte (1) orijinal ses dosyasının hash değeri, (2) kullanılan transkripsiyon yönteminin adı ve sürümü, (3) konuşmacı etiketlemesinin nasıl yapıldığı belirtilmelidir. Bu üç bilgi, raporun denetlenebilirliği için minimum standarttır.
Gizli kaydedilen bir ses metne dönüştürülebilir mi?
Teknik olarak evet, ancak hukuka uygunluk ayrı bir sorudur. Tarafı olunmayan bir konuşmanın gizli kaydı TCK 132–134 kapsamında suç oluşturabilir; mahkeme böyle bir kaydı hukuka aykırı delil olarak reddedebilir. Transkripsiyon yapılmadan önce kaydın elde ediliş yöntemi mutlaka avukatınızla değerlendirilmelidir.
Sonuç ve Öneriler
Ses ve video kayıtlarının metne dönüştürülmesi, modern hukuk uygulamasının vazgeçilmez bir parçası hâline gelmiştir. Telefon kayıtları, ortam dinlemeleri, sokak görüşmeleri, sanal toplantı kayıtları — hepsi mahkemede değerlendirilebilmek için önce okunabilir bir metne dönüşmek durumundadır.
Profesyonel bir transkripsiyon süreci; doğru format desteği, konuşmacı ayrıştırma, zaman damgalama ve insan kontrolü üzerine kuruludur. Otomatik araçlar bu sürecin %95’ini bilirkişiden devralır; ancak son %5 — yani kritik bölümlerin doğrulanması ve raporun yargılama diline uyarlanması — hâlâ uzmanın işidir.
Bilirkişiler, avukatlar, hâkim ve savcılar ile adli bilişim uzmanları için ses-yazı teknolojisini tanımak ve doğru kullanmak; davalardaki delillerin etkin biçimde değerlendirilmesi açısından artık bir tercih değil, mesleki gereklilik hâline gelmiştir.
Sonraki yazılarımızda ses kaydı otantiklik analizi (forensik audio authentication), konuşmacı kimlik tespiti ve video görüntü analizinde transkripsiyonun yeri gibi spesifik konuları detaylıca inceleyeceğiz.
Bu yazı, analizlerim.com editör ekibi tarafından hazırlanmıştır. İçerik, bilgilendirme amaçlıdır; hukuki danışmanlık niteliği taşımaz. Spesifik bir hukuki sorunla ilgili olarak avukatınıza danışmanız önerilir. Son güncelleme: 9 Mayıs 2026.