Πώς να Μετατρέψεις τον Υπολογιστή σου σε Φωνητικό Βοηθό με Τεχνητή Νοημοσύνη
Ιδανική λύση για όσους αντιμετωπίζουν δυσκολία στην πληκτρολόγηση ή την όραση
Φαντάσου να μπορείς να μιλάς στον υπολογιστή σου και αυτός να σου απαντά φυσικά, σαν να συνομιλείς με έναν πραγματικό άνθρωπο. Αυτό που κάποτε έμοιαζε με επιστημονική φαντασία, είναι πλέον εφικτό — και μάλιστα εντελώς δωρεάν! Σε αυτόν τον οδηγό θα μάθεις πώς να δημιουργήσεις τον δικό σου φωνητικό βοηθό με τεχνητή νοημοσύνη, εύκολα και βήμα προς βήμα.
Γιατί να Χρησιμοποιήσεις Φωνητικό Βοηθό;
Τι Θα Χρειαστείς (Όλα Δωρεάν!)
Πριν ξεκινήσεις, δες τι θα χρειαστείς. Μην ανησυχείς — όλα είναι δωρεάν και δεν απαιτούν τεχνικές γνώσεις:
Βήμα προς Βήμα Οδηγίες
Βήμα 1: Άνοιξε το Google AI Studio
Τι είναι το Google AI Studio;
Πρόκειται για μια δωρεάν υπηρεσία της Google που σου επιτρέπει να χρησιμοποιήσεις εργαλεία τεχνητής νοημοσύνης. Είναι σαν ένα «εργαστήριο πειραμάτων» για AI.
Πώς να το ανοίξεις:
→ Άνοιξε το Google Chrome ή οποιοδήποτε πρόγραμμα περιήγησης.
→ Πληκτρολόγησε στη γραμμή διευθύνσεων: aistudio.google.com
→ Πάτησε Enter και συνδέσου με τον λογαριασμό σου Google.
Αν δεν έχεις λογαριασμό Google, πήγαινε στο gmail.com και επίλεξε «Δημιουργία λογαριασμού».
Βήμα 2: Δημιούργησε το Κλειδί API σου
Τι είναι το κλειδί API;
Είναι το προσωπικό σου «εισιτήριο» που σου δίνει πρόσβαση στα εργαλεία του Google AI. Λειτουργεί σαν κωδικός πρόσβασης για τη χρήση της υπηρεσίας.
Πώς να το δημιουργήσεις:
→ Στο AI Studio πάτησε «Get API Key» ή «Λήψη Κλειδιού».
→ Στη συνέχεια επίλεξε «Create API Key».
→ Θα εμφανιστεί ένα μακρύ κείμενο με γράμματα και αριθμούς — αυτό είναι το κλειδί σου.
→ Πάτησε «Copy» για να το αντιγράψεις.
Το κλειδί API είναι αυστηρά προσωπικό — μην το μοιραστείς με κανέναν! Φύλαξέ το με ασφάλεια, όπως θα έκανες με έναν τραπεζικό κωδικό.
Βήμα 3: Ετοίμασε το Σύστημά σου
Εγκατάστησε την Python:
Η Python είναι μια γλώσσα που «καταλαβαίνει» ο υπολογιστής σου. Είναι δωρεάν και εγκαθίσταται εύκολα:
→ Πήγαινε στο python.org
→ Κατέβασε την τελευταία έκδοση (πάτησε το μεγάλο κίτρινο κουμπί).
→ Άνοιξε το αρχείο και επίλεξε “Add Python to PATH” πριν την εγκατάσταση.
→ Πάτησε «Install Now» και περίμενε να ολοκληρωθεί.
Εγκατάστησε τα απαραίτητα εργαλεία:
Θα χρειαστείς μερικά πρόσθετα προγράμματα. Η εγκατάσταση γίνεται αυτόματα!
Για Windows:
→ Άνοιξε τη γραμμή εντολών (cmd).
→ Επικόλλησε τις παρακάτω εντολές και πατα ENTER για να ξεκινήσει η εγκατασταση:
pip install Speech Recognition
pip install pyttsx3
pip install google-generativeai
pip install pyaudio
Κατεβάζουν αυτόματα όλα τα απαραίτητα εργαλεία: για αναγνώριση φωνής, αναπαραγωγή ήχου και σύνδεση με την υπηρεσία Google AI.
Βήμα 4: Δημιούργησε το Πρόγραμμα
Το πιο εύκολο κομμάτι! Απλά:
→ Άνοιξε το Σημειωματάριο (Notepad).
→ Αντέγραψε τον κώδικα που θα δεις πιο κάτω στο άρθρο.
import sys
import time
print("=" * 60)
print("🤖 ΦΩΝΗΤΙΚΟΣ ΒΟΗΘΟΣ ΜΕ GEMINI AI")
print("=" * 60)
print("\n🔍 Έλεγχος βιβλιοθηκών...")
# Έλεγχος βιβλιοθηκών
try:
import speech_recognition as sr
print("✅ SpeechRecognition - OK")
except ImportError:
print("❌ SpeechRecognition - ΛΕΙΠΕΙ")
print(" Τρέξε: pip install SpeechRecognition")
input("\nΠάτησε Enter για έξοδο...")
sys.exit(1)
try:
import pyttsx3
print("✅ pyttsx3 - OK")
except ImportError:
print("❌ pyttsx3 - ΛΕΙΠΕΙ")
print(" Τρέξε: pip install pyttsx3")
input("\nΠάτησε Enter για έξοδο...")
sys.exit(1)
try:
import google.generativeai as genai
print("✅ google-generativeai - OK")
except ImportError:
print("❌ google-generativeai - ΛΕΙΠΕΙ")
print(" Τρέξε: pip install google-generativeai")
input("\nΠάτησε Enter για έξοδο...")
sys.exit(1)
# Βάλε εδώ το API key σου από το Google AI Studio
GEMINI_API_KEY = "ΒΑΛΤΕ_ΕΔΩ_ΤΟ_ΚΛΕΙΔΙ_ΣΑΣ"
# Έλεγχος API Key
if GEMINI_API_KEY == "ΒΑΛΤΕ_ΕΔΩ_ΤΟ_ΚΛΕΙΔΙ_ΣΑΣ":
print("\n⚠️ ΠΡΟΣΟΧΗ: Πρέπει να βάλεις το Gemini API key σου!")
print("📍 Πήγαινε στο: https://makersuite.google.com/app/apikey")
print("🔑 Δημιούργησε ένα κλειδί και βάλτο στη μεταβλητή GEMINI_API_KEY")
input("\nΠάτησε Enter για έξοδο...")
sys.exit(1)
print("\n🔧 Αρχικοποίηση συστημάτων...")
# Ρύθμιση του Gemini
try:
genai.configure(api_key=GEMINI_API_KEY)
# Δοκιμή διαφορετικών μοντέλων (τα πιο πρόσφατα πρώτα)
model_names = [
'models/gemini-2.0-flash-001',
'models/gemini-2.0-flash-lite-001',
'models/gemini-2.0-flash-thinking-exp',
'models/gemini-2.0-flash-lite',
'gemini-2.0-flash-exp',
'gemini-1.5-flash-002',
'gemini-1.5-pro-002'
]
model = None
for model_name in model_names:
try:
print(f"🔄 Δοκιμή μοντέλου: {model_name}")
test_model = genai.GenerativeModel(model_name)
# Δοκιμαστική κλήση
test_response = test_model.generate_content("Hi")
model = test_model
print(f"✅ Gemini AI - Συνδέθηκε με μοντέλο: {model_name}")
break
except Exception as e:
print(f" ❌ Αποτυχία: {str(e)[:50]}...")
continue
if model is None:
print("\n❌ Κανένα μοντέλο δεν δούλεψε!")
print("💡 Πιθανές λύσεις:")
print(" 1. Το API key σου μπορεί να μην είναι έγκυρο")
print(" 2. Δημιούργησε νέο API key από: https://aistudio.google.com/app/apikey")
print(" 3. Βεβαιώσου ότι το αντέγραψες σωστά (όλο το κλειδί)")
input("\nΠάτησε Enter για έξοδο...")
sys.exit(1)
except Exception as e:
print(f"❌ Gemini AI - ΚΡΙΣΙΜΟ ΣΦΑΛΜΑ: {e}")
input("\nΠάτησε Enter για έξοδο...")
sys.exit(1)
# Αρχικοποίηση του text-to-speech
try:
engine = pyttsx3.init()
engine.setProperty('rate', 150)
engine.setProperty('volume', 0.9)
print("✅ Text-to-Speech - OK")
except Exception as e:
print(f"❌ Text-to-Speech - ΣΦΑΛΜΑ: {e}")
input("\nΠάτησε Enter για έξοδο...")
sys.exit(1)
# Αρχικοποίηση του speech recognition
recognizer = sr.Recognizer()
# Έλεγχος μικροφώνου
try:
with sr.Microphone() as source:
print("✅ Μικρόφωνο - Βρέθηκε")
except Exception as e:
print(f"❌ Μικρόφωνο - ΣΦΑΛΜΑ: {e}")
print("\n💡 Λύσεις:")
print(" 1. Βεβαιώσου ότι έχεις μικρόφωνο συνδεδεμένο")
print(" 2. Τρέξε: pip install pyaudio")
print(" 3. Αν δεν δουλεύει, τρέξε: pip install pipwin")
print(" μετά: pipwin install pyaudio")
input("\nΠάτησε Enter για έξοδο...")
sys.exit(1)
def speak(text):
"""Μετατρέπει κείμενο σε ομιλία"""
print(f"\n🤖 Βοηθός: {text}")
try:
engine.say(text)
engine.runAndWait()
except Exception as e:
print(f"⚠️ Σφάλμα ομιλίας: {e}")
def listen():
"""Ακούει και αναγνωρίζει φωνητική εντολή"""
with sr.Microphone() as source:
print("\n🎤 Ακούω... (Μίλα τώρα!)")
recognizer.adjust_for_ambient_noise(source, duration=1)
try:
audio = recognizer.listen(source, timeout=10, phrase_time_limit=10)
print("⏳ Επεξεργασία...")
# Αναγνώριση ομιλίας (Ελληνικά)
text = recognizer.recognize_google(audio, language="el-GR")
print(f"👤 Εσύ: {text}")
return text
except sr.WaitTimeoutError:
print("⏱️ Timeout - Δεν άκουσα τίποτα")
return None
except sr.UnknownValueError:
print("❓ Δεν κατάλαβα τι είπες")
return None
except sr.RequestError as e:
print(f"❌ Πρόβλημα με την υπηρεσία: {e}")
return None
except Exception as e:
print(f"❌ Απρόσμενο σφάλμα: {e}")
return None
def get_gemini_response(prompt):
"""Παίρνει απάντηση από το Gemini AI"""
try:
response = model.generate_content(prompt)
return response.text
except Exception as e:
return f"Συγγνώμη, υπήρξε πρόβλημα με το AI: {str(e)}"
def main():
"""Κύρια συνάρτηση του βοηθού"""
print("\n" + "=" * 60)
print("✅ ΟΛΑ ΕΤΟΙΜΑ! Ο βοηθός ξεκινάει...")
print("=" * 60)
speak("Γεια σου! Είμαι ο φωνητικός σου βοηθός. Πώς μπορώ να σε βοηθήσω;")
while True:
try:
# Άκου την εντολή του χρήστη
user_input = listen()
if user_input is None:
continue
# Έλεγχος για εντολές εξόδου
exit_words = ['σταμάτα', 'τέλος', 'έξοδος', 'αντίο', 'τερματισμός']
if any(word in user_input.lower() for word in exit_words):
speak("Αντίο! Καλή συνέχεια!")
break
# Στείλε την ερώτηση στο Gemini
print("🤔 Σκέφτομαι...")
response = get_gemini_response(user_input)
# Πες την απάντηση
speak(response)
except KeyboardInterrupt:
print("\n\n⚠️ Διακοπή από χρήστη (Ctrl+C)")
speak("Τερματίζω...")
break
except Exception as e:
print(f"\n❌ Σφάλμα: {e}")
speak("Υπήρξε ένα πρόβλημα. Προσπάθησε ξανά.")
if __name__ == "__main__":
try:
main()
except Exception as e:
print(f"\n💥 ΚΡΙΣΙΜΟ ΣΦΑΛΜΑ: {e}")
import traceback
traceback.print_exc()
finally:
print("\n👋 Τερματισμός προγράμματος...")
input("Πάτησε Enter για έξοδο...")
→ Στη γραμμή που λέει GEMINI_API_KEY = "ΒΑΛΤΕ_ΕΔΩ_ΤΟ_ΚΛΕΙΔΙ_ΣΑΣ", επικόλλησε το κλειδί σου.
→ Αποθήκευσε το αρχείο ως voice_assistant.py.
Βήμα 5: Ξεκίνησε τον Βοηθό σου!
Τρεξτε το αρχειο voice_assistant.py όπως θα έτρεχες ενα πρόγραμμα
Πάτησε Enter και όταν ακούσεις «Ακούω... Μιλήστε τώρα!», δοκίμασε φράσεις όπως: «Πες μου τον καιρό σήμερα».
🎉 Συγχαρητήρια!
Έχεις πλέον τον δικό σου φωνητικό βοηθό με τεχνητή νοημοσύνη! Μίλησέ του ελεύθερα και άκου τις απαντήσεις του.
Θυμήσου ότι το API key σου είναι προσωπικό και λειτουργεί σαν «τραπεζικός λογαριασμός» για την πρόσβαση στο Google AI Studio. Μην το μοιράζεσαι ποτέ δημόσια και φύλαξέ το με ασφάλεια. Έτσι θα μπορείς να χρησιμοποιείς τον φωνητικό σου βοηθό με ηρεμία και ασφάλεια.
Φόρτωση σχολίων...